MySQL数据库与HDFS的实时数据同步

通过map/reduce进行批处理递送到apache hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如apache drill, cloudera impala和stinger initiative正
通过map/reduce进行批处理递送到apache hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增，因此hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询，如apache drill, cloudera impala和stinger initiative正脱颖而出，新一代的资源管理apache yarn 支持这些。
为了支持这种日渐强调实时性操作,我们正发布一个新mysql applier for hadoop(用于hadoop的mysql applier)组件。它能够把mysql中变化的事务复制到hadoop / hive / hdfs。applier 组件补充现有基于批处理apache sqoop的连接性。
这个组件(mysql applier for hadoop)的复制是通过连接mysql主服务，一旦二进制日志被提交，就读取二进制日志事务，并且把它们写到hdfs.
这个组件使用libhdfs提供的api，一个c库操作hdfs中的文件。这库由hadoop版本预编译生成的。
它连接mysql主服务读二进制日志，然后：
?提取发生在主服务上的行插入事件
?解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。
?把它追加到hdfs 中一个文本文件。
数据库被映射为单独的目录,它们的表映射为子目录，保存在数据仓库目录。每个表的数据被写到hive/ hdfs中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。
原文地址：mysql数据库与hdfs的实时数据同步, 感谢原作者分享。

MySQL数据库与HDFS的实时数据同步

推荐信息