MongoDB之Hadoop驱动介绍

对于collection分块后，会产生一个config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，
1. 一些概念hadoop是一套apache开源的分布式计算框架，其中包括了分布式文件系统dfs与分布式计算模型mapreduce，而mongodb是一个面向文档的分布式数据库，它是nosql的一种，，而这里所要介绍的就是一个mongodb的hadoop驱动，这里就是把mongodb作为mapreduce的输入源，充分利用mapreduce的优势来对mongodb的数据进行处理与计算。
2. mongodb的hadoop驱动目前这个版本的hadoop驱动还是测试版本，还不能应用到实际的生产环境中去。
你可以从下面网址https://github.com/mongodb/mongo-hadoop下载到最新的驱动包，下面是它的一些依赖说明：
目前推荐用最新的hadoop 0.20.203版本，或者是用cloudera chd3还做 mongodb的版本最好是用1.8+ 还有是mongodb的java驱动必须是2.5.3+它的一些特点：
提供了一个hadoop的input和output适配层，读于对数据的读入与写出提供了大部分参数的可配置化，这些参数都可有xml配置文件来进行配置，你可以在配置文件中定义要查询的字段，查询条件，排序策略等目前还不支持的功能：
目前还不支持多sharding的源数据读取还不支持数据的split操作3. 代码分析
运行其examples中的wordcount.java代码
4. 分块机制的简单介绍这里没有实现对不同shard的split操作，也就是说，对于分布在不同shard上的数据，只会产生一个map操作。
这里本人提供了一个分片的思路，有兴趣的可以讨论一下。
我们知道，对于collection分块后，会产生一个config数据库，在这个数据库下有一个叫做chunks的表，其中每个chunk记录了start_row与end_row，而这些chunk可以分布在不同的shard上，我们可以通过分析这个collection来得到每个shard上的chunk信息，从而把每个shard上的chunk信息组合成一个inputsplit,这就是这里的mongoinputsplit,这样的话，只要去修改mongoinputformat这个类的getsplits这个方法，加入对chunks表的分析，得到shard的信息，这样就可以实现多split的map操作，对于不同的shard,每个map都会调用本地的mongos代理服务，这样就实现了移动计算而不是移动数据的目的。

MongoDB之Hadoop驱动介绍

推荐信息