Hadoop自学笔记（三）MapReduce简介

1. mapreduce architecture mapreduce是一套可编程的框架，大部分mapreduce的工作都可以用pig或者hive完成，但是还是要了解mapreduce本身是如何工作的，因为这才是hadoop的核心，并且可以为以后优化和自己写做准备。 job client, 就是用户 job tracker和task
1. mapreduce architecture
mapreduce是一套可编程的框架，大部分mapreduce的工作都可以用pig或者hive完成，但是还是要了解mapreduce本身是如何工作的，因为这才是hadoop的核心，并且可以为以后优化和自己写做准备。
job client, 就是用户
job tracker和task tracker也是一种master - slave构建
工作流程（mapreduce pipeline）
job client提交了mapreduce的程序（比如jar包中的二进制文件），所需要的数据，结果输出位置，提交给job tracker. job tracker会首先询问name node, 所需要的数据都在哪些block里面，然后就近选择一个task tracker(离这些所需数据最近的一个task tracker,可能是在同一个node上或者同一个rack上或者不同rack上)，把这个任务发送给该task tracker， task tracker来真正执行该任务。task tracker内部有task slots来真正执行这些任务。如果执行失败了，task tracker就好汇报给job tracker， job tracker就再分配给别的task tracker来执行。task tracker在执行过程中要不断的向job tracker汇报。最后task tracker执行完成后，汇报给job tracker，job tracker就更新任务状态为成功。
注意，当用户提交一个mapreduce任务的时候，不仅仅同时把任务提交给job tracker，同时还会拷贝一份到hdfs的一个公共位置（图中的咖啡位置），因为传递代码和命令相对要容易一些，然后task tracker就可以很方便的得到这些代码。
具体步骤就是图中的7步。
2. mapreduce internals
split阶段：根据input format，把输入数据分割成小部分，该阶段与map任务同时运行，分割后就放到不同的mapper里面。
input format: 决定了数据如何被分割放入mapper。比如log, 数据库，二进制码，等。
map阶段：把分割后传入的splits转化成一些key-value对，如何转化取决于用户代码怎么写的。
shuffle & sort阶段：把map阶段得到的数据归类，然后送给reducers。
reduce阶段：把送入的map数据（key, value）按照用户的代码进行整合处理。
output format: reduce阶段处理完后，结果按照此格式放入hdfs的输出目录。
imperative programming paradigm: 把计算当做一系列改变程序状态的过程。也就是程序化编程。更加关注对象和状态。
functional programming paradigm: 大致就是函数化编程，把一系列计算作为一个数学函数。hadoop使用的是这种编程范式。有输入，有输出；没有对象没有状态。
为了优化起见，hadoop还添加了更多的一个接口，combine阶段，见下图。主要是在输送到shuffle/sort阶段前，现在本地进行一次小的reduce计算。这样可以省很多带宽（还记得job的代码放入一个公共区域了吗）
上面的整个过程看上去可能不那么直观，但是这是hadoop最难理解的部分了。理解了这个流程（hadoop pipeline），就更容易理解以后的内容了。
3. mapreduce example
举例子来说明，在实际的机器操作中hadoop如何完成上述任务。
在windows环境下安装了一个hyperv软件，里面有四个hadoop节点，每个hadoop节点都是一个ubuntu环境。
可以看到上面有一个name node,还有三个data node。
首先，连接上name node，并且打开一个data node节点。进入name node的ubuntu系统中，打开一个终端，输入jps，可以看到jvm里面正在运行的东西。
在data node机器中运行同样命令，可以看到里面运行着datanode, jps, tasktracker三个内容。
首先进入data node的机器里面，到根目录下面创建一个文件，叫words.txt，文件内容就是上图中要分析的一些词。
第二步，把这个words.txt文件放入hdfs中。
首先
hadoop/bin/hadoop fs -ls
查看目前hdfs中的文件
然后新建一个文件夹
hadoop/bin/hadoop fs -mkdir /data
我们可以使用浏览器来看看hdfs中的文件系统
浏览器中输入hnname:50070，打开web ui
可以再live nodes里面看到刚刚新建的data文件夹，执行
hadoop/bin/hadoop fs -copyfromlocal words.txt /data
然后words.txt就拷贝到/data文件夹下了，可以使用web ui来验证。
第三步，执行mapreduce 任务。这个任务是统计单词频率，这个任务已经由现成的jar包写好了，在hadoop/bin/目录下，hadoop-examples-1.2.0.jar. 这个文件里面有很多很多写好的mapreduce任务。
执行命令：
hadoop/bin/hadoop jar hadoop/hadoop*examples.jar wordcount /data/words.txt /data/results
先指定jar包，再指定程序名wordcount, 再指定输入数据/data/words.txt 最后是输出目录/data/results，没有目录会创建一个。
执行完成后，可以通过web ui来看执行结果。
我擦，原来的图片太多了发不了，不得不说删掉几张。。。。

Hadoop自学笔记（三）MapReduce简介

推荐信息