目录结构 hadoop集群(cdh4)实践之 (0) 前言 hadoop集群(cdh4)实践之 (1) hadoop(hdfs)搭建 hadoop集群(cdh4)实践之 (2) hbasezookeeper搭建 hadoop集群(cdh4)实践之 (3) hive搭建 hadoop集群(chd4)实践之 (4) oozie搭建 hadoop集群(chd4)实践之 (5) sqoop安
目录结构
hadoop集群(cdh4)实践之 (0) 前言
hadoop集群(cdh4)实践之 (1) hadoop(hdfs)搭建
hadoop集群(cdh4)实践之 (2) hbase&zookeeper搭建
hadoop集群(cdh4)实践之 (3) hive搭建
hadoop集群(chd4)实践之 (4) oozie搭建
hadoop集群(chd4)实践之 (5) sqoop安装
本文内容
hadoop集群(cdh4)实践之 (0) 前言
下面进入正文
在我初学hadoop的期间,我写过一个系列的hadoop入门文章,第一篇就是《hadoop集群实践 之 (0) 完整架构设计》
在之前的系列文章中,我对hadoop的一些入门概念也进行了讲解,主要是针对我曾经所遇到过的一些疑惑。
同时,在之前的系列文章中,我还列出了一些小的操作demo来加深对各个工具的理解。
那么为什么这次又要写这个系列的文章呢,看起来内容感觉都是重复的。
其实,主要是由于以下原因:
1. 之前的文章是基于ubuntu 10.10 系统,也同样适用于新版的ubuntu,但是采用centos作为生产环境的情况更多;
同时由于ubuntu有一些改动与开源社区的步伐不太一致,因此目前有唱衰ubuntu的趋势。
2. centos随着epel等扩展库的规范和快速发展,目前已经具备了和ubuntu同等规模的丰富的软件库,通过yum安装和部署软件也非常的方便;
3. 之前的文章是基于cdh3的,而目前hadoop的发展,cdh4已经成为了主流,同时具备cdh3所不具备的一些功能,我觉得最有用的功能有以下:
a) namenode ha,与secondary namenode不同,cdh4提供了一种ha的方式,可以确保双节点namenode;
b) tasktracker 提供了容错机制,可以确保并行计算过程中,不会因为某一个节点出错而导致整个并行计算的失败;
因此,基于以上原因,本文是在centos 6.4 x86_64的系统上,基于cdh4的环境下完成的。
不过,目前还没有完成namenode ha 和 tasktracker容错的测试,相关内容暂时还无法看到。
同时,本文采用了非yarn方式,而是与cdh3相同的mrv1计算框架,为了确保公司之前线上环境所开发的代码能够准确无误的运行。
下面,就让我们开始整个实战演练过程:
hadoop集群(cdh4)实践之 (1) hadoop(hdfs)搭建
hadoop集群(cdh4)实践之 (2) hbase&zookeeper搭建
hadoop集群(cdh4)实践之 (3) hive搭建
hadoop集群(chd4)实践之 (4) oozie搭建
hadoop集群(chd4)实践之 (5) sqoop安装