您好,欢迎访问一九零五行业门户网

用Sqoop把数据从HDFS导入到关系型数据库

由于工作的需求,需要把hdfs中处理之后的数据转移至关系型数据库中成为对应的table,在网上寻找有关的资料良久,发现各个说法不一,下面是本人自身测试过程: 使用sqoop来实现这一需求,首先要明白sqoop是什么? sqoop是一个用来将hadoop和关系型数据库中的
由于工作的需求,需要把hdfs中处理之后的数据转移至关系型数据库中成为对应的table,在网上寻找有关的资料良久,发现各个说法不一,下面是本人自身测试过程:
使用sqoop来实现这一需求,首先要明白sqoop是什么?
sqoop是一个用来将hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : mysql ,oracle ,postgres等)中的数据导进到hadoop的hdfs中,也可以将hdfs的数据导进到关系型数据库中。
首先需以下要准备:
第一:hadoop的namenode节点下lib文件夹中要有相应数据库驱动的jar包和sqoop的jar包。
第二:预先在相应的数据库创建table,注:在hdfs的某个目录上的数据格式要和相应的表中的字段数量一致。
由于我这里使用的是oracle数据库并且是使用java来操作的。所以下面的代码以及截图都是以java的例子:
首先标准化hdfs中文件格式,如下图:
java代码如下:
configuration conf = new configuration();
conf.set(fs.default.name, hdfs://192.168.115.5:9000);
conf.set(hadoop.job.ugi, hadooper,hadoopgroup);
conf.set(mapred.job.tracker, 192.168.115.5:9001);
arraylist list = new arraylist(); // 定义一个list
list.add(--table);
list.add(a_baat_client); // oracle中的表。将来数据要导入到这个表中。
list.add(--export-dir);
list.add(/home/hadoop/traffic/capuse/near7date/activeuser/capuse_near7_activeuser_2013-02-06.log); // hdfs上的目录。这个目录下的数据要导入到a_baat_client这个表中。
list.add(--connect);
list.add(jdbc:oracle:thin:@10.18.96.107:1521:life); // oracle的链接
list.add(--username);
list.add(traffic); // oracle的用户名
list.add(--password);
list.add(traffic); // oracle的密码
list.add(--input-fields-terminated-by);
list.add(|); // 数据分隔符号
list.add(-m);
list.add(1);// 定义mapreduce的数量。
string[] arg = new string[1];
exporttool exporter = new exporttool();
sqoop sqoop = new sqoop(exporter);
sqoop.setconf(conf);
arg = list.toarray(new string[0]);
int result = sqoop.runsqoop(sqoop, arg);
system.out.println(res: + result); // 打印执行结果。
最后再在main方法中运行即可,生成后表数据如下图所示:
通过上面的操作以及代码即可在java中实现把hdfs数据生成对应的表数据;
不过除了可以用java来实现,使用基本的命令也是可以的,命令如下:
在hadoop bin目录中:
sqoop export --connect jdbc:oracle:thin:@10.18.96.107:1521:life \
--table a_baat_client --username traffic --password traffic \
--input-fields-terminated-by '|' \
--export-dir /home/hadoop/traffic/capuse/near7date/activeuser/test.log  -m 1
意思和上面java中代码一样。
注意:
1、数据库表名、用户名、密码使用大写(这有可能会出现问题,因为我在测试过程中,使用小写时出现错误,出现no columns这个经典错误。所以推荐大写,当然这不是必须);
2、预先建好相应的table;
好了上面的代码实际上很是简单,不过如果是从未接触过此,那么在做的过程中会发现很多问题,而且网上的资料很是繁杂,在此个人作此篇一是为了自己做个memo;同时也希望给需要的道友一份帮助。当然过程中也许还有很多问题,望高手斧正!!!
其它类似信息

推荐信息