hive是基于hadoop的数据仓库平台。 hive提供了类sql查询语言。hive的数据存储于hdfs中。一般情况下,用户提交的查询将被hive转换为mapreduce作业并提交给hadoop运行。 我们从hive的安装开始,逐步学习hive的方方面面。 安装hive 安装前提 l java 6 l hadoop
hive是基于hadoop的数据仓库平台。
hive提供了类sql查询语言。hive的数据存储于hdfs中。一般情况下,用户提交的查询将被hive转换为mapreduce作业并提交给hadoop运行。
我们从hive的安装开始,逐步学习hive的方方面面。
安装hive安装前提l java 6
l hadoop
选择哪一个版本请参照hive官方文档。安装have是不需要特别设置关于hadoop的信息,只要保证hadoop_home环境变量正确设置就可以了。
安装我们选择下载0.11.1稳定版本。下载地址:
http://mirrors.hust.edu.cn/apache/hive/stable/
1) 解压安装包到指定的目录:
tar xzf hive-0.11.0.tar.gz
2) 设置环境变量
export hive_install=/opt/hive-0.11.0
export path=$path:$hive_install/bin
3)输入以下命令进入shell
hive
hive交互环境( shell)shell是我们和hive交互的主要工具。
hive的查询语言我们称为hiveql。hiveql的设计受到了mysql的很多影响,所以如果你熟悉mysql的话,你会发现使用hiveql是同样的方便。
进入shell后,输入以下命令看看hive是否工作正常:
show tables;
输出结果为:
ok
time taken: 8.207seconds
如果输出结果显示有错误,可能是hadoop没有运行,或者hadoop_home变量没有真确设置。
和sql一样,hiveql一般是大小写无关的(字符串比较除外)。
输入命令是按tab键,hive将提示所有可用的输入。(命令自动完成)
第一次使用该命令可能会花上好几秒中甚至更长,因为hive将创建metastore数据库(存储于metastore_db目录,此目录在你运行hive时所在目录之下,所以第一次运行hive时,请先进入到合适的目录下)。
我们也可以直接从命令行运行hive脚本,比如:
hive –f /home/user/ hive.q
其中,-f 后面跟上脚本文件名(包括路径)。
无论是在交互模式还是非交互模式下,hive一般都会输出一些辅助信息,比如执行命令的时间等。如果你不需要输出这些消息,可以在进入hive时加上-s选项,比如:
hive –s
注意:s为大写
简单示例我们以以下数据作为测试数据,结构为(班级号,学号,成绩)。
c01,n0101,82
c01,n0102,59
c01,n0103,65
c02,n0201,81
c02,n0202,82
c02,n0203,79
c03,n0301,56
c03,n0302,92
c03,n0306,72
执行以下命令:
create table student(classnostring, stuno string, score int) row format delimited fields terminated by ',';
其中,定义表结构和sql类似.。其它设置表示字段间以逗号分隔,一行为一个记录。
load data local inpath '/home/user/input/student.txt'overwrite into table student;
输出结果如下:
copying data fromfile:/home/user/input/student.txt
copying file:file:/home/user/input/student.txt
loading data to tabledefault.student
rmr: deprecated: please use 'rm-r' instead.
deleted/user/hive/warehouse/student
table default.student stats:[num_partitions: 0, num_files: 1, num_rows: 0, total_size: 117, raw_data_size:0]
这个命令将student.txt文件内容加载到表student中。这个加载操作将直接把student.txt文件复制到hive的warehouse目录中,这个目录由hive.metastore.warehouse.dir配置项设置,默认值为/user/hive/warehouse。overwrite选项将导致hive事先删除student目录下所有的文件。
hive不会对student.txt做任何格式处理,因为hive本身并不强调数据的存储格式。
此例中,hive将数据存储于hdfs系统中。当然,hive也可以将数据存储于本地。
如果不加overwrite选项,且加载的文件在hive中已经存在,则hive会为文件重新命名。比如不加overwrite选项将以上命令执行两次,则第二次加载后,hive中新产生的文件名将会是“student_copy_1.txt”。(和hadoop权威教程中描述的不一致,读者请慎重验证)
接下来,我们执行以下命令:
select * from student;
输出如下:
c01 n0101 82
c01 n0102 59
c01 n0103 65
c02 n0201 81
c02 n0202 82
c02 n0203 79
c03 n0301 56
c03 n0302 92
c03 n0306 72
执行以下命令:
select classno,count(score) fromstudent where score>=60 group by classno;
输出如下:
c01 2
c02 3
c03 2
由此看见,hiveql的使用和sql及其类似。我们用到了group和count,其实在后台hive将这些操作都转换成了mapreduce操作提交给hadoop执行,并最终输出结果。