chukwa 是什么? 在印度神话中chukwa是一只最古老的龟。它支撑着世界。在它的背上还支撑着一种叫做maha-pudma的大象,在大象的背上顶着这个地球。呵呵,大象?hadoop?不难理解为什么在hadoop中的这个子项目叫做chukwa了,或许chukwa的其中一位开发者是印度
chukwa 是什么?
在印度神话中chukwa是一只最古老的龟。它支撑着世界。在它的背上还支撑着一种叫做maha-pudma的大象,在大象的背上顶着这个地球。呵呵,大象?hadoop?不难理解为什么在hadoop中的这个子项目叫做chukwa了,或许chukwa的其中一位开发者是印度人?呵呵,我瞎猜的,神话中的chukwa的,貌似是这样的,如图所示:
chukwa是由yahoo贡献,基于hadoop的大集群监控系统,可以用他来分析和收集系统中的数据(日志)。chukwa运行hdfs中存储数据的收集器和mapreduce框架之上,并继承了hadoop的可扩展性和鲁棒性, chukwa使用mapreduce来生成报告,他还包括一个用于监测和分析结果显示的web-portal工具,通过web-portal工具使这个收集数据的更佳具有灵活性,这点有点像是类似 linux工具,例如:awk 。这几乎是一个日志处理/分析的full stack solution,国内用hadoop做日志分析的,或者将要做日志分析的可以关注下。
搭建、运行chukwa要在linux环境下,要安装mysql数据库,在chukwa/conf目录 中有2个sql脚本 aggregator.sql、database_create_tables.sq l 导入mysql数据库,此外还要有hadoo的hdsf运行环境,chukwa的整个系统架构如图所示:
chukwa 由哪几个组件组成的?
chukwa是yahoo开发的hadoop之上的数据采集/分析框架,主要用于日志采集/分析。该框架提供了采集数据的agent,由agent采集数据通过http发送数据给cluster的collector,collector把数据sink进hadoop,然后通过定期运行map reducer来分析数据,将结果呈现给用户。
chukwa 有以下4个主要的组成部分:
agent 收集各服务器的数据
collectors 接收agent的数据;并写进存储
mapreduce jobs 归档数据
hicc 就是 hadoop infrastructure care center的四个英文单词的缩写,简单来说是个web工程用于chukwa的内容展示。
几个部件大致的处理流程如下:
在这个blog中后续会对chukwa有进一步的描述,再次感谢你的阅读。
–end–
原文地址:chukwa入门1, 感谢原作者分享。