Cloudera Search: 轻松实现Hadoop全文检索

近期cloudera search的推出，对于曾经做信息检索和使用过lucene/solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息。想想看，有了集一整套解决方案在手的clouderasearch在手，现在
近期cloudera search的推出，对于曾经做信息检索和使用过lucene/solr的我来讲，虽然不是那种令人乍舌的新技术，但从应用层面来考虑，我相信，对于业界而言，毫无疑问是一个相当令人兴奋的消息。想想看，有了集一整套解决方案在手的clouderasearch在手，现在任何人都可以轻而易举地像使用谷歌百度那样对存储在hadoop里面的数据进行全文检索了！
cloudera search核心部件包括hadoop和solr，后者建立在lucene之上；而hadoop也正是在06年正式成为lucene的一个子项目而发展起来的。现在，我们喜见这两个技术再度联手，为更多的用户提供了轻松利用存储在hadoop里面的海量数据来获取信息和价值的利器，可以预见，包括企业内部及外部在内的，更多的企业应用将可以围绕hadoop来展开。
下面是一个简单的cloudera search组件示意图。
通过tika, cloudera search支持大量的被广泛使用的文件格式；除此之外，clouderasearch还支持很多其他在hadoop应用中常用的数据，譬如avro, sequencefile, 日志文件等。
用来建立索引和全文检索的数据可以是来自于hdfs，譬如日志文件，hive或者hbase的表等等（通过集成ngdata的lily项目，对hbasae的支持工作也在进行中）。或者通过结合使用flume采集于外部数据源，通过一个新支持的flumesink直接写到索引库里；同时还可以充分利用flume来对要建立索引的数据进行各种预处理，譬如转换，提取创建元数据等。
?
建立的索引存储于hdfs。这给搜索带来了易于扩展，冗余和容错的好处。
此外，我们还可以运行mapreduce来对我们所需要检索的数据进行索引，提供给solr。
大多数情况下， zookeeper被用来协调各种数据的分布（参考 http://wiki.apache.org/solr/solrcloud），并提供在系统出错的情况下自动切换，提高可靠性。
在系统安装和部署方面，cloudera manager可以被用来简化繁琐枯燥的工作，并提供了管理和监控搜索服务的功能。
用户接口上，搜索用户可以使用hue的搜索界面进行查找操作。或者可以使用命令行工具或者solr的gui界面。
目前cloudera search还处于测试阶段，性能方面，一个服务器可以支持多达几亿个文档和接近tb的索引，搜索结果通常会在１至２秒之间返回。我们期待稳定版本的早日发布。
http://training.cloudera.com/elearning/searchoverview/
http://www.cloudera.com/content/support/en/documentation/cloudera-search/cloudera-search-documentation-v1-latest.html
http://wiki.apache.org/solr/
?
http://wiki.apache.org/solr/solrcloud ?
? 青春就应该这样绽放游戏测试：三国时期谁是你最好的兄弟！！你不得不信的星座秘密
原文地址：cloudera search: 轻松实现hadoop全文检索, 感谢原作者分享。

Cloudera Search: 轻松实现Hadoop全文检索

推荐信息