您好,欢迎访问一九零五行业门户网

Solr学习(2) Solr4.2.0+IK Analyzer 2012

solr列子下载 solr学习(二) solr4.2.0ik analyzer 2012 开场白: 本章简单讲述如何在solr中配置著名的 ik analyzer 分词器。 本章建立在solr学习(一) 基础上进行配置。 通过(一)的介绍,目前已经成功部署好单实例 solrtomcat 声明:描述的比较统繁琐,有偏
solr列子下载
solr学习(二) solr4.2.0+ik analyzer 2012
开场白:
本章简单讲述如何在solr中配置著名的 ik analyzer 分词器。
本章建立在 solr学习(一)  基础上进行配置。
通过(一)的介绍,目前已经成功部署好单实例 solr+tomcat
声明:描述的比较笼统繁琐,有偏差的地方请大家毫不留情的拍砖
准备工作:
下载 “ik analyzer 2012ff_hf1.zip”包。 详见:ik analyzer中文分词器创始人 林良益 博客
名词解释:
ik源目录:解压缩“ik analyzer 2012ff_hf1.zip”后得到的文件夹路径。解压缩后得到下图结构东东
ik三把刀:上图被选中的3个文件(ikanalyzer.cfg.xml、ikanalyzer2012ff_u1.jar、stopword.dic)
tomcat :以下全部指 tomcat根目录。(例:e:\\apache-tomcat-6.0.35\\)。
开始生产
步骤1:将 ik三把刀”放入目录“...\tomcat\webapps\solr\web-inf\lib”中,(注意!这里此时由于项目原来启动过一次,webapps下的“solr.war”包已经被成功发布部署成文“solr”文件夹了。所以这里是在solr文件内打开 web-inf\lib目录, 不然war包是不允许放入文件到特定目录)。
步骤2:开始设置ik分词器在“schema.xml”文件中的配置(schema.xml目录位置在 “...\tomcat\solrapp\solr\collection1\conf”此处的 collection1 是默认的文件夹,有些朋友在先前配置时候会去改变此文件夹名称,请注意自行匹配);
打开schema.xml文件(尽量使用ue打开,防止乱码)在中增加如下内容

这样就ok了。 增加了用 ik分词算法提供的字段类型。 (ik分词算法的其他扩展配置请自行参考ik算法的配置说明文档。在“ik三把刀”目录里头的pdf文件里有。)
测试阶段
可能一些朋友会想看看效果,确认一下ik分词器成功配置,接下来我们来尝试测试一下ik分词效果吧。  
(看到此处的朋友,其实可以跳到看 schema.xml的具体字段说明文章去。 大概了解一下schema.xml是干嘛用的,不过不看也无妨,我们只是为了证明ik配置成功。)
我们在 schema.xml 文件里头。找到如下代码片段。(schema.xml文件在哪里?看步骤2 ...)

意思是这里有一个字段标示名字叫做name,类型text_general,这个时候我们把类型改变成刚刚添加的ik类型text_ik; 变成:

瞎扯:我想看到这里一些朋友应该就能明白schema.xml干嘛的吧。schema.xml 就像一张很大很大的描述索引样子的表。里头有很多字段field,然后要定义字段的类型fieldtype。在在field里头引用fieldtype(有点springioc的味道 - -..)。
启动tomcat ..
进入solr界面 http://localhost:8080/solr
新手可能对solr的界面还不熟悉。我这里截图说明下。
选择core (这里没有默认配置。要去选一个);我们这里选 collection1
然后再选择 analysis
这个是分词界面。
选择刚刚我们针对配置的 name 字段。 然后输入要分词的词语 “魔兽世界” ,点按钮 “analyse values”; 会发现出现了分词为  “魔兽”“世界”
我们再试试其他没有引用分词器的字段的分词效果。 我选择了 “content” 字段,出现的结果就是全字分词了(solr默认的一种分词方式)。
结束!!!  
这里分词的多样化根据分词器来设定。。   个人喜欢使用ik analyzer分词器;而且配置solr比较方便。
其它类似信息

推荐信息