这篇文章,主要说的是怎么在solr中加入中文分词:
1、下载分词器:http://code.google.com/p/mmseg4j/
2、将解压后的mmseg4j-1.8.2目录下的mmseg4j-all-1.8.2.jar拷贝到Tomcat _HOME\webapps\solr\WEB-INF\lib目录下。
3、添加词库:在C:\solr-tomcat\solr目录下新建dic文件夹,将解压后的sogou-dic\data目录下的words.dic拷贝到C:\solr-tomcat\solr\dic目录下。
4、更改schema.xml(c:\solr-tomcat\solr\conf\)文件,使分词器起到作用。更改内容为:
<types> …… <!--mmseg4j field types--> <fieldType name="textComplex" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="complex" dicPath="C:\solr-tomcat\solr\dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textMaxWord" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="C:\solr-tomcat\solr\dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> <fieldType name="textSimple" class="solr.TextField" positionIncrementGap="100" > <analyzer> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="simple" dicPath="C:\solr-tomcat\solr\dic"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType> …… </types>
注:dicPath="C:\solr-tomcat\solr\dic"是你的词库路径,我的是放在了C:\solr-tomcat\solr\dic目录下。
<fields> …… <field name="simple" type="textSimple" indexed="true" stored="true" multiValued="true"/> <field name="complex" type="textComplex" indexed="true" stored="true" multiValued="true"/> <field name="text" type="textMaxWord" indexed="true" stored="true" multiValued="true"/> …… </fields>
<copyField source="simple" dest="text"/> <copyField source="complex" dest="text"/>
重启你的tomcat 。
访问:http://localhost:8089/solr/admin/analysis.jsp可以看 mmseg4j 的分词效果。在 Field 的下拉菜单选择 name,然后在应用输入 complex。分词的结果,如下图:
呵呵,可以运行起来了,那就添加个文档试试吧,在解压后的apache-solr-1.4.0\example\exampledocs目录下创建 mmseg4j-solr-demo-doc.xml 文档,内容如下:
<add> <doc> <field name="id">1</field> <field name="text">昨日,记者从解放军总参谋部相关部门获悉,截至3月28日,解放军和武警部队累计出动7.2万人次官兵支援地方抗旱救灾。组织民兵预备役人员20.2万人 次支援地方抗旱救灾。</field> </doc> <doc> <field name="id">2</field> <field name="text">下半年房价调整就是挤水分 房价回不到去年水平。</field> </doc> <doc> <field name="id">3</field> <field name="text">solr是基于Lucene Java搜索库的企业级全文搜索引擎,目前是apache的一个项目。</field> </doc> <doc> <field name="id">4</field> <field name="text">中国人民银行是中华人民共和国的中央银行。</field> </doc> </add>
然后在 cmd 下运行 post.jar,如下:
F:\lucene\solr\apache-solr-1.4.0\example\exampledocs>java -Durl=http://localhost:8089/solr/update -Dcommit=yes -jar post.jar mmseg4j-solr-demo-doc.xml (注意:F:\lucene\solr 要根据你自己的实际情况而定)
查看是否有数据,访问:http://localhost:8089/solr/admin/ 在Query String: 中输入“中国”,显示如下图所示:
呵呵,成功了。至于schema.xml中的配置属性会在下一章中进行详细的介绍。
[Solr分词顺序]
Solr建立索引和对关键词进行查询都得对字串进行分词,在向索引库中添加全文检索类型的索引的时候,Solr会首先用空格进行分词,然后把分词结果依次使用指定的过滤器进行过滤,最后剩下的结果才会加入到索引库中以备查询。分词的顺序如下:
索引
1:空格whitespaceTokenize
2:过滤词(停用词,如:on、of、a、an等) StopFilter
3:拆字WordDelimiterFilter
4:小写过滤LowerCaseFilter
5:英文相近词EnglishPorterFilter
6:去除重复词RemoveDuplicatesTokenFilter
查询
1:查询相近词
2:过滤词
3:拆字
4:小写过滤
5:英文相近词
6:去除重复词
以上是针对英文,中文的除了空格,其他都类似
文档下载:SOLR搭建企业搜索平台.doc
相关推荐
主要介绍了如和用solr搭建搜索平台的详细步骤,同时对配置文件进行了详细介绍。 运行容器:Tomcat6.0.20 Solr版本:apache-solr-1.4.0 分词器:mmseg4j-1.6.2 词库:sogou-dic
solr7.2.1环境搭建和中文分词器IK配置 亲测可用,安装过程自己记录的。
Solr 5.3.1搜索引擎搭建详细教程(包括集成mysql、添加中文分词、添加同义词、查询语法等)
最新Solr环境搭建与IKAnalyzer3分词整合
solr的基本搭建,拼音检索,三种分词器(smartcn ,IK,mmseg4j)的安装,停词器的安装
solr环境搭建的相关资料,包括solr4.10.3的项目war包以及分词器所需的jar包
NULL 博文链接:https://gjp014.iteye.com/blog/2405084
提交搜索资源并建立索引 cd /Volumes/Date/apache-tomcat-7.0.27/webapps/apache-solr-3.6.0/client java -Durl=http://localhost:8080/apache-solr-3.6.0/update -Dcommit=yes -jar post.jar *.xml 测试分词 ...
solr7.4 单机版 集群版搭建,全部linux环境。 包含集群设置IK分词器。自行搭建。真实有效。包含所需要的资源文件。
solr学习入门经典教程,赶紧学习吧,从solr的搭建讲起,中文分词器的配置
linux环境下搭建solr相关的工具包,解压即用,内含tomcatsolr以及IK分词器,jdk选择1.7以上的版本即可
apache-tomcat-8.5.24+ikanalyzer-solr6.5+solr-7.2.0,目前使用docker进行镜像安装,安装参考:https://www.jianshu.com/p/7c4d9d7dcd94
针对solr5.5.4,搭建solr索引平台、添加中文分词器、添加对word文档的支持等内容。搭建环境为jdk1.7以上版本,tomcat8以上版本。本示例以tomcat搭建为服务容器。如下载不到搭建的环境内容,可加群进行下载,qq群号为...
内涵solr单机,solr windows集群,solr linux集群搭建方法,中文分词,数据同步增量配置等
05.中文分词(1) 06.中文分词(2) 07.中文分词(3) 08.中文分词(4) 09.中文分词(5) 10.中文分词(6) 11.中文分词(7) 12.中文分词(8) 13.网页去重(1) 14.网页去重(2) 15.网页去重(3) 16.网页去重(4) 17.lucene4.6快速搭建...
solr入门环境搭建,sorl ik分词器分词,solr数据库数据导入,solr同步等技术实现及配置.版本solr7.4.0 + ikanalyzer-solr5 + solr-dataimport-scheduler
附带学习地址文档,让你快速上手投入使用。 solr的基本搭建,拼音检索,分词器的安装等 https://blog.csdn.net/weixin_36040318/article/details/89066167
在tomcat环境下搭建solr和mmseg4j搜索引擎 在tomcat环境下搭建solr和mmseg4j搜索引擎
几乎全新搭建ssm+shiro+solr7+mybatis逆向+maven多项目初步搭建测试,只是大致框架,接下来自己写,下面是linux 下solr7+tomcat8+IK中文分词器 环境 https://download.csdn.net/download/laysolitary/10686971