Solr搜索引擎 — 中文全拼简拼分词
搞定了中文分词下一个就是要来搞定拼音分词了,拼音分词有分为全拼和简拼
附上:
喵了个咪的博客:http://w-blog.cn
Solr官网:http://lucene.apache.org/solr/
PS:8.0.0版本已经发布,本文使用此时较为稳定的7.7.1版本
一,全拼分词
> wget http://files.cnblogs.com/files/wander1129/pinyin.zip
> unzip pinyin.zip
> mv pinyin4j-2.5.0.jar server/solr-webapp/webapp/WEB-INF/lib
> mv pinyinAnalyzer4.3.1.jar server/solr-webapp/webapp/WEB-INF/lib
> vim server/solr/new_core/conf/managed-schema<fieldType name="text_pinyin" class="solr.TextField" positionIncrementGap="0"><analyzer type="index"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer><analyzer type="query"><tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/><filter class="com.shentong.search.analyzers.PinyinTransformTokenFilterFactory" minTermLenght="2" /><filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="1" maxGram="20" /></analyzer>
</fieldType>
自制分词规则
> webapps/solr/WEB-INF/classes/
> cd /usr/local/solr-7.7.1/server/solr-webapp/webapp/WEB-INF
> mkdir classes
> wget http://pic.w-blog.cn/ikanalyzer-solr5.zip
> unzip ikanalyzer-solr5.zip
> cd ikanalyzer-solr5/
> mv ext.dic ../server/solr-webapp/webapp/WEB-INF/classes/
> mv IKAnalyzer.cfg.xml ../server/solr-webapp/webapp/WEB-INF/classes/
> mv stopword.dic ../server/solr-webapp/webapp/WEB-INF/classes/
> vim ext.dic美团
简拼分词
> wget http://pic.w-blog.cn/pinyinTokenFilter-1.1.0-RELEASE.jar
> mv pinyinTokenFilter-1.1.0-RELEASE.jar server/solr-webapp/webapp/WEB-INF/lib
> vim server/solr/new_core/conf/managed-schema<fieldType name="text_jian_pinyin" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" isMaxWordLength="false" useSmart="false" /> <filter class="solr.LowerCaseFilterFactory" /> <filter class="top.pinyin.index.solr.PinyinTokenFilterFactory" pinyin="true" isFirstChar="true" minTermLenght="2" /> <filter class="com.shentong.search.analyzers.PinyinNGramTokenFilterFactory" minGram="2" maxGram="20" /> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" isMaxWordLength="false" useSmart="false" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" /> <filter class="solr.LowerCaseFilterFactory" /> </analyzer>
</fieldType>
<field name="app_name" type="text_jian_pinyin" indexed="true" stored="true" />
Solr搜索引擎 — 中文全拼简拼分词相关推荐
- EasyUI下combobox中添加checkbox,并输入全拼简拼进行筛选显示
开发任务:combobox中对输入值进行全拼简拼的搜索筛选显示,并且可以多选,取消选择,重复搜索,于是简单的考虑了如下js操作,应该会有更好的,但也是一种方法吧.做个记录,便于后期查阅查考. 1.ht ...
- 汉字转全拼,简拼组件
这几天研究了一下如何获取汉字拼音.在网上找了一些资料.也了解了一些有关汉字编码的新概念(对本人来讲的新概念). 比如:机内码,ASCII码等 在搜索的过程中,发现几乎所 ...
- react根据中文获取拼音_vue 获取汉字的全拼、简拼、首拼
1.封装公共方法,获取汉字的全拼.简拼.首拼 export const Pinyin = { _JMcode:{ "-":"", "-":& ...
- 城市查询-汉字转拼音、拼音、全拼、简拼、混拼、卷舌音、前后鼻音、兼容查询C#与nodejs+redis应用---笔记
2018-10-18日整理更新 原文地址:http://blog.csdn.net/gzy11/article/details/52351697 实现主要功能: 1.全拼搜索.如:shanghai 搜 ...
- 根据输入汉字获取其全拼及简拼
在日常的程序设计中,我们可能会根据输入的拼音或者汉字来获取其对应包含该字符的的有效信息,这时我们就会用到其对应的全拼或者简拼.在数据量不是特别大时,还可以手动输入,但是这样会给用户带来不良的体验,造成 ...
- Android通讯录模糊查询搜索(号码,姓名,首字母简拼,全拼),批量选取联系人
Android通讯录模糊查询搜索(号码,姓名,首字母简拼,全拼),批量选取联系人 公司最近的项目中遇到一个需求需要读取通讯录联系人,并需要支持对联系人的模糊查询及批量选取,网上找了好几个例子,模糊查询 ...
- Android模糊查询(首字母、简拼、全拼,汉字)
最近公司需要模糊查询城市要求汉字.全拼.简写.一脸懵逼.然后各种百度.都是关于通讯录的.而且都是数据库.和自己的需求不一样.没办法.这个大神里面看一看,那个看一看,将自己的需求完善了.为防止以后还有这 ...
- java汉字转拼音(全拼、简拼)
java汉字转拼音(全拼.简拼) <dependency><groupId>com.belerweb</groupId><artifactId>piny ...
- Android通讯录模糊匹配搜索实现 号码 首字母 简拼 全拼
分享一下我老师大神的人工智能教程!零基础,通俗易懂!http://blog.csdn.net/jiangjunshow 也欢迎大家转载本篇文章.分享知识,造福人民,实现我们中华民族伟大复兴! Andr ...
最新文章
- 为何Redis要比Memcached好用(转)
- java 对象内存布局_Java--对象内存布局
- 3745路由器配置简单的dhcp server
- ReactOS调试之fDebug
- python怎么添加列_如何将列添加到DataFrame列?添加新列详细解释————
- 机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型
- java double用法_Java Double doubleToLongBits()用法及代码示例
- 联想e480一键恢复小孔_联想电脑如何一键恢复系统
- 转到Servlet出现500型错误
- jenkins 手动执行_Jenkins环境配置篇-增加节点
- 解决pip2安装不成功的问题
- 程序员专属段子集锦 1/10
- 全球科研城市榜出炉:前二十强中国城市占6席,北京居首
- 记使用springboot过程中遇到的一个问题
- python框架知乎_知乎网站构架变迁
- 电信天翼网关接不上服务器无信号咋小,天翼网关有wifi信号,但不能上网的问题汇总解答...
- 【JAVA】JSON随机值生成工具类
- 失败一时并不可怕,可怕的是不去总结和改正。
- 【每日一练】订单提交页面
- Who wann invitation of gmail, wallop, orkut?
热门文章
- grpc AS编译报No such property: javaCompilerTask for class错误
- 生信文献 | HOXC11作为一种新的致癌基因在人结肠癌和肾透明细胞癌中发挥作用​...
- output delay含义
- PHP 规则引擎 Hoa\Ruler
- 操作Linux软链接引起的各种问题
- IntelliJ IDEA 2021.1 关闭更新提醒
- EasyRecovery最新中文Win/Mac全版本下载安装激活数据恢复软件
- Galaxy Tab3 10.1如何开启被隐藏的开发者选项?
- 【bzoj1123】BLO
- 02-设计模式 UML类图