solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。
默认 carrot2中是支持中文的,但是需要一个参数进行指定
carrot.lang=CHINESE_SIMPLIFIED
carrot2支持的语言可以参考http://doc.carrot2.org/#section.attribute.lingo.MultilingualClustering.defaultLanguage
但是默认,carrot2使用的分词类是 org.apache.lucene.analysis.cn.smart.SentenceTokenizer,这是看 carrot源代码找到的源码如下(在org.apache.solr.handler.clustering.carrot2.LuceneCarrot2TokenizerFactory类中)
private ChineseTokenizer() throws Exception {
this.tempCharSequence = new MutableCharArray(new char[0]);
// As Smart Chinese is not available during compile time,
// we need to resort to reflection.
final Class<?> tokenizerClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.SentenceTokenizer", false);
this.sentenceTokenizer = (Tokenizer) tokenizerClass.getConstructor(
Reader.class).newInstance((Reader) null);
this.tokenFilterClass = ReflectionUtils.classForName(
"org.apache.lucene.analysis.cn.smart.WordTokenFilter", false);
}
如果,没有这个类,carrot2默认就会使用一个 ExtendedWhitespaceTokenizer 使用空格进行切词,所以如果要使用carrot2自己的中文切词,需要加入 lucene-analyzers-smartcn-4.4.0.jar
当然也可以使用自己的分词包,比如IK等等,把上述源码替换成相应的类即可。
solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。相关推荐
- 微信小程序md5加密支持中文和特殊字符
微信小程序默认的md5加密不支持中文和特殊符号,如果需要支持,需要引入md5加密.也是npm包,可在js和nodejs引入 或者使用cdn(https://cdn.bootcss.com/blueim ...
- Enc-Base64位加密程序包括源代码(支持中文和特殊符号)
Enc-Base64位加密程序包括源代码(支持中文和特殊符号) 创建一个新类,即可调用该类的加密和解密方法 Option Explicit 'Base64编码函数:Base64Encode 'In ...
- Simple: 一个支持中文和拼音搜索的 sqlite fts5插件
之前的工作关系,需要在手机上支持中文和拼音搜索.由于手机上存储数据一般都是用 sqlite,所以是基于 sqlite3 fts5 来实现.这段时间再次入门 c++,所以想用 c++ 实现一下,一来用于 ...
- ES集成中文分词器: IK 3.0
1.集成分词器 IKAnalyzer是一个开源的,基于Java语言开发的轻量级中文分词器工具包,独立于Lucene项目, 同事提供了对Lucene的默认优化实现. IK分词器3.0有下面几个特性: 采 ...
- Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器
2019独角兽企业重金招聘Python工程师标准>>> Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器 1.新建一个文件夹命名为Solr并在里面建两个文件夹分别命名 ...
- solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...
基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...
- 如何在Elasticsearch中安装中文分词器(IK+pinyin)
如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当 ...
- r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...
斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...
- solr集成IKAnalyzer中文分词器
如果想要知道如何安装solr,集成IKAnalyzer中文分词器,批量导入数据库数据,java使用参照以下本博主博文: 安装solr https://blog.csdn.net/u013294097/ ...
最新文章
- Windows系统下MySQL安装详细教程(解决MySQL服务无法启动)
- redis的主从复制,读写分离,主从切换
- html插入javascript变量,javascript如何引用变量?
- Java中数组的初始化
- 注册表在各个系统中保存路径
- 李国庆三位姐姐加入战局 正面刚俞渝:如继续侮辱我们,也将抓破你的脸!
- 阿里公共DNS 正式发布了
- find函数常见错误_如何利用FIND找出你要的数据-EXCEL-开篇3-字符串函数系列-2
- ShellExecute打开外部程序并输入相应参数
- AHP计算权重.mat
- linux mailx 发送多个附件,CentOS安装mailx用命令以SMTP方式发送带附件邮件可用SSL
- Android Tips 7
- C# 如何合并和拆分PDF文件
- python 类中public,protected,private定义方式
- Win10中photoshop打开camera raw 报错
- html中水平线颜色代码,网页设计水平线代码 怎么在dw中修改水平线的颜色
- Ingress session sticky
- java实现超时任务
- TZT3822EN静态信号测试分析系统
- VoLTE通话相关技术
热门文章
- JdbcTemplate DateTime转java.util.Date时区错误
- 【Android技巧】通过am完成发送开机广播等操作
- 彻底弄懂泰勒近似,泰勒展开由来
- 笔记-redis深入学习-1
- 从 SPA 到 PWA:Web App的下一站在哪?
- VHDL出现综合错误:“ERROR:Xst:827 - file_name Line xx: Signal xx cannot be synthesized, bad synchronous desc
- Spring Cloud教程(八)云原生应用程序
- java将“2018年4月8日”转换成正常日期:2018年04月08日
- ROW_NUMBER()的用法
- android 获取短信消息,Android开发获取短信的内容并截取短信