默认 carrot2中是支持中文的,但是需要一个参数进行指定

carrot.lang=CHINESE_SIMPLIFIED

carrot2支持的语言可以参考http://doc.carrot2.org/#section.attribute.lingo.MultilingualClustering.defaultLanguage

但是默认,carrot2使用的分词类是 org.apache.lucene.analysis.cn.smart.SentenceTokenizer,这是看 carrot源代码找到的源码如下(在org.apache.solr.handler.clustering.carrot2.LuceneCarrot2TokenizerFactory类中)

private ChineseTokenizer() throws Exception {
        this.tempCharSequence = new MutableCharArray(new char[0]);

// As Smart Chinese is not available during compile time,
        // we need to resort to reflection.
        final Class<?> tokenizerClass = ReflectionUtils.classForName(
            "org.apache.lucene.analysis.cn.smart.SentenceTokenizer", false);
        this.sentenceTokenizer = (Tokenizer) tokenizerClass.getConstructor(
            Reader.class).newInstance((Reader) null);
        this.tokenFilterClass = ReflectionUtils.classForName(
            "org.apache.lucene.analysis.cn.smart.WordTokenFilter", false);
      }

如果,没有这个类,carrot2默认就会使用一个 ExtendedWhitespaceTokenizer 使用空格进行切词,所以如果要使用carrot2自己的中文切词,需要加入  lucene-analyzers-smartcn-4.4.0.jar

当然也可以使用自己的分词包,比如IK等等,把上述源码替换成相应的类即可。

solr4.4.0 集成 carrot2 支持中文和添加自己的中文分词器的方法。相关推荐

  1. 微信小程序md5加密支持中文和特殊字符

    微信小程序默认的md5加密不支持中文和特殊符号,如果需要支持,需要引入md5加密.也是npm包,可在js和nodejs引入 或者使用cdn(https://cdn.bootcss.com/blueim ...

  2. Enc-Base64位加密程序包括源代码(支持中文和特殊符号)

    Enc-Base64位加密程序包括源代码(支持中文和特殊符号) 创建一个新类,即可调用该类的加密和解密方法 Option   Explicit 'Base64编码函数:Base64Encode 'In ...

  3. Simple: 一个支持中文和拼音搜索的 sqlite fts5插件

    之前的工作关系,需要在手机上支持中文和拼音搜索.由于手机上存储数据一般都是用 sqlite,所以是基于 sqlite3 fts5 来实现.这段时间再次入门 c++,所以想用 c++ 实现一下,一来用于 ...

  4. ES集成中文分词器: IK 3.0

    1.集成分词器 IKAnalyzer是一个开源的,基于Java语言开发的轻量级中文分词器工具包,独立于Lucene项目, 同事提供了对Lucene的默认优化实现. IK分词器3.0有下面几个特性: 采 ...

  5. Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器

    2019独角兽企业重金招聘Python工程师标准>>> Solr4.3整合到Tomcat中并添加MMSeg4j中文分词器 1.新建一个文件夹命名为Solr并在里面建两个文件夹分别命名 ...

  6. solr mysql 分词_solr 7+tomcat 8 + mysql实现solr 7基本使用(安装、集成中文分词器、定时同步数据库数据以及项目集成)...

    基本说明 Solr是一个开源项目,基于Lucene的搜索服务器,一般用于高级的搜索功能: solr还支持各种插件(如中文分词器等),便于做多样化功能的集成: 提供页面操作,查看日志和配置信息,功能全面 ...

  7. 如何在Elasticsearch中安装中文分词器(IK+pinyin)

    如何在Elasticsearch中安装中文分词器(IK+pinyin) 如果直接使用Elasticsearch的朋友在处理中文内容的搜索时,肯定会遇到很尴尬的问题--中文词语被分成了一个一个的汉字,当 ...

  8. r与python自然语言处理_Python自然语言处理实践: 在NLTK中使用斯坦福中文分词器 | 我爱自然语言处理...

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  9. solr集成IKAnalyzer中文分词器

    如果想要知道如何安装solr,集成IKAnalyzer中文分词器,批量导入数据库数据,java使用参照以下本博主博文: 安装solr https://blog.csdn.net/u013294097/ ...

最新文章

  1. Windows系统下MySQL安装详细教程(解决MySQL服务无法启动)
  2. redis的主从复制,读写分离,主从切换
  3. html插入javascript变量,javascript如何引用变量?
  4. Java中数组的初始化
  5. 注册表在各个系统中保存路径
  6. 李国庆三位姐姐加入战局 正面刚俞渝:如继续侮辱我们,也将抓破你的脸!
  7. 阿里公共DNS 正式发布了
  8. find函数常见错误_如何利用FIND找出你要的数据-EXCEL-开篇3-字符串函数系列-2
  9. ShellExecute打开外部程序并输入相应参数
  10. AHP计算权重.mat
  11. linux mailx 发送多个附件,CentOS安装mailx用命令以SMTP方式发送带附件邮件可用SSL
  12. Android Tips 7
  13. C# 如何合并和拆分PDF文件
  14. python 类中public,protected,private定义方式
  15. Win10中photoshop打开camera raw 报错
  16. html中水平线颜色代码,网页设计水平线代码 怎么在dw中修改水平线的颜色
  17. Ingress session sticky
  18. java实现超时任务
  19. TZT3822EN静态信号测试分析系统
  20. VoLTE通话相关技术

热门文章

  1. JdbcTemplate DateTime转java.util.Date时区错误
  2. 【Android技巧】通过am完成发送开机广播等操作
  3. 彻底弄懂泰勒近似,泰勒展开由来
  4. 笔记-redis深入学习-1
  5. 从 SPA 到 PWA:Web App的下一站在哪?
  6. VHDL出现综合错误:“ERROR:Xst:827 - file_name Line xx: Signal xx cannot be synthesized, bad synchronous desc
  7. Spring Cloud教程(八)云原生应用程序
  8. java将“2018年4月8日”转换成正常日期:2018年04月08日
  9. ROW_NUMBER()的用法
  10. android 获取短信消息,Android开发获取短信的内容并截取短信