在pom.xml中添加依赖:

com.thihy

elasticsearch-analysis-paoding

1.4.2.1

org.elasticsearch

elasticsearch

1.5.2

到网上下载paoding分词器

在src/main/resources/paoding建立文件:paoding-analysis.properties,内容如下paoding.analyzer.mode=most-words

paoding.analyzer.dictionaries.compiler=net.paoding.analysis.analyzer.impl.MostWordsModeDictionariesCompiler

paoding.dic.home=classpath:paoding/dic

paoding.dic.detector.interval=60

paoding.knife.class.letterKnife=net.paoding.analysis.knife.LetterKnife

paoding.knife.class.numberKnife=net.paoding.analysis.knife.NumberKnife

paoding.knife.class.cjkKnife=net.paoding.analysis.knife.CJKKnife

将dic文件夹拷贝到src/main/resources/paoding下

测试@Test

public void test() throws IOException {

Analyzer analyzer = new PaodingAnalyzer("classpath:paoding/paoding-analysis.properties");

String text = "我爱北京天安门";

TokenStream tokenStream = analyzer.tokenStream("", text);

tokenStream.reset();

while (tokenStream.incrementToken()) {

CharTermAttribute charTermAttribute = tokenStream

.addAttribute(CharTermAttribute.class);

System.out.println(charTermAttribute);

}

}

运行单元测试,控制台输出:我爱

北京

天安

天安门

paoding java_中文分词器-PaodingAnalyzer相关推荐

  1. 如何在基于Lucene的中文分词器中添加自定义词典(如Paoding、mmseg4j、IK Analyzer)...

    如何在基于Lucene的中文分词器中添加自定义词典(如Paoding.mmseg4j.IK Analyzer) 2013-07-08 21:54:29|  分类: 计算机 |字号 订阅 1. 使用Pa ...

  2. 11大Java开源中文分词器的使用方法和分词效果对比

    2019独角兽企业重金招聘Python工程师标准>>> 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了1 ...

  3. 【Elasticsearch】Elasticsearch analyzer 中文 分词器

    1.概述 转载: https://blog.csdn.net/tzs_1041218129/article/details/77887767 分词器首先看文章:[Elasticsearch]Elast ...

  4. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  5. Java开源的11个中文分词器使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. 【分词器】11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  7. 11大Java开源中文分词器的使用方法和分词效果对比(转)

    原文出处: 杨尚川 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码 ...

  8. [024] 11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  9. Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

最新文章

  1. python数据结构与算法:栈
  2. 在 ASP.NET 网页中不经过回发而实现客户端回调
  3. java架构师_前谷歌高级Java架构师分享工作8年经验(如何成为一名架构师)
  4. Codeforces Round #552 (Div. 3) —— A. Restoring Three Numbers
  5. CMake基础 第7节 编译标志
  6. python批量合并csv_如何在Python中通过多个列合并两个CSV文件
  7. 计算机概论在线阅读,计算器概论 or 计算机概论
  8. 1. Go语言顺序程序设计,错误处理
  9. 离散数学:构造性二难推理和破坏性二难定理的解释
  10. 解决utf8编码的php生成csv打开乱码的问题
  11. python之通过thread来实现多进程
  12. 支付安全不能说的那些事
  13. 拟物设计和Angular的实现 - Material Design (持续更新)
  14. 【话题:工作生活】2021年工作总结--这些人,那些事。
  15. PHP学习笔记好(待完善)
  16. Linux - 虚拟网络设备 - bridge,veth,namespace
  17. 韩:已撤销慰安妇财团法人资格 将启动清算程序
  18. Verify the connector‘s configuration, identify and stop any process that‘s listening on port 8911
  19. 必读论文 | 卷积神经网络百篇经典论文推荐
  20. 7-191 百钱百鸡

热门文章

  1. pytorch学习笔记(十二):详解 Module 类
  2. PyTorch: 序列到序列模型(Seq2Seq)实现机器翻译实战
  3. LeetCode简单题之验证外星语词典
  4. 计图MPI分布式多卡
  5. 多款激光雷达性能评估
  6. FPGA最全科普总结
  7. 2021年大数据HBase(十一):Apache Phoenix的视图操作
  8. Thrift的服务器和客户端Python案例
  9. js生成随机数函数,倒计时函数
  10. Installation error: INSTALL_FAILED_INSUFFICIENT_STORAGE