jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。

1。目前最高版本:jcseg 1.7.1。 兼容最高版本的lucene。

2。mmseg四种过滤算法,分词准确率达到了98.41%。

3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词。

4。词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。(1.7.0版后),jcseg新版词库

5。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"四五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。(1.7.0版后)

6。支持中英混合词的识别。例如:B超, x射线。

7。更好的英文支持,电子邮件,网址,小数,分数,百分数的识别。(这个对购物网站来说很重要, 1.7.0版后)。

8。支持基本单字单位的识别,例如2012年。

9。智能圆角半角转换。

10。特殊字母识别:例如:Ⅰ,Ⅱ

11。特殊数字识别:例如:①,⑩

12。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯***技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。

13。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。

java调用b超_java开源中文分词-jcseg相关推荐

  1. JAVA开源中文分词器Ansj(依赖注入+调用方式+停词器)

    Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...

  2. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  3. Java 开源中文分词器Ansj 学习教程

    Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...

  4. 11大Java开源中文分词器的使用方法和分词效果对比

    2019独角兽企业重金招聘Python工程师标准>>> 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了1 ...

  5. 【分词器】11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  6. 11大Java开源中文分词器的使用方法和分词效果对比(转)

    原文出处: 杨尚川 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码 ...

  7. [024] 11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  8. Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  9. 【NLP】11大Java开源中文分词器的使用方法和分词效果对比

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

最新文章

  1. 中国率先发布全球首份车路协同技术白皮书!清华百度联手,突破自动驾驶规模落地瓶颈...
  2. sple表达式_学习Spring表达式语言(SpEL)
  3. 介绍求解AX=b:可解性与解的结构
  4. MAC 安装 xctool 遇到的问题
  5. HDU 4857 逃生(拓扑排序)
  6. 文件查询之三:文件和目录的批量操作
  7. SQL Server 2012 T-SQL 新特性
  8. 阿里云VPC和企业网络互通配置
  9. python numpy和pandas做数据分析时去掉科学记数法显示
  10. 小甲鱼c语言课后作业作业百度云,小甲鱼c语言视频教程
  11. 物联网和区块链:挑战与风险
  12. 在线轻松制作微信公众号封面次图的方法
  13. 计算机屏桌面翻页,Fliqlo翻页时钟 v1.51 - 个性化您的电脑桌面
  14. android 科大讯飞语音播报简单集成
  15. oracle表级附加日志视图,Oracle 附加日志(supplemental log)
  16. nwjs编写浏览器外壳
  17. 学习Python单利模式
  18. 使用java爬取国家统计局的12位行政区划代码
  19. springboot界面上传文件和在页面上显示文件
  20. 使用kindeditor中图片上传后插入不显示绝对路径的修改办法

热门文章

  1. c语言程序设计教程习题,《C语言程序设计教程》习题参考答案
  2. 如何规划创建并长期维护一个Github开源项目?
  3. 微信小程序如何引入外部字体包
  4. [Python BeautifulSoup Threading] 多线程漫画爬虫
  5. 课堂小作业(python)天天向上的力量 B
  6. STM32数据的搬运工DMA
  7. MyBatis框架的优点
  8. 汽车信息管理系统(课程设计))
  9. 计算机毕业设计Java住院管理系统(源码+系统+mysql数据库+Lw文档)
  10. java finally方法_讲解Java编程中finally语句的使用方法