java调用b超_java开源中文分词-jcseg
jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。
1。目前最高版本:jcseg 1.7.1。 兼容最高版本的lucene。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。如何给jcseg添加词库/新词。
4。词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。(1.7.0版后),jcseg新版词库
5。中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"四五十"和"四十分之一"。并且jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。(1.7.0版后)
6。支持中英混合词的识别。例如:B超, x射线。
7。更好的英文支持,电子邮件,网址,小数,分数,百分数的识别。(这个对购物网站来说很重要, 1.7.0版后)。
8。支持基本单字单位的识别,例如2012年。
9。智能圆角半角转换。
10。特殊字母识别:例如:Ⅰ,Ⅱ
11。特殊数字识别:例如:①,⑩
12。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯***技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
13。智能中文人名识别。中文人名识别正确率达94%以上。(可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。
java调用b超_java开源中文分词-jcseg相关推荐
- JAVA开源中文分词器Ansj(依赖注入+调用方式+停词器)
Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...
- 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- Java 开源中文分词器Ansj 学习教程
Java有11大开源中文分词器,分别是word分词器,Ansj分词器,Stanford分词器,FudanNLP分词器,Jieba分词器,Jcseg分词器,MMSeg4j分词器,IKAnalyzer分词 ...
- 11大Java开源中文分词器的使用方法和分词效果对比
2019独角兽企业重金招聘Python工程师标准>>> 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了1 ...
- 【分词器】11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 11大Java开源中文分词器的使用方法和分词效果对比(转)
原文出处: 杨尚川 本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码 ...
- [024] 11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
- 【NLP】11大Java开源中文分词器的使用方法和分词效果对比
本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...
最新文章
- 中国率先发布全球首份车路协同技术白皮书!清华百度联手,突破自动驾驶规模落地瓶颈...
- sple表达式_学习Spring表达式语言(SpEL)
- 介绍求解AX=b:可解性与解的结构
- MAC 安装 xctool 遇到的问题
- HDU 4857 逃生(拓扑排序)
- 文件查询之三:文件和目录的批量操作
- SQL Server 2012 T-SQL 新特性
- 阿里云VPC和企业网络互通配置
- python numpy和pandas做数据分析时去掉科学记数法显示
- 小甲鱼c语言课后作业作业百度云,小甲鱼c语言视频教程
- 物联网和区块链:挑战与风险
- 在线轻松制作微信公众号封面次图的方法
- 计算机屏桌面翻页,Fliqlo翻页时钟 v1.51 - 个性化您的电脑桌面
- android 科大讯飞语音播报简单集成
- oracle表级附加日志视图,Oracle 附加日志(supplemental log)
- nwjs编写浏览器外壳
- 学习Python单利模式
- 使用java爬取国家统计局的12位行政区划代码
- springboot界面上传文件和在页面上显示文件
- 使用kindeditor中图片上传后插入不显示绝对路径的修改办法
热门文章
- c语言程序设计教程习题,《C语言程序设计教程》习题参考答案
- 如何规划创建并长期维护一个Github开源项目?
- 微信小程序如何引入外部字体包
- [Python BeautifulSoup Threading] 多线程漫画爬虫
- 课堂小作业(python)天天向上的力量 B
- STM32数据的搬运工DMA
- MyBatis框架的优点
- 汽车信息管理系统(课程设计))
- 计算机毕业设计Java住院管理系统(源码+系统+mysql数据库+Lw文档)
- java finally方法_讲解Java编程中finally语句的使用方法