几种常见的中文分词包的分析与比较
1:中文分词简介
2:Lucence的中文分词
3:庖丁分词简介
4:IK中文分词简介
一:中文分词简介
1:分词算法分类
-----基于字符串匹配的中文分词方法
eg:句子:我来自沈阳航空航天大学
词典:沈阳 航空 航天 大学 沈阳航空航天大学
匹配字段:
匹配结果:
选取词典中最长字段作为分词起始的最长步伐,可知最长为8
首先在句子中以“我”为起点,数八个字“我来自沈阳航空航”在词典中没有匹配到,然后步长减一,为7
然后数七个字“我来自沈阳航空”同样在字典中没有匹配到,步长减一,为6
........
步长为1时依然没有匹配到,但是是单音节词了,所以存放在匹配结果中
以此执行,下一次从“是”开始......
所以最终的匹配结果是:我 来 自 沈阳航空航天大学 沈阳 航空 航天 大学
------基于理解的分词方法
类似于人工智能分词了,能够自动识别词语的意思,进行分词
------基于统计的分词方法
这里有一篇关于基于统计分词的文章讲的相当详细,大家可以参考以下:http://www.cnblogs.com/xingyun/archive/2013/01/10/2854397.html
2:两大难题
----歧义识别
----新词识别
3:应用
----搜索引擎
----自然语言处理
二:Lucence的中文分词
1:基于字符串匹配的分词
----paoding
----mmseg4j:MMseg算法
----IK:正向迭代最细粒度划分算法
2:基于统计的分词
----imdict:采用隐马尔可夫模型
三:庖丁分词简介
极具有高效性和可扩展性,采用完全的面向对象设计,构思先进
主页:http://code.google.com/p/paoding
优点:
自定义词库,通过修改paoding-analysis.jar中的paoding-dic-home.properties文件中的“paoding.dic.home=dic”定义自己 的词库
能够对未知的词汇进行合理的分析,分词效率高
部署:
下载地址:http://pan.baidu.com/s/1eQ88SZS
1. 配置dic文件:
修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic
2. 把Jar包导入到项目中:
将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术
3:代码实例
package tokens;import java.io.IOException;
import java.io.StringReader;import net.paoding.analysis.analyzer.PaodingAnalyzer;import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;public class tokens {/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubString text = "本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。";//定义一个解析器Analyzer analyzer = new PaodingAnalyzer();//得到token序列的输出流TokenStream tokens = analyzer.tokenStream(text, new StringReader(text));try{Token t;while((t=tokens.next() ) !=null){System.out.println(t);//System.out.println(t.termText()) 输出单个词}}catch(IOException e){e.printStackTrace();}}}
扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章!
【技术服务】,详情点击查看:https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg
几种常见的中文分词包的分析与比较相关推荐
- R语言中文分词包jiebaR
R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...
- R语言——中文分词包jiebaR
R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...
- java 庖丁解牛中文分词_庖丁解牛中文分词包
http://code.google.com/p/paoding/ Paoding Analysis摘要 Paoding's Knives 中文分词具有极 高效率 和 高扩展性 .引入隐喻,采用完全的 ...
- laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...
原出处:蜘蛛池博客 原文链接:SEO除了"中文分词"还有"文本分析" - 蜘蛛池博客 对于刚入职的SEO人员,日常工作中,我们很少谈论"中文分词&qu ...
- 万字长文总结JAVA几种常见的编码格式和乱码原因分析
你知道的越多,不知道的就越多,业余的像一棵小草! 你来,我们一起精进!你不来,我和你的竞争对手一起精进! 编辑:业余草 developer.ibm.com/zh/articles/j-lo-chine ...
- 杂散干扰解决办法_实用干货——6种常见杂散问题的成因分析及解决办法
原标题:实用干货--6种常见杂散问题的成因分析及解决办法 虽然目前的高分辨率SAR ADC和Σ-Δ ADC可提供高分辨率和低噪声,但可能难以实现数据手册上的额定SNR性能.而要达到最佳SFDR,也就是 ...
- 如何在jieba分词中加自定义词典_常见中文分词包比较
1 jieba jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_sea ...
- R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)
笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...
- ictclas包 java_Java通过JNI调用ICTCLAS中文分词包的方法
1)从网络上下载ICTCLAS分词包的Java JNI版本 2)新建Java项目,类代码为: public class Exec { public static void main(String[] ...
最新文章
- 让Web开发者事半功倍的8个网站
- SQLplus 和mysql区别_mysql和oracle的区别有哪些
- 我用休眠做并发控制,搞垮了下游服务
- 为什么合伙公司,一定要重视退出机制呢?
- C/C++ debug(三)
- ACM-ICPC 2018 沈阳赛区网络预赛 B Call of Accepted(表达式求值)
- Atitit java wav 压缩 mp3功能总结 目录 1.1. Lame mp3编码器	1 1.2. 使用时发现错误,不支持Unsupported number of channels: 4
- soapui oracle groovy,SoapUI Groovy 使用实例
- 在Mac上安装SoapUI
- iOS App 签名的原理 App 重签名(一)
- hadoop之求和和自定义排序编程
- uvalive5713(次小生成树)
- 小米只能进fastboot(bl已解)怎么办
- 微信小程序的一些新手示例(¥62)
- 第一届广西英招杯部分WP
- 第二章:华为VRP(理论+实验命令)
- C++约瑟夫环改良版
- 祝福丨TF中文社区成立一周年
- FPGA三大串行通信接口之UART
- 大学英语四级考试必读必备
热门文章
- Chrome谷歌浏览器清除Cookie值和禁用Cookie
- 【智能车竞赛】状态机编程在智能车竞速赛道中的应用 - 编程小记
- 在中国人群中感染率最高的高危型HPV病毒是HPV16、HPV52和HPV58
- 快递扫地机器人被损坏_熬夜秒到的扫地机器人丢了 快递公司说最多赔几十元...
- 【KVM相关】kvm虚拟化部署配置
- 惊闻!港媒:中国首艘航母海试时间延后1个月(图)
- linux登录mysql
- 知识图谱构建——D2R的使用(二)
- 2020年笔记本电脑计算机专业,适合女生用的笔记本电脑排名2020
- 类变量、成员变量、实例变量、局部变量、静态变量、全局变量 的解释。