1:中文分词简介

2:Lucence的中文分词

3:庖丁分词简介

4:IK中文分词简介

一:中文分词简介

1:分词算法分类

-----基于字符串匹配的中文分词方法

eg:句子:我来自沈阳航空航天大学

词典:沈阳  航空  航天  大学  沈阳航空航天大学

匹配字段:

匹配结果:

选取词典中最长字段作为分词起始的最长步伐,可知最长为8

首先在句子中以“我”为起点,数八个字“我来自沈阳航空航”在词典中没有匹配到,然后步长减一,为7

然后数七个字“我来自沈阳航空”同样在字典中没有匹配到,步长减一,为6

........

步长为1时依然没有匹配到,但是是单音节词了,所以存放在匹配结果中

以此执行,下一次从“是”开始......

所以最终的匹配结果是:我  来   自  沈阳航空航天大学  沈阳  航空  航天  大学

------基于理解的分词方法

类似于人工智能分词了,能够自动识别词语的意思,进行分词

------基于统计的分词方法

这里有一篇关于基于统计分词的文章讲的相当详细,大家可以参考以下:http://www.cnblogs.com/xingyun/archive/2013/01/10/2854397.html

2:两大难题

----歧义识别

----新词识别

3:应用

----搜索引擎

----自然语言处理

二:Lucence的中文分词

1:基于字符串匹配的分词

----paoding

----mmseg4j:MMseg算法

----IK:正向迭代最细粒度划分算法

2:基于统计的分词

----imdict:采用隐马尔可夫模型

三:庖丁分词简介

极具有高效性和可扩展性,采用完全的面向对象设计,构思先进

主页:http://code.google.com/p/paoding

优点:

自定义词库,通过修改paoding-analysis.jar中的paoding-dic-home.properties文件中的“paoding.dic.home=dic”定义自己 的词库

能够对未知的词汇进行合理的分析,分词效率高

部署:

下载地址:http://pan.baidu.com/s/1eQ88SZS

1. 配置dic文件:

修改paoding-analysis.jar中的paoding-dic-home.properties文件,将“#paoding.dic.home=dic”的注释去掉,并配置成自己dic文件的本地存放路径。eg:/home/hadoop/work/paoding-analysis-2.0.4-beta/dic

2. 把Jar包导入到项目中:

将paoding-analysis.jar、commons-logging.jar、lucene-analyzers-2.2.0.jar和lucene-core-2.2.0.jar四个包导入到项目中,这时就可以在代码片段中使用庖丁解牛工具提供的中文分词技术

3:代码实例

package tokens;import java.io.IOException;
import java.io.StringReader;import net.paoding.analysis.analyzer.PaodingAnalyzer;import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.Token;
import org.apache.lucene.analysis.TokenStream;public class tokens {/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubString text = "本思想就是在分词的同时进行句法、语义分析, 利用句法信息和语义信息来进行词性标注, 以解决分词歧义现象。因为现有的语法知识、句法规则十分笼统、复杂, 基于语法和规则的分词法所能达到的精确度远远还不能令人满意, 目前这种分词系统还处在试验阶段。";//定义一个解析器Analyzer analyzer = new PaodingAnalyzer();//得到token序列的输出流TokenStream tokens = analyzer.tokenStream(text, new StringReader(text));try{Token t;while((t=tokens.next() ) !=null){System.out.println(t);//System.out.println(t.termText())  输出单个词}}catch(IOException e){e.printStackTrace();}}}
4:分词结果
四:IK中文分词简介
请参考之前的一篇博客:http://blog.csdn.net/gamer_gyt/article/details/47168877

扫一扫 关注微信公众号!号主 专注于搜索和推荐系统,尝试使用算法去更好的服务于用户,包括但不局限于机器学习,深度学习,强化学习,自然语言理解,知识图谱,还不定时分享技术,资料,思考等文章!


【技术服务】,详情点击查看:https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg


几种常见的中文分词包的分析与比较相关推荐

  1. R语言中文分词包jiebaR

    R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...

  2. R语言——中文分词包jiebaR

    R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...

  3. java 庖丁解牛中文分词_庖丁解牛中文分词包

    http://code.google.com/p/paoding/ Paoding Analysis摘要 Paoding's Knives 中文分词具有极 高效率 和 高扩展性 .引入隐喻,采用完全的 ...

  4. laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...

    原出处:蜘蛛池博客 原文链接:SEO除了"中文分词"还有"文本分析" - 蜘蛛池博客 对于刚入职的SEO人员,日常工作中,我们很少谈论"中文分词&qu ...

  5. 万字长文总结JAVA几种常见的编码格式和乱码原因分析

    你知道的越多,不知道的就越多,业余的像一棵小草! 你来,我们一起精进!你不来,我和你的竞争对手一起精进! 编辑:业余草 developer.ibm.com/zh/articles/j-lo-chine ...

  6. 杂散干扰解决办法_实用干货——6种常见杂散问题的成因分析及解决办法

    原标题:实用干货--6种常见杂散问题的成因分析及解决办法 虽然目前的高分辨率SAR ADC和Σ-Δ ADC可提供高分辨率和低噪声,但可能难以实现数据手册上的额定SNR性能.而要达到最佳SFDR,也就是 ...

  7. 如何在jieba分词中加自定义词典_常见中文分词包比较

    1 jieba jieba.cut 方法接受三个输入参数: 需要分词的字符串:cut_all 参数用来控制是否采用全模式:HMM 参数用来控制是否使用 HMM 模型 jieba.cut_for_sea ...

  8. R语言︱文本挖掘之中文分词包——Rwordseg包(原理、功能、详解)

    笔者寄语:与前面的RsowballC分词不同的地方在于这是一个中文的分词包,简单易懂,分词是一个非常重要的步骤,可以通过一些字典,进行特定分词.大致分析步骤如下: 数据导入--选择分词字典--分词 但 ...

  9. ictclas包 java_Java通过JNI调用ICTCLAS中文分词包的方法

    1)从网络上下载ICTCLAS分词包的Java JNI版本 2)新建Java项目,类代码为: public class Exec { public static void main(String[] ...

最新文章

  1. 让Web开发者事半功倍的8个网站
  2. SQLplus 和mysql区别_mysql和oracle的区别有哪些
  3. 我用休眠做并发控制,搞垮了下游服务
  4. 为什么合伙公司,一定要重视退出机制呢?
  5. C/C++ debug(三)
  6. ACM-ICPC 2018 沈阳赛区网络预赛 B Call of Accepted(表达式求值)
  7. Atitit java wav 压缩 mp3功能总结 目录 1.1. Lame mp3编码器 1 1.2. 使用时发现错误,不支持Unsupported number of channels: 4
  8. soapui oracle groovy,SoapUI Groovy 使用实例
  9. 在Mac上安装SoapUI
  10. iOS App 签名的原理 App 重签名(一)
  11. hadoop之求和和自定义排序编程
  12. uvalive5713(次小生成树)
  13. 小米只能进fastboot(bl已解)怎么办
  14. 微信小程序的一些新手示例(¥62)
  15. 第一届广西英招杯部分WP
  16. 第二章:华为VRP(理论+实验命令)
  17. C++约瑟夫环改良版
  18. 祝福丨TF中文社区成立一周年
  19. FPGA三大串行通信接口之UART
  20. 大学英语四级考试必读必备

热门文章

  1. Chrome谷歌浏览器清除Cookie值和禁用Cookie
  2. 【智能车竞赛】状态机编程在智能车竞速赛道中的应用 - 编程小记
  3. 在中国人群中感染率最高的高危型HPV病毒是HPV16、HPV52和HPV58
  4. 快递扫地机器人被损坏_熬夜秒到的扫地机器人丢了 快递公司说最多赔几十元...
  5. 【KVM相关】kvm虚拟化部署配置
  6. 惊闻!港媒:中国首艘航母海试时间延后1个月(图)
  7. linux登录mysql
  8. 知识图谱构建——D2R的使用(二)
  9. 2020年笔记本电脑计算机专业,适合女生用的笔记本电脑排名2020
  10. 类变量、成员变量、实例变量、局部变量、静态变量、全局变量 的解释。