中文分词

就是将一句话分解成一个词一个词,英文中可以用空格来做,而中文需要用一些技术来处理。

三类分词算法:

1. 基于字符串匹配:

将汉字串与词典中的词进行匹配,如果在词典中找到某个字符串,则识别出一个词。

优点,速度快,都是O(n)时间复杂度,实现简单。

缺点,对歧义和未登录词处理不好。

此类型中常用的几种分词方法有:

  • 1. 正向最大匹配法:假设词典中最大词条所含的汉字个数为n个,取待处理字符串的前n个字作为匹配字段。若词典中含有该词,则匹配成功,分出该词,然后从被比较字符串的n+1处开始再取n个字组成的字段重新在词典中匹配;如果没有匹配成功,则将这n个字组成的字段的最后一位剔除,用剩下的n一1个字组成的字段在词典中进行匹配,如此进行下去,直到切分成功为止。(链接:http://www.jianshu.com/p/e978053b0b95)
  • 2. 逆向最大匹配法:与正向的区别在于如果匹配不成功则减去最前面的一个字。
  • 3. 最少切分使每一句中切出的词数最少。
2. 基于理解:

通常包括三个部分:分词(用来获得有关词)、句法语义(利用句法和语义信息来对分词歧义进行判断)、总控。

3. 基于统计:

对语料中相邻共现的各个字的组合的频度进行统计,将概率最大的分词结果作为最终结果。常见的模型有HMM和CRF。

优点,能很好处理歧义和未登录词问题。

缺点,需要大量的人工标注数据,以及较慢的分词速度。

部分分词工具:

中科院计算所NLPIR http://ictclas.nlpir.org/nlpir/

ansj分词器 https://github.com/NLPchina/ansj_seg

哈工大的LTP https://github.com/HIT-SCIR/ltp

清华大学THULAC https://github.com/thunlp/THULAC

斯坦福分词器,Java实现的CRF算法。 https://nlp.stanford.edu/software/segmenter.shtml

Hanlp分词器,求解的是最短路径。 https://github.com/hankcs/HanLP

结巴分词,基于前缀词典,生成句子中所有可能成词所构成的有向无环图 (DAG),采用动态规划查找最大概率路径, 找出基于词频的最大切分组合,对于未登录词,采用了 HMM 模型,使用 Viterbi 算法。 https://github.com/yanyiwu/cppjieba

KCWS分词器(字嵌入+Bi-LSTM+CRF),本质上是序列标注。 https://github.com/koth/kcws

ZPar https://github.com/frcchang/zpar/releases

IKAnalyzer https://github.com/wks/ik-analyzer

java中文分词工具_中文分词常用方法简述相关推荐

  1. python 分词工具_「分词工具」干货 | 史上最全中文分词工具整理 - seo实验室

    分词工具 作者 | fendouai 分词服务接口列表 二.准确率评测: THULAC:与代表性分词软件的性能对比 我们选择LTP-3.2.0 .ICTCLAS(2015版) .jieba(C++版) ...

  2. java中文分词工具_中文分词工具(LAC) 试用笔记

    一.背景 笔者2年前写过一篇<PHP使用elasticsearch搜索安装及分词方法>的文章,记录了使用ES的分词的实现步骤,最近又需要用到分词,在网上发现一个百度的中文分词项目,中文词法 ...

  3. python100例 分词-Python中文分词工具之结巴分词用法实例总结【经典案例】

    本文实例讲述了Python中文分词工具之结巴分词用法.分享给大家供大家参考,具体如下: 结巴分词工具的安装及基本用法,前面的文章<Python结巴中文分词工具使用过程中遇到的问题及解决方法> ...

  4. python中文文本分析_中文文本处理

    斯坦福大学自然语言处理组是世界知名的NLP研究小组,他们提供了一系列开源的Java文本分析工具,包括分词器(Word Segmenter),词性标注工具(Part-Of-Speech Tagger), ...

  5. python中文分词工具_结巴中文分词工具的安装使用 Python分词教程

    结巴分词 中文分词是中文文本处理的一个基础性工作,结巴分词利用进行中文分词.其基本实现原理有三点: 1.基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG) ...

  6. 结巴分词优点_中文分词概述及结巴分词原理

    词是中文表达语义的最小单位,中文分词是中文文本处理的一个基础步骤,分词的结果对中文信息处理至为关键. 本文先对中文分词方法进行概述,然后简单介绍结巴分词背后的原理. 1. 中文分词概述 中文分词根据实 ...

  7. 中文表示什么_中文分词是个伪问题

    六年以前,第一个中文分词系统的发明人郝玺龙先生对我讲,中文分词是个伪问题.当时NLP刚入门的我完全听不懂. 最近试用了一下BERT,做了个简单的文本分类.以前做这类任务的方法都是先分词,然后把词向量化 ...

  8. 关键词分词工具_竞价推广:关键词的重要性究竟在哪里?如何进行关键词筛选?...

    了解竞价的人都知道关键词对于推广效果的重要性.关键词的选择以及出价高低等决定了企业竞价账户的关键词有没有展现,如果关键词没有较高的展现度,那么就意味着企业广告很可能无法使消费者看见,后续的转化更加无从 ...

  9. 关键词分词工具_为解决万千竞价员分词痛苦的——厚昌分词工具2.0版 即将正式上线...

    ​​01 竞价推广是企业在进行营销推广时一定不会放过的一种推广方式. 于企业来说,竞价推广是可以以较低的成本,较短的时间,带来更多的精准目标人群,获取较大效益的一种推广方式.于竞价员而言,搭建一个优质 ...

最新文章

  1. Linux之grep命令
  2. mysql 数据库操作类_【数据库操作类】10个php操作数据库类下载
  3. 关于 Linux 操作
  4. linux内核阅读感悟,读Kernel感悟-Linux内核启动-从hello world说起
  5. Oracle底子根基数据圭臬尺度存储格式浅析(三)——日期圭臬尺度(四)
  6. 蔚来es6_国产Model Y订单挤爆官网,蔚来ES 6惨遭大量退订?
  7. Atitit 招人之道 招不到人怎么办 attilax著 1. 适当降低要求 水至清则无鱼 太严格了就没有人了 2 1.1. 学历可以提升 可以开个企业内部学院快速提升学历 2 1.2. ,能力可以
  8. 汇编语言程序设计-钱晓捷(第五版)第三章-汇编语言程序格式
  9. Java中this的用法
  10. 项目经理的修炼,直面需求变更
  11. python文件修改
  12. ios开发 多人语音聊天_iOS语音通话(语音对讲)
  13. Paper翻译:《MobileNet Based Apple Leaf Diseases Identification》
  14. C++小游戏《末日之战1:新生》1.12.31823.132
  15. 基于.NetCore开发博客项目 StarBlog - (12) Razor页面动态编译
  16. 思考与总结【3】:专注于一件事
  17. ScrollView的属性(纵向的用HorizontalScrollView)
  18. Axon Framework简介
  19. python提取word目录_python批量提取word内信息
  20. gorilla/mux 翻译

热门文章

  1. Arch Linux系统安装
  2. nRF5340(入门篇)之1.4 浅谈双核系统
  3. 资深模具师分享模具生锈的处理方法,赶快收藏起来吧!
  4. E:rin和快速迭代
  5. 统计学,机器学习,深度学习和数控编程简介
  6. JavaFX 相关资源
  7. 11个springboot快速开发的项目,接私活利器
  8. 【设计模式】模板设计模式与适配器设计模式
  9. 【网络安全】CmsEasy 漏洞挖掘
  10. 问题小记之 使用 nil 索引 Lua table