1. 汉语分词定义

世界上语言种类我们之前提过,像英语一样的屈折语在词与词之间是使用空格隔开的,像日语这种黏着语和汉语这种孤立语,则并没有使用空格隔开,这也意味着,汉语和日语这种更需要在语义上理解其句子的含义,而结构也是依赖于意义而产生的。

简单来讲,汉语分词就是把汉语像英语一样,词与词之间用空格间隔。而这工作需要使用计算机来自动完成。

这虽然看似简单的一个任务,却耗费了中国近20年的时间,至今没有达到理想水平。在开始时,通常采用基于规则的方法来做这项任务,但是由于汉语实在过于复杂,因此没有取得一定的成果。后来转向基于统计的方法,取得了一定的成果,但仍未达到理想水平。其主要原因主要在于第二部分所讲的。

2. 汉语分词的难点

汉语分词的难点有以下几个,首先汉语分词的规范就不统一,不同的学者有不同的看法。因此对于汉语文本中出现的词语认同率只能达到70%。因此标准没有统一,接下来就很难做出一定的规范。

其次,由于汉语结构依赖于语义而存在,因此不同的理解会造成不同的结构。这就导致了歧义的发生。而一旦发生歧义,那么不仅影响的是当前词的分词结果,更会影响整体的分词结果。

第三,未登录词的问题。未登录词一是指训练集中未出现的词,二是指已有词表中未收录的词。事实上,未登录词就是训练集中没有的词。没有出现的词既可能是由于训练集不够大,没有收录当前已存在的词,也有可能是由于新词的不断产生。而实验证明,未登录词对于分词精度的影响远远超出了歧义切分。

3. 汉语歧义切分问题

汉语的歧义切分问题是普遍存在的。总的来讲分为交集型切分歧义以及多义组合型切分歧义。<

计算语言学之汉语分词相关推荐

  1. 自然语言处理:汉语分词

    NLPIR/ICTCLAS 汉语分词系统(http://ictclas.nlpir.org) PyNLPIR 是该汉语分词系统的 python 封装版(http://pynlpir.readthedo ...

  2. 灵玖Nlpir Parser语义智能系统精准汉语分词

    词是最小的能够独立活动的有意义的语言成分.在汉语中,由于词与词之间不存在分隔符,词本身也缺乏明显的形态标记,因此汉语浅层分析的特有问题就是如何将汉语的字串分割为合理的词语序列. 实际上,汉语分词的主要 ...

  3. 中文开源汉语分词工具

    本文转载自:http://www.scholat.com/vpost.html?pid=4477 由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文 ...

  4. 自然语言处理简介(1)---- 服务梳理与传统汉语分词

    文章大纲 1.Nlp技术体系简介 1.1 基础技术 1.2 Nlp 核心技术 1.3 NlP+(高端技术) 2.知名NLP 服务系统简介 2.1汉语分词系统ICTCLAS 2.2 哈工大语言云(Lan ...

  5. python汉语分词,python汉语分词的简单示例

    对python这个高级语言感兴趣的小伙伴,下面一起跟随编程之家 jb51.cc的小编两巴掌来看看吧! 目前我常常使用的分词有结巴分词.NLPIR分词等等 最近是在使用结巴分词,稍微做一下推荐,还是蛮好 ...

  6. 《自然语言处理实战入门》 ---- 第4课 :中文分词原理及相关组件简介 之 汉语分词领域主要分词算法、组件、服务(上)...

    目录 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.2 语言技术平台(Language Technology Platfo ...

  7. 《自然语言处理实战入门》第三章 :中文分词原理及相关组件简介 ---- 汉语分词领域主要分词算法、组件、服务(上)

    文章大纲 0.内容梗概 1. 基于传统统计算法的分词组件 1.1 hanlp : Han Language Processing 1.1.1 pyhanlp 安装 1.1.2 功能及分词样例 1.1. ...

  8. ICTCLAS2013(NLPIR汉语分词系统) Java版本的使用方法

    这个工具是什么?先看看他的官方介绍吧: NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词:词性标注:命名实体识别:用户词典功能:支持GBK编码.UTF8编码.BIG5编码.新 ...

  9. 中科院分词ICTCLAS汉语分词系统简单配置

    汉语分词一直来说都是进行文本分析的瓶颈,这里介绍一个汉语分词系统ICTCLAS,全球很受欢迎的汉语分词开源系统,曾获得首界国际分词大赛综合排名第一,国家973评测第一名:支持词典,多级词性标注,支持人 ...

最新文章

  1. 【翻译】Play框架入门教程一:建立项目
  2. 使用 IntraWeb (31) - IntraWeb 的 Xml 操作使用的是 NativeXml
  3. 线段树什么的最讨厌了
  4. matlab曲线拟合 最低点,Matlab曲线拟合 最小二乘法 polyfit【转】
  5. 【强化学习】可视化学习tensorboard
  6. android开发按钮颜色,Android编程实现简单设置按钮颜色的方法
  7. c语言实现输入任何十进制数,转换为相对应的2进制数 递归,我做的是这个C语言程序:采用递归方法,实现将十进制整数转换成二进制数(含整数部分与小数部分)...
  8. ansible批量安装服务器思路
  9. RecyclerView.ItemDecoration 间隔线
  10. 【u249】新斯诺克
  11. 11. JavaScript 对象
  12. postfix+dovecot+maildrop+mailscanner+clamav+spamassassin搭建rhel6平台邮件服务器
  13. springboot - 应用实践(2)第一个springboot应用
  14. CSDN 博客前200名
  15. win7美化_Windows桌面美化记(二)这可能是你看过最详细的美化教程
  16. cast to pointer from integer of different size [-Wint-to-pointer-cast], cast from ‘void*’ to ‘int’ l
  17. 本地 Git 文件夹显示绿色标识
  18. 凛冬已至:大厂裁员浪潮,基础福利大砍,行业饱和,大龄程序员该如何自处
  19. C#叠加合并半透明图像的两种实现
  20. java 语音包_有人开发了马保国语音包

热门文章

  1. c++ 正则表达式验证手机号码
  2. outlook邮件搜索方法与技巧
  3. 三年一跳槽、拒绝“唯学历”,火速 Get 这份程序员求生指南!
  4. java for循环如何优化_java for循环及其优化
  5. 高燃、邓迪、张鹤翔 MySee创业团队
  6. seneca mysql_seneca-entity的mysql插件自增主键
  7. 浅谈BSGS和EXBSGS
  8. Vue3计算属性和异步计算属性
  9. 新年找工作的注意啦:一般通用面试内容【转】
  10. C++ STL函数库 pair (henu.hjy)