文章目录

  • 三种语系*
  • 英语的形态分析
    • 形态分析的一般方法*
  • 汉语自动分词概要
    • 重要性
    • 主要问题*
      • 汉语分词规范问题
      • 歧义切分字段处理*
        • 题型十四:判断链长*
      • 未登录词的识别
    • 基本原则*
  • 分词与词性标注结果评价方法
    • 评价指标*
      • 精确度
      • 召回率
      • F-Measure
      • 题型十五:评价指标计算
  • 自动分词基本算法
    • 最大匹配法(Maximum Matching)*
      • FMM算法描述
    • 最少分词法(最短路径法)*
    • 基于语言模型的分词方式(统计方法)*
    • 由字构成词的分词方法
    • 基于字的生成式模型和区分式模型相结合的汉语分词方法
      • 生成式模型
      • 判别式模型
    • 其他方法介绍
  • 未登录词识别
    • 中文姓名识别方法*
  • 词性标注概述
    • 面临的问题*
    • 标注集的确定原则*
  • 词性标注方法
    • 手工编写消歧规则*

三种语系*

  1. 屈折语:用词的形态变化表示语法关系;
  2. 黏着语:词内有专门表示语法意义的附加成分,词根或词干与附加成分结合不紧密;
  3. 孤立语/分析语:形态变化少,语法关系靠词序和虚词表示。

他们的词法分析方式也不同:

  1. 词的形态还原;
  2. 分词+形态还原;
  3. 分词;

英语的形态分析

包含以下五种情况:

  1. 特殊形式的单词识别,如:let’s,I’ll…
  2. 有规律变化单词的形态还原,如:ed,ing,s…
  3. 动词、名词、形容词、副词不规则变化,如:choose、chose、chosen,axis、axes…
  4. 对于表示年代、时间、百分数、货币、序数词的数字形态还原,如:¥20…;
  5. 合成词的形态还原,如:Human-computer…;

形态分析的一般方法*

  1. 查词典,如果词典中有该词,直接确定该词的原型;
  2. 根据不同情况查找相应规则对单词进行还原处理,如果还原后在词典中找到该词,则得到该词原型;如果找不到相应变换规则或者变换后词典中仍然查不到该词,则作为未登录词处理;
  3. 进入未登录词处理模块。

汉语自动分词概要

重要性

  1. 自动分词是汉语句子分析的重要基础;
  2. 词语的分析具有广泛的应用统计;
  3. 文献处理以词语为文本特征;
  4. 以词定字,以字定音。

主要问题*

汉语分词规范问题

“词是什么”、“什么是词”这是两个基本问题。

困难主要来自于两方面:

  1. 单字词和词素之间的划界;
  2. 词与短语的划界。

歧义切分字段处理*

交集型切分歧义:汉字串AJB被称为交集型切分歧义,如果满足AJ、BJ同时为词,此时J被称作交集串。

链长:一个交集型切分歧义所拥有的交集串的集合称为交集串链,它的个数称为链长。

题型十四:判断链长*

组合型歧义:汉字串AB称作组合型切分歧义,如果满足A,B,AB同时为词。
比如:将来、现在、才能、学生会等;

未登录词的识别

  1. 人名、地名、组织机构名;
  2. 新出现的词汇、术语、个别俗语。

基本原则*

  1. 语义上无法由组合成分直接相加而得到的字串应该合并为一个分词单位;(比如半斤八两,半斤和八两都是数量,但合在一起表示其他的意思)
  2. 语类无法由组合成分直接得到的字串应该合并为一个分词单位(好吃(字串的语法功能不符合组合规律)、游水(字串的内部结构不符合语法规律))。

辅助原则:

  1. 有明显分隔符标记的应该切分(上、下课 —— 上/下课);
  2. 附着性语素和前后词合并为一个分词单位(员:检查员);
  3. 使用频率高或共现率高的字串尽量合并为一个分词单位(收放);
  4. 双音节加单音节的偏正式名词尽量和并为一个分词单位(着眼点);
  5. 内部结构复杂、合并起来过于冗长的词尽量切分(参加/不/参加);

分词与词性标注结果评价方法

两种测试:

  1. 封闭测试/开放测试;
  2. 专项测试/总体测试。

评价指标*

精确度

测试结果中,正确切分或标注的个数占系统所有输出结果的比例。假设系统输出N个,其中,正确的结果为n个,那么P=nN×100%P=\frac{n}{N}\times 100\%P=Nn​×100%

全部输出结果就是TP+NPTP+NPTP+NP,正确结果就是TPTPTP。

召回率

测试结果中正确结果的个数占标准答案的比例,假设系统输出N个结果,其中,正确的结果为n个,而标准答案的个数为M个,那么R=nM×100%R=\frac{n}{M}\times100\%R=Mn​×100%

标准答案就是TP+TNTP+TNTP+TN。

F-Measure

F=β2+1β2P×RP+RF=\frac{\beta^2+1}{\beta^2}\frac{P\times R}{P+R}F=β2β2+1​P+RP×R​

题型十五:评价指标计算

自动分词基本算法

  1. 有词典切分/无词典切分;
  2. 基于规则的方法/基于统计的方法。

最大匹配法(Maximum Matching)*

有词典切分。

  1. 正向最大匹配算法(FMM);
  2. 逆向最大匹配算法(BMM);
  3. 双向最大匹配算法(MM)。

假设句子:S=c1c2...cnS=c_1c_2...c_nS=c1​c2​...cn​,某一词:wi=c1c2...cmw_i=c_1c_2...c_mwi​=c1​c2​...cm​,m为词典中最长词的字数。

FMM算法描述

  1. 令i=0i=0i=0,当前指针pip_ipi​指向输入字串的初始位置,执行下面操作:
  2. 计算当前指针pip_ipi​到字串末端的字数(即未被切分字串的长度)n,如果n=1n=1n=1,转4,结束算法。否则,令m=词典中最长单词的字数,如果n<mn\lt mn<m,令m=nm=nm=n;
  3. 从当前pip_ipi​起取m个汉字作为词wiw_iwi​,判断:
    a. 如果wiw_iwi​确实是词典中的词,则在wiw_iwi​后面添加一个切分标志,转c;
    b. 如果wiw_iwi​不是词典中的词且wiw_iwi​的长度大于1,将wiw_iwi​从右端去掉一个字,转a;否则(wiw_iwi​的长度等于1),则在wiw_iwi​后面添加一个切分标志,将wiw_iwi​作为单字词添加到词典中,执行c;
    c. 根据wiw_iwi​的长度修改指针pip_ipi​的位置,如果pip_ipi​指向字串末端,转4,否则i=i+1i=i+1i=i+1,返回2;
  4. 输出切分结果,结束分词程序。

首先,进行初始化;接着判断是否结束,若未结束设置字长;取汉字进行分词(3步走,在不在词典中)。

优点:

  1. 程序简单易行,开发周期短;
  2. 仅需要很少的语言资源,不需要任何词法、句法、语义资源;
    缺点:
  3. 歧义消解能力差;
  4. 切分正确率不高,一般在95%。

最少分词法(最短路径法)*

根据字典。

基本思想:

算法描述:

  1. 相邻节点vk−1,vkv_{k-1},v_kvk−1​,vk​之间建立有向边<vk−1,vk><v_{k-1},v_k><vk−1​,vk​>,边对应的词默认为ck(k=1,2,...,n)c_k(k=1,2,...,n)ck​(k=1,2,...,n)。
  2. 如果w=cici+1...cj(0<i<j≤n)w=c_ic_{i+1}...c_j(0\lt i\lt j\le n)w=ci​ci+1​...cj​(0<i<j≤n)是一个词,则节点vi−1,vjv_{i-1},v_jvi−1​,vj​之间建立有向边<v_{i-1},v_j>,边对应的词为www。
  3. 重复步骤2,直到没有新路径产生。
  4. 从产生的所有路径中,选择路径最短作为最终分词结果。

词是节点的间隔,如果几个间隔是一个词,那么两个节点可以直接相连接。

首先,相邻节点之间建立边;然后如果连续边是一个词,那么两端的节点直接相连;重复直到没有新路径产生;选择最短路径作为最终分词结果。

优点:

  1. 切分原则符合汉语自身规律;
  2. 需要的语言资源不是很多;

缺点:

  1. 对歧义字段难以区分;
  2. 字串长度较大和选取的最短路径数增大时,长度相同的路径数急剧增加,难以选择最终结果。

基于语言模型的分词方式(统计方法)*

优点:

  1. 减少了很多手工标注的工作;
  2. 在训练语料规模足够大和覆盖的领域足够多时,可以获得较高的准确率。

缺点:

  1. 训练语料的规模和覆盖领域不好把握;
  2. 计算量较大。

由字构成词的分词方法

基本思想:将分词的过程看作是字的分类。该方法认为,每个字在构成一个特定的词语时,都占据着一个确定的构词位置,即词位。比如说每个字可以有四个词位:词首(B)、词中(M)、词尾(E)和单独成词(S)。

依据分类结果划分就行。

优点:

  1. 平衡看待词表词和未登录词的识别问题,文本中的词表词和未登录词都是用统一的字标注过程来实现;
  2. 在学习架构上,也不必强调词表词信息,也不用专门设计特定的未登录词识别模块,因此,大大简化了分词系统的设计。

基于字的生成式模型和区分式模型相结合的汉语分词方法

生成式模型:n元语法模型;
区分式模型:由字构成词的分词方法。

生成式模型对于集内词(词典词)的处理可能获得较好的效果,但对于集外词(未登录词)的分词效果欠佳。基于字的区分式模型则相反。

生成式模型

假设o是观察值,q是模型。如果对p(o∣q)p(o|q)p(o∣q)建模,就是生成式模型。其基本思想是:首先建立样本的概率密度模型,再利用模型进行推理预测。要求已知样本无穷多或者尽可能地多。该方法一般建立在统计学和Bayes的基础上。

主要特点是:从统计的角度表示数据的分布情况,能够反映同类数据本身的相似度;

主要优点是:所带的信息比判别式模型丰富;

主要缺点是:学习和计算过程比较复杂。

判别式模型

对条件概率建模。在有限样本条件下建立判别函数,不考虑样本的产生模型,直接研究预测模型。

主要特点是:寻找不同类别之间的最优分类面,反映异类数据之间的差异;

主要优点是:容易学习;

主要缺点是:黑盒操作,变量关系不清楚。

其他方法介绍

全切分方法:首先切分处与词表匹配的所有可能词,然后用统计语言模型和决策算法决定最优切分结果。优点是可以发现所有的切分歧义,但取决于统计语言模型和决策算法;缺点是需要大量的标注语料,分词速度慢。

未登录词识别

中文姓名识别方法*

  1. 姓名库匹配,以姓氏作为触发信息,寻找潜在名字;
  2. 计算潜在姓名的概率估值及相应姓氏的姓名阈值,根据姓名概率评价函数和**
    **对潜在的姓名进行筛选。




词性标注概述

面临的问题*

词性标注的主要任务是消除词性兼类歧义。这在任何一种语言中都普遍存在。

如英语而言:
Time flies like an arrow,不同的词性会带来不同的解释。

在汉语中:

  1. 形同音不同(他这个人什么都好,就是好酗酒);
  2. 同形、同音,但意义不相干(每次他都会在会上制造点新闻);
  3. 具有典型意义的兼类词(教育孩子、教育事业);
  4. 上述情况的组合(银行,行注目礼,彼此之间同形不同音,单独的话同音同形)。

标注集的确定原则*

标注的符号规则意义表,辅助词性标注。

一般原则:

  1. 标准性:普遍使用和认可的分类标准和符号集;
  2. 兼容性:与已有资源标记尽量一致,或可转换;
  3. 可扩展性:扩充或修改。

Upenn Treebank的词性标注集确定原则:

  1. 可恢复性:从标注语料能恢复原词汇或借助于句法信息能区分不同词类;
  2. 一致性:功能相同的词应该属于同一类;
  3. 不明确性:为了避免标注着在不明确的条件下任意决定标注类型,允许标注者给出多个标记(仅限于一些特殊情况)。

词性标注方法

手工编写消歧规则*

建立非兼类词典;
建立兼类词典;
构造兼类词识别规则;

规则(为兼类词明确词性)有:

  1. 并列鉴别规则;词成并列结构(人民的要求和愿望,并列结构,词性统一)
  2. 同境鉴别规则;词在同一个语境下(优秀的企业必须具备一流的产品、管理、服务,同一语境下,词性统一)
  3. 区别词鉴别规则(区别词只能直接修饰名词,大型调查,大型是鉴别词,后接名词);
  4. 唯名形容词鉴别规则(有些形容词只能直接修饰名词,重大损失,重大是唯名形容词,后接名词)。

第六章 词法分析与词性标注相关推荐

  1. NLP复习资料(3)-六~七章:马尔科夫模型与条件随机场、词法分析与词性标注

    NLP复习资料 1.第六章 马尔科夫模型与条件随机场 2.第七章 词法分析与词性标注 国科大,宗老师<自然语言处理>课程复习笔记,个人整理,仅供参考. 1.第六章 马尔科夫模型与条件随机场 ...

  2. 第六章_循环神经网络(RNN)

    文章目录 第六章 循环神经网络(RNN) CNN和RNN的对比 http://www.elecfans.com/d/775895.html 6.1 为什么需要RNN? 6.1 RNN种类? RNN t ...

  3. 三万五千字长文!让你懂透编译原理(六)——第六章 属性文法和语法制导翻译

    三万五千字长文!让你懂透编译原理(六)--第六章 属性文法和语法制导翻译 长文预警 系列文章传送门: 万字长文+独家思维导图!让你懂透编译原理(一)--第一章 引论 万字长文!让你懂透编译原理(二)- ...

  4. 《自然语言处理(哈工大 关毅 64集视频)》学习笔记:第六章 markov模型

    视频列表: 38 markov模型(一) 39 markov模型(二) 40 markov模型(三) 41 markov模型(四) 42 markov模型(五) 38 markov模型(一) 第六章 ...

  5. 王道考研 计算机网络笔记 第六章:应用层

    本文基于2019 王道考研 计算机网络: 2019 王道考研 计算机网络 个人笔记总结 第一章:王道考研 计算机网络笔记 第一章:概述&计算机网络体系结构 第二章:王道考研 计算机网络笔记 第 ...

  6. JavaScript高级程序设计(第3版)第六章读书笔记

    第六章 面向对象的程序设计 1. 数据属性 [[Configurable]]:表示能否通过delete删除属性从而重新定义属性.默认值为true. [[Enumerable]]:表示能否通过for-i ...

  7. 数字图像处理——第六章 彩色图像处理

    数字图像处理--第六章 彩色图像处理 文章目录 数字图像处理--第六章 彩色图像处理 1 彩色模型 1.1 RGB彩色模型 1.2 CMY 和CMYK彩色模型 1.3 HSI彩色模型 2 伪彩色图像处 ...

  8. java三维滑雪,第六章 三维数据空间分析方法.ppt

    第六章 三维数据空间分析方法 * * * * 可视性分析 * * 自然邻域法插值 基本思路: 利用输入点及邻近栅格单元进行插值生成栅格表面. 方法: 利用输入数据点(样本点)为节点,建立Delauna ...

  9. Knockout应用开发指南 第六章:加载或保存JSON数据

    原文:Knockout应用开发指南 第六章:加载或保存JSON数据 加载或保存JSON数据 Knockout可以实现很复杂的客户端交互,但是几乎所有的web应用程序都要和服务器端交换数据(至少为了本地 ...

最新文章

  1. 【uni-app】swiper 实现纵向轮播,且支持鼠标滚轮滚动翻页
  2. zigbee传输速率_wifi智能开关和zigbee智能开关有哪些区别
  3. 从“中国听”到“听中国”!全球化下的音乐产业 迈向5G时代
  4. 计算机电缆执行标准是什么,DJYVP计算机电缆执行标准
  5. 推荐使用Ubutun16.04亮度调节工具
  6. 捷径晚年生活/养老方式大全110+城市旅居场景
  7. 容器化部署openvpn,访问策略配置
  8. APP软件开发的步骤
  9. python早读读后感_《学习Python》读后感摘抄
  10. 编码的奥秘:手电筒剖析
  11. 58同城和赶集网要合并了!
  12. SAP携手“大数据之都” 共推大数据创新
  13. 有容云:微服务容器化的挑战和解决之道
  14. OpenSSHOpenSSL至最新版本
  15. php 自动获取头像,PHP_WordPress中用于获取及自定义头像图片的PHP脚本详解,get_avatar()(获取头像) get_avat - phpStudy...
  16. 2022年计算机软件水平考试信息安全工程师(中级)练习题及答案
  17. 【Gradle】Gradle报错:Using insecure protocols with repositories,without explicit opt-in,,is unsupported.
  18. WIN 7下配置Qt环境变量
  19. 深度学习:Keras基础--序贯模型(sequential)
  20. 警用装备管理工作总结

热门文章

  1. Revit中单位转换,英尺转换为毫米(Revit二次开发)
  2. Java辅助之反射,序列与反序列
  3. 视频上传,视频压缩FFMpeg
  4. 大专计算机专业能考警察吗,谁说大专和本科不可以报考国家公安部?
  5. HTML常用单词总结
  6. 介绍ps有几种通道:颜色通道、Alpha通道和专色通道
  7. 转转二手为用户提供高效率交易平台
  8. 即构科技:一家聚集音视频通讯领域顶尖人才的公司
  9. 新巨丰深交所上市:市值82亿 伊利是股东,贡献70%收入
  10. python实现图片转换pdf