形态分析、汉语分词与词性标注

概述

词：自然语言中能够独立运用的最小单位，NLP的基本单位
不同语言在词法层面需要完成不同的分析任务
- 曲折语：词的形态变化表示语法关系——形态分析、形态还原
- 分析语：词语切分
- 黏着语：词语切分 + 形态还原
词性（词类，Part-of-Speech，POS）：词的语法分类
- 具有相同句法功能、能够出现在同样组合位置中的词聚合在一起的范畴
- 汉语：分为实词和虚词两大类
- 词性标注：系统自动对（句子中的、受到上下文约束的）词汇标注词性标记

英语形态分析

基本任务
- 单词识别，缩略词的整词判定
  - 词典 + 规则
- 形态还原
  - 有规律变化的单词的形态还原——逆规则还原
  - 动词、名词、形容词、副词不规则变化的形态还原——词表还原
  - 表示年代、时间、百分数、货币、序数词的数字形态还原——逆规则还原
  - 合成词形态还原——拆分、逆规则还原
形态分析一般方法
- 查字典，确定原型
- 根据相应规则还原处理，查找字典寻找原型，否则按照未登录词处理
- 进入未登录词处理

汉语自动分词

概要

重要性
- 汉语句子分析的基础
- 分词的广泛应用（词频统计、词典编纂、文章风格研究）
- 文献处理以词语为文本特征
- 对文本校对、同音字、多音字识别以及简繁体转换有重要作用
主要问题
- 分词归还规范
  - 单字词 vs. 词素？
  - 词 vs. 短语？
- 歧义切分字段处理
  - 交集型歧义P19
    - 链长：一个交集型切分歧义所拥有的交集串的集合称为交集串链，其中字的个数为链长
  - 组合型歧义P22
- 未登录词的识别
  - 人名、地名、组织机构名
  - 新出现的词汇、术语、个别俗语
基本原则
- 语义上无法由组合成份直接相加而得到的字串应该合并为一个分词单位（合并原则）
- 语类无法由组合成分直接得到的字串应该合并为一个分词单位（合并原则）
  - 语法功能不符合组合规律
  - 内部结构不符合语法规律
辅助原则：操作性原则
- 有明显分隔符标记的应该切分之（切分原则）
- 附着性语素与前后词合并为一个单位（合并原则）
- 使用频率高或贡献频率高的子串尽量合并（合并原则）
- 双音节加单音节的偏正式名词尽量合并（合并原则）
- 双音节结构的偏正式动词应尽量合并（合并原则）
- 内部结构复杂、合并后过于冗长的词尽量切分（切分原则）
  - 含接尾词
  - 动词带双音节结果补语
  - ……P30

性能评价方法

测试方法
- 封闭测试 vs. 开放测试
- 专项测试 vs. 总体测试
评价指标
- 正确率：切分结果中的正确结果总数
- 召回率：切分正确结果占正确结果总数
  - ROOVR_{OOV}ROOV集外词召回率
  - RIVR_{IV}RIV集内词召回率
- F值：F=(β2+1)PRβ2P+RF = \frac {(\beta^2 + 1) P R}{\beta^2 P + R}F=β2P+R(β2+1)PR
- F-1值：β\betaβ取1的F值
自动分词方法
- 有词典切分 vs. 无词典切分
- 基于规则的方法 vs. 基于统计的方法
- 最大匹配法
  - 有词典切分，又称机械切分法
  - 正向最大匹配方法
    - 给定字串S=c1…cnS=c_1 \dots c_nS=c1…cn，某一词wi=c1…cmw_i = c_1 \dots c_mwi=c1…cm，mmm为词典中最长词的字数
    - 算法P41
  - 逆向最大匹配方法（准确率略高）
    - 从尾部开始贪婪匹配
  - 双向最大匹配算法
    - 同时向中间贪婪匹配
  - 优点：实现简单，不需要词法等资源
  - 弱点：歧义消解能力差、正确率不高
- 最短路径法
  - 有词典切分
  - 待切分字串SSS，建立一个节点数为n+1n + 1n+1的DAG GGG，个节点对应编号为v0,…,vnv_0, \dots, v_nv0,…,vn，节点间的弧对应每个字，如果两个字可组成字典中的词，增加一个跨点弧对应这个词，目标寻找最短路径
  - 求最短路径：贪心法或简单扩展法
  - 算法P45
  - 存在一些例外
  - 优点：切分原则符合汉语自身规律，需要的语言资源不多（词典）
  - 弱点：对歧义字段难以区分，字串长度较大时难度越大
- 基于语言模型的分词方法
  - 无词典切分
  - 对待切分句子SSS，WWW为一种可行切分
  - W∗=arg⁡max⁡Wp(W)P(S∣W)W^\ast = \arg \max_W p(W) P(S|W)W∗=argmaxWp(W)P(S∣W)
  - 前者使用语言模型计算，后者使用生成模型计算
  - 优点：训练语料足够大时准确率较高
  - 弱点：依赖于训练语料规模和质量，计算量大
- 基于HMM的分词方法
  - S^W=arg⁡max⁡SWp(SW∣μ)\widehat S_W = \arg \max_{S_W} p(S_W | \mu)SW=argmaxSWp(SW∣μ)
  - 切分序列视为输出序列，词性序列视为状态序列
- 由字构词（字标注）分词方法
  - 马尔可夫随机场
  - 四个词位标记：B、M、E、S
  - 优点：能够平衡看待词表词和未登录词，由统一的字标注过程实现
  - 弱点：对集内词处理能力不如基于语言模型的分词方法（后者对词内字的互信息更加敏感）
- 生成式方法与区分式方法的结合
  - 生成式——n-gram
    - 给定观察ooo，选择模型qqq，最大化p(O∣q)p(O | q)p(O∣q)
    - 能够很好处理数据不完整的情形
    - 但是计算过程比较复杂
  - 区分式——条件随机场
    - 有限样本对后验概率p(q∣O)p(q | O)p(q∣O)进行建模
    - 比较容易学习
    - 存在黑盒效应
  - 结合方法1：待切分字串每个字用[c,t]i[c, t]_i[c,t]i（字，字标注）替代，作为一个统计基元，使用nnn-gram模型选择全局最优
    - p([c,t]1n)=∏ip([c,t]i∣[c,t]i−ki−1)p([c, t]_1^n) = \prod_i p([c, t]_i | [c, t]_{i - k}^{i - 1})p([c,t]1n)=∏ip([c,t]i∣[c,t]i−ki−1)
    - 优势：充分考虑了相邻字之间的依存关系，对集内词有更好的鲁棒性
    - 弱点：难以利用后续上下文信息
  - 结合方法2：插值
    - score⁡(tk)=αlog⁡(p([c,t]i∣[c,t]i−ki−1))+(1−α)log⁡(p(tk∣ck−2k+2))\operatorname{score}(t_k) = \alpha \log(p([c, t]_i | [c, t]_{i - k}^{i - 1})) + (1 - \alpha) \log (p(t_k | c_{k - 2}^{k + 2}))score(tk)=αlog(p([c,t]i∣[c,t]i−ki−1))+(1−α)log(p(tk∣ck−2k+2))

未登录词识别

命名实体
- 人名、地名、组织机构名、数字、货币、日期
- 存在一定的规律
其他新词
- 专业术语、新的普通词汇
中文姓名处理
- 难点
  - 用字广泛而松散，规律不明显
  - 姓氏、名字可以特指某一类人
  - 部分用字可以视为普通用字
  - 缺乏可利用的启发标记
- 识别方法
  - 姓名库匹配
  - 计算潜在姓名的概率估值和相应姓氏的姓名阈值，利用评价函数和修饰规则进行筛选
  - 计算概率值，对假设姓名Xm1m2X m_1m_2Xm1m2，利用频率计算概率p(name)=F(X)F(m1)F(m2)p(name) = F(X) F(m_1) F(m_2)p(name)=F(X)F(m1)F(m2)
  - 确定阈值Tmin(X)=F(X)min⁡{F(m1)F(m2)}T_{min}(X) = F(X) \min \{F(m_1) F(m_2)\}Tmin(X)=F(X)min{F(m1)F(m2)}
  - 修饰规则：姓名前由数字或者“.”的距离小于2个字符，否定此姓名
  - 确定边界：左界规则（称谓）、右界规则（称谓、界动词）
  - 消除重叠、矛盾的候选
中文地名识别方法
- 困难
  - 数量大
  - 规律差
- 资源
  - 地名库
  - 识别规则库
- 基本方法
  - 统计模型、确定阈值
  - 地名初筛
  - 利用上下文排除不可能的候选
  - 利用规则进一步确定地名
中文组织机构名识别
- 构成
  - 词法角度：偏正式符合词，{ 名词 | 形容词 | 数量词 | 动词 } + 名词
  - 句法角度：定语 + 名词性中心语
  - 中心语：机构称呼词
- 识别方法
  - 找到机构称呼此
  - 按照相应规则向前逐个检查，直到发现非法词
  - 构成合法，记录之
  - 统计模型确定
基于NN的NER方法
- 视NER为序列标注问题
- LSTM+CRF
- CRF依赖窗口，RNN可以处理长距离

现状和未来

存在的问题
- 模型依赖训练样本
- 样本主要在新闻领域，实际应用（对话、专门领域）难适应

词性标注

面临的问题
- 消除词性兼类歧义
- 汉语中，形同音不同，同形、同音但是意义不相干，典型意义的兼类词情况比较多
确定原则
- 标准性：普遍认可
- 兼容性：与已有资源标记尽量一致，或可转换
- 可扩展性：可扩充和修改
标注方法
- 基于规则（FA）的词性标注放啊
- 基于统计模型的词性标注方法
- 规则和统计结合的方法
- 基于NN的词性标注方法
评价指标：准确率
基于规则的方法
- 手工编写消歧规则
  - 非兼类词典
  - 兼类词典
  - 构建识别规则
- 根据词语的结构建立词性标注规则
基于HMM的词性标注方法
- 最优状态序列——Viterbi
基于错误驱动的机器学习方法
- 赋值——预测——比对——调整参数

UCAS - AI学院 - 自然语言处理专项课 - 第7讲 - 课程笔记相关推荐

UCAS - AI学院 - 自然语言处理专项课 - 第8讲 - 课程笔记
UCAS-AI学院-自然语言处理专项课-第8讲-课程笔记句法分析·短语结构分析概述线图分析法 CYK分析法基于PCFG的分析法句法分析性能评估局部句法分析句法分析·依存句法分析概述依 ...
UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记
UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记关系抽取概述面向非结构化文本的关系抽取预定义关系抽取开放式关系抽取面向半结构化文本的关系抽取数据和评测关系抽取概述 ...
UCAS - AI学院 - 计算机视觉专项课 - 第1讲 - 课程笔记
UCAS-AI学院-计算机视觉专项课-第1讲-课程笔记课程介绍什么是计算机视觉计算机视觉发展的四个重要历程课程介绍线上讲授+答疑编程作业+文献阅读作业 30% 课堂开卷 70% 什么是计算 ...
AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记及资源在线阅读
http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html 深度学习笔记目录第一门课神经网络和深度学习(Neural Networks and De ...
AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记
http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html 深度学习笔记目录第一门课神经网络和深度学习(Neural Networks and De ...
AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记及资源在线
http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html 深度学习笔记目录第一门课神经网络和深度学习(Neural Networks and De ...
七月在线--金融风控实战--第二课风控数据挖掘方法--课程笔记
决策树的定义: 分类决策树模型是一种描述对实例进行分类的树形结构.决策树由结点(node)和有向边(directed edge)组成.结点有两种类型:内部结点(internal node)和叶结点(l ...
斯坦福自然语言处理习题课1——绪论
对于技术人员来说,如果要问当前最热门的技术是什么?我想大家一定会回答是人工智能技术.而在人工智能技术中,哪个技术方向最火呢?大家肯定会回答是深度学习技术.如果我们要问在深度学习技术中,哪些应用方向最火 ...
Coursera-吴恩达-自然语言处理(NLP)专项课-课程笔记与编程实战-汇总
1.介绍: 本文主要基于Coursera上deeplearning.ai的课程自然语言处理专项课程(Natural Language Processing Specialization),将全部课 ...

UCAS - AI学院 - 自然语言处理专项课 - 第7讲 - 课程笔记

UCAS-AI学院-自然语言处理专项课-第7讲-课程笔记

形态分析、汉语分词与词性标注

概述

英语形态分析

汉语自动分词

概要

性能评价方法

未登录词识别

现状和未来

词性标注

UCAS - AI学院 - 自然语言处理专项课 - 第7讲 - 课程笔记相关推荐

最新文章

热门文章