自然语言处理复习

  • 1、前言
  • 2、统计学习基础
  • 3、形式语言与自动机
    • 3.1形式语言
    • 3.2自动机
  • 4、N元文法模型
  • 5、隐马尔可夫模型与条件随机场
  • 6、神经网络与语言模型
  • 7、文本表示
  • 8、词语切分与词性标注
  • 9、句法分析
  • 10、篇章分析
  • 11、语义分析
  • 12、预训练语言模型
  • 13、机器翻译
    • 13.1 统计机器翻译
      • ①IBM翻译模型1
      • ②IBM模型2
      • ③IBM模型3
    • 13.2 基于短语的翻译模型
    • 13.3 神经机器翻译
    • 13.4 译文评估
    • 13.5 语音翻译
  • 14、文本分类与聚类
    • 14.1 传统机器学习方法
    • 14.2 深度学习方法
    • 14.3 分类性能评估
    • 14.4 文本聚类
  • 15、信息抽取
    • 15.1 命名实体识别
    • 15.2 实体消歧
    • 15.3 关系抽取
    • 15.4 事件抽取
  • 16、人机对话

1、前言

NLP的主要挑战:
1、歧义(词法、词性、结构、语义、语音…)
2、大量未知语言现象(新词、人名、地名、术语、新含义、新用法…)
3、语义表示和计算困难(知识表示复杂性高)
4、始终面临数据不充分…
三大语系:
屈折语:(fusional language)词的形态变化表示语法关系,如英语、法语
黏着语:(agglutinative language)有专门表示语法意义的附加成分,词干与附加成分的结合不紧密,如日韩、土耳其语
孤立语:(isolating language)(分析语)几乎没有形态变化,语法关系靠词序和虚词表示,如汉语、苗语、越南语等
主要技术:
1、理性主义:归纳语言的规律,推断测试样本的预期结果
2、经验主义:借助大规模数据,统计发现语言使用规律及可能性大小,以此计算测试样本的可能结果。
3、连结主义:统计时采用连续的实数空间表示(神经网络方法)

2、统计学习基础

语言是稳态的可遍历性随机过程。(稳态性:是指今天的人民日报和昨天的人民日报语言数学特征是相同的,可遍历:是指一个人在长时间内产生的样本跟大量人在短时间内产生样本的统计特性是相同的,即时间统计特性与空间统计特性的关系)
Zipf’s law: 词频与频率排序序号的关系f×r=Cf\times r=Cf×r=C。
熵(entropy): H(X)=−∑x∈Xp(x)log2p(x)H(X)=- \sum_{x\in X}p(x)log_2p(x)H(X)=−∑x∈X​p(x)log2​p(x),其单位是二进制位比特。
联合熵(joint entropy): H(X,Y)=−∑x∈X∑y∈Yp(x,y)log2p(x,y)H(X,Y)=- \sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(x,y)H(X,Y)=−∑x∈X​∑y∈Y​p(x,y)log2​p(x,y)
条件熵(conditional entropy):
H(Y∣X)=−∑x∈Xp(x)H(Y∣X=x)=H(X,Y)=−∑x∈X∑y∈Yp(x,y)log2p(y∣x)H(Y|X)=- \sum_{x\in X}p(x)H(Y|X=x)=H(X,Y)=- \sum_{x\in X}\sum_{y\in Y}p(x,y)log_2p(y|x)H(Y∣X)=−x∈X∑​p(x)H(Y∣X=x)=H(X,Y)=−x∈X∑​y∈Y∑​p(x,y)log2​p(y∣x) 连锁规则: H(X,Y)=H(X)+H(Y∣X)H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y∣X)
相对熵(relative entropy): D(p∣∣q)=∑x∈Xp(x)logp(x)q(x)D(p||q)=\sum_{x\in X}p(x)log\frac{p(x)}{q(x)}D(p∣∣q)=∑x∈X​p(x)logq(x)p(x)​,衡量两个分布的差距。
交叉熵(cross entropy): q为理论模型,p为近似分布。
H(X,q)=H(X)+D(p∣∣q)=−∑x∈Xp(x)logq(x)H(X,q)=H(X)+D(p||q)=-\sum_{x\in X}p(x)logq(x)H(X,q)=H(X)+D(p∣∣q)=−x∈X∑​p(x)logq(x) 困惑度(perplexity): PPq=2H(L,q)≈[q(x1n)]−1nPP_q=2^{H(L,q)}\approx[q(x_1^n)]^{-\frac{1}{n}}PPq​=2H(L,q)≈[q(x1n​)]−n1​,其中x1n=x1...xnx_1^n=x_1...x_nx1n​=x1​...xn​。
互信息(mutual information): 其含义是当知道Y后原来的信息量减少了多少,即Y透露了多少关于X的信息。
I(X;Y)=H(X)−H(X∣Y)=∑x∈X∑y∈Yp(x,y)log2p(x,y)p(x)p(y)I(X;Y)=H(X)-H(X|Y)=\sum_{x\in X}\sum_{y\in Y}p(x,y)log_2\frac{p(x,y)}{p(x)p(y)}I(X;Y)=H(X)−H(X∣Y)=x∈X∑​y∈Y∑​p(x,y)log2​p(x)p(y)p(x,y)​根据公式推导可以得出:H(X)=H(X)−H(X∣X)=I(X;X)H(X)=H(X)-H(X|X)=I(X;X)H(X)=H(X)−H(X∣X)=I(X;X),故熵又称为自信息。两个单个离散事件之间的互信息称为点式互信息,两个随机变量之间的互信息成为平均互信息,平均互信息不可能为负值。
噪声信道模型: 优化噪声信道中信号传输的吞吐量和准确率,其基本假设是一个信道的输出以一定概率依赖于输入。
词义消歧(WSD)实例:
1、朴素贝叶斯:
p(si∣C)=p(si)p(C∣si)p(C)p(C∣si)=∏vk∈Cp(vk∣si)s^i=argmaxsi[p(si)∏vk∈Cp(vk∣si)]p(s_i|C)=\frac{p(s_i)p(C|s_i)}{p(C)}\\ p(C|s_i)=\prod_{v_k\in C}p(v_k|s_i)\\ \hat s_i=\underset{s_i}{argmax}\left [p(s_i)\prod_{v_k\in C}p(v_k|s_i)\right ]p(si​∣C)=p(C)p(si​)p(C∣si​)​p(C∣si​)=vk​∈C∏​p(vk​∣si​)s^i​=si​argmax​[p(si​)vk​∈C∏​p(vk​∣si​)],其中条件概率和先验概率可以由最大似然估计求得:
p(vk∣si)=N(vk,si)N(si)p(si)=N(si)N(w)p(v_k|s_i)=\frac{N(v_k,s_i)}{N(s_i)} \qquad p(s_i)=\frac{N(s_i)}{N(w)} p(vk​∣si​)=N(si​)N(vk​,si​)​p(si​)=N(w)N(si​)​式中CCC表示语境,vkv_kvk​表示上下文词语,sis_isi​表示该词的第iii种含义,NNN表示频率。
2、最大熵模型:

3、形式语言与自动机

3.1形式语言

形式语言: 用来精确描述语言及其结构的手段,形式语言学也称代数语言学。
定义:G=(N,Σ,P,S)G=(N,\Sigma,P,S)G=(N,Σ,P,S),其中四个参数分别为非终结符集合、终结符集合、重写规则、初始符。

最左推导:每步推导只改写最左边的非终结符。
最右推导(规范推到):只改写最右边的非终结符。

句子形式(句型):文法G任何一步合法推导的结果。
句子:不含非终结符的句子形式。

乔姆斯基四类文法:
对于形式语言:G=(N,Σ,P,S)G=(N,\Sigma,P,S)G=(N,Σ,P,S)
1、正则文法(RG):3型文法
右线性正则文法:P中推导规则满足A→BxA\to BxA→Bx或A→xA\to xA→x,大写字母为非终结符,小写字母为终结符。
2、上下文无关文法(CFG):2型文法
P为A→αA\to \alphaA→α,其中α\alphaα为任意的串。要求左边为单个非终结符。
如果存在某个句子不只有一颗分析树与之对应,那么称为歧义文法
3、上下文有关文法(CSG):1型文法
P中规则满足αAβ→αγβ\alpha A \beta \to \alpha \gamma \betaαAβ→αγβ,且γ\gammaγ至少包含一个字符。
4、无约束文法:0型文法
P中规则满足α→β\alpha\to\betaα→β,没有任何约束。

每一个3型文法都是2型文法,所有2型文法都是1型文法(上下文无关文法是没有上下文的上下文有关文法),所有1型文法都是0型文法。

3.2自动机

1、有限状态自动机(FA)-----3型
2、下推自动机(PDA)---------2型
3、线性带限自动机-----------1型
4、图灵机-----------------------0型

(1)确定性有限状态自动机(DFA):
M是一个五元组,M=(Σ,Q,δ,q0,F)M=(\Sigma,Q,\delta,q_0,F)M=(Σ,Q,δ,q0​,F),各符号分别表示:输入符号集合、状态集合、状态转移函数(Q×Σ→QQ\times \Sigma \to QQ×Σ→Q的映射)、初始状态、终止状态集合。

双圈表示终止状态,最上面那条线表示输入1则从q1q_1q1​状态转移至q0q_0q0​状态。
(2)非确定性有限状态自动机(NFA)
M是一个五元组,M=(Σ,Q,δ,q0,F)M=(\Sigma,Q,\delta,q_0,F)M=(Σ,Q,δ,q0​,F),其中δ\deltaδ是QQQ与Σ\SigmaΣ的直积Q×ΣQ\times\SigmaQ×Σ到QQQ的幂集2Q2^Q2Q的映射。即同一个输入可能达到多个状态。

如果有L是一个可以被NFA接受的句子集合,则一定存在一个DFA能够接受L。
若G是一个正则文法,则存在一个有限状态自动机M,使得T(M)=L(G)T(M)=L(G)T(M)=L(G)。

由正则文法构造有限状态自动机:

自动机在NLP中的应用:
应用1:英文单词拼写检查:
编辑距离:从字符串X转换到字符串Y需要的插入、删除、替换、交换相邻两个单位的的最小个数。如ed(sailn,failing)=3ed(sailn,failing)=3ed(sailn,failing)=3。
字母所构成的所有合法单词都是有限自动机中的一条路径,给定一个待检查的输入串,对其检查的过程就是在给定阈值t的情况下,寻找与输入串编辑距离小于t的路径(即正确单词)
cuted(X[m],Y[n])=minl≤i≤u{ed(X[i],Y[n])}l=max(1,n−t),u=min(m,n+t)cuted(X[m],Y[n])=\underset{l\le i\le u}{min} \{ ed(X[i],Y[n]) \}\\ l=max(1,n-t),\;u=min(m,n+t)cuted(X[m],Y[n])=l≤i≤umin​{ed(X[i],Y[n])}l=max(1,n−t),u=min(m,n+t)阈值t有两个作用:1)确定截取X的范围;2)限定编辑距离。

4、N元文法模型

语言模型: 计算语言(通常为句子)概率的模型。
n元文法模型: 只考虑历史基元与当前词构成的n元词序列(即n-1个历史词),计算p(wi∣wi−n+1i−1)p(w_i|w_{i-n+1}^{i-1})p(wi​∣wi−n+1i−1​),其中wi−n+1i−1w_{i-n+1}^{i-1}wi−n+1i−1​表示当前词的前i−1i-1i−1个历史串。
计算方法:参数估计:
p(wi∣wi−n+1i−1)=f(wi∣wi−n+1i−1)=c(wi−n+1i)∑wic(wi−n+1i)p(w_i|w_{i-n+1}^{i-1})=f(w_i|w_{i-n+1}^{i-1})=\frac{c(w_{i-n+1}^i)}{\sum_{w_i}c(w_{i-n+1}^i)}p(wi​∣wi−n+1i−1​)=f(wi​∣wi−n+1i−1​)=∑wi​​c(wi−n+1i​)c(wi−n+1i​)​
即文本中的频率看作概率的近似。

但当部分序列概率为零时,即数据稀疏时,需要进行数据平滑:
总体的思想为劫富济贫,即调整最大似然的概率值,使零概率值增加,使非零概率值下调。目标是使得语言模型的困惑度最小。
①加一法:
对于2-gram:
p(wi∣wi−1)=1+c(wi−1wi)∑wi[1+c(wi−1wi)]p(w_i|w_{i-1})=\frac{1+c(w_{i-1}w_i)}{\sum_{w_i}[1+c(w_{i-1}w_i)]}p(wi​∣wi−1​)=∑wi​​[1+c(wi−1​wi​)]1+c(wi−1​wi​)​
②减值法/折扣法:

③删除插值法

5、隐马尔可夫模型与条件随机场

6、神经网络与语言模型

7、文本表示

向量空间模型(VSM): 将文本视为特征项的集合。向量空间 可以被成为词袋模型。
特征项:VSM中最小的语言单元
特征项权重:表示每个特征项在文本中重要度不同的指标。计算方式有以下几种:
1、布尔变量:如果在文本中出现则权重为1,否则为0。
2、词频(TF):wi=log(tfi+1)w_i=log(tf_i+1)wi​=log(tfi​+1)
3、逆文档频率(IDF):
wi=idfi=logNdfiw_i=idf_i=log\frac{N}{df_i}wi​=idfi​=logdfi​N​即总文档数除以包含i的文档数取对数,表示i在其他文档中出现次数越少则在该文档中越重要。
4、TF-IDF:tf_idfi=tfi⋅idfitf\_idf_i=tf_i\cdot idf_itf_idfi​=tfi​⋅idfi​
计算出来之后需要用向量的范数(1范数、2范数、无穷范数)进行规范化。

两种表示:
1、离散符号表示:one-hot无法体现语义相关性
2、分布式表示:含义相近单词相似度大

表示学习: 两种方法:
1、文本概念表示模型:以潜在语义分析和潜在狄利克雷分布为代表的主题模型。
2、深度学习表示模型:通过深度学习模型优化特定目标函数获得词向量表示。

词语表示学习:
标目是学习到一个look-up table,每一列表示一个词语的向量表示,大小为D×VD\times VD×V,V表示词的数量,D表示每个词的表示向量维度。
其中V的选择标准为:1、训练数据所有词;2、频率高于某个阈值的所有词;3、前V个频率最高的词。
D的选择:D是一个超参数,需要自己设定。

学习方法:
1、C&W模型
2、CBOW and Skip-gram 模型
3、Glo Ve
4、负采样与噪声对比估计
5、字-词混合表示学习

8、词语切分与词性标注

9、句法分析

10、篇章分析

11、语义分析

12、预训练语言模型

13、机器翻译

机器翻译的困难:
1、自然语言现象中广泛存在的歧义和未知现象
2、不同语言间的文化差异大
3、翻译结果不唯一

翻译方法:
1、直接转换法
2、基于规则的翻译方法
3、基于中间语言的翻译方法
4、基于语料库的翻译方法(基于事例、统计翻译、神经网络翻译)

(1)直接转换法: 对应词进行翻译,必要时进行调整顺序。
(2)基于规则的翻译方法: 原句词法分析、原句句法分析、原句到译文结构转化、译文结构生成、原句到译文词汇转化、译文生成。
(3)基于中间语言的翻译方法: 输入语句—>中间语言—>翻译结果
(4)基于事例的翻译方法: 从旧的记忆库中找与需要翻译的句子相似度高的句子,然后再进行简单的修正。

13.1 统计机器翻译

设源语言句子为S,目标语言句子为T,根据贝叶斯公式
P(T∣S)=P(T)×P(S∣T)P(S)\rm P(T|S)=\frac{P(T)\times P(S|T)}{P(S)}P(T∣S)=P(S)P(T)×P(S∣T)​则目标是
T′=argmaxTP(T)×P(S∣T)T'=\underset{T}{argmax}\;P(T)\times P(S|T)T′=Targmax​P(T)×P(S∣T)其中P(T)P(T)P(T)即为语言模型,根据n-gram即可计算,那么关键问题是计算翻译模型P(S∣T)P(S|T)P(S∣T)的概率,这里我们用词的互译概率的乘积表示句子互译的概率。在此引入因变量AAA,表示对位模型,AAA表示源语言句子mmm个单词和目标语言句子lll个单词的对应关系,即对应与不对应。
则有:P(S∣T)=∑AP(S,A∣T)P(S|T)=\sum_{A}P(S,A|T)P(S∣T)=∑A​P(S,A∣T),同时A=a1a2...amA=a_1a_2...a_mA=a1​a2​...am​,aj∈[0,1,...,l]a_j\in [0,1,...,l]aj​∈[0,1,...,l],表示源语言句子中第jjj个词对应于目标语言句子第0∼j0\sim j0∼j中的一个。此时可以改写为:
P(S,A∣T)=p(m∣T)×P(A∣T,m)×P(S∣T,A,m)P(S,A|T)=p(m|T)\times P(A|T,m)\times P(S|T,A,m)P(S,A∣T)=p(m∣T)×P(A∣T,m)×P(S∣T,A,m)第一个 概率表示生成源语言句子SSS的多少个单词,第二个概率表示对位模型,即源语言句子单词和目标语言句子单词的对位关系,第三个概率表示词汇翻译模型。
P(S,A∣T)+p(m∣T)∏j=1mp(aj∣a1j−1,s1j−1,m,T)×p(sj∣a1j−1,s1j−1,m,T)P(S,A|T)+p(m|T)\prod_{j=1}^mp(a_j|a_1^{j-1},s_1^{j-1},m,T)\times p(s_j|a_1^{j-1},s_1^{j-1},m,T)P(S,A∣T)+p(m∣T)j=1∏m​p(aj​∣a1j−1​,s1j−1​,m,T)×p(sj​∣a1j−1​,s1j−1​,m,T)

①IBM翻译模型1

三个假设:
(1)ε≡p(m∣T)\varepsilon \equiv p(m|T)ε≡p(m∣T),是一个很小的量。
(2)aj∼uniform(0,1,2,...,l)a_j\sim uniform(0,1,2,...,l)aj​∼uniform(0,1,2,...,l)服从均匀分布,即p(aj∣a1j−1,s1j−1,m,T)=1l+1p(a_j|a_1^{j-1},s_1^{j-1},m,T)=\frac{1}{l+1}p(aj​∣a1j−1​,s1j−1​,m,T)=l+11​。
(3)sj∼Categorical(θtaj)s_j\sim Categorical(\theta_{t_{aj}})sj​∼Categorical(θtaj​​),即p(sj∣a1j−1,s1j−1,m,T)=p(sj∣taj)p(s_j|a_1^{j-1},s_1^{j-1},m,T)=p(s_j|t_{aj})p(sj​∣a1j−1​,s1j−1​,m,T)=p(sj​∣taj​)表示只考虑当前翻译的词,不考虑其他词汇。

依据以上假设,概率模型可以化简为:
P(S,A∣T)=ε(l+1)m∏j=1mp(sj∣taj)P(S,A|T)=\frac{\varepsilon }{(l+1)^m}\prod_{j=1}^mp(s_j|t_{aj})P(S,A∣T)=(l+1)mε​j=1∏m​p(sj​∣taj​)则
P(S∣T)=∑AP(S,A∣T)=ε(l+1)m∑a1=0l⋯∑am=0l∏j=1mp(sj∣taj)P(S|T)=\sum_AP(S,A|T)=\frac{\varepsilon }{(l+1)^m}\sum_{a_1=0}^l\cdots \sum_{a_m=0}^l\prod_{j=1}^mp(s_j|t_{aj})P(S∣T)=A∑​P(S,A∣T)=(l+1)mε​a1​=0∑l​⋯am​=0∑l​j=1∏m​p(sj​∣taj​)要求∑sp(s∣t)=1\sum_sp(s|t)=1∑s​p(s∣t)=1,根据拉格朗日乘子法,有优化函数:
h(p,λ)=P(S∣T)−∑tλt(∑sp(s∣t)−1)h(p,\lambda)=P(S|T)-\sum_t\lambda_t\left(\sum_sp(s|t)-1\right)h(p,λ)=P(S∣T)−t∑​λt​(s∑​p(s∣t)−1)对p(s∣t)p(s|t)p(s∣t)求梯度并令梯度为零,可以解得:
p(s∣t)=1λt×ε(l+1)m∑a1=0l⋯∑am=0l∑j=1mδ(s=sj)δ(t=taj)∏k=1mp(sk∣tak)p(s|t)=\frac{1}{\lambda_t}\times \frac{\varepsilon}{(l+1)^m}\sum_{a_1=0}^l\cdots \sum_{a_m=0}^l\sum_{j=1}^m\delta (s=s_j)\delta (t=t_{aj})\prod_{k=1}^mp(s_k|t_{ak})p(s∣t)=λt​1​×(l+1)mε​a1​=0∑l​⋯am​=0∑l​j=1∑m​δ(s=sj​)δ(t=taj​)k=1∏m​p(sk​∣tak​)然后可以利用EM算法进行迭代更新求解。

②IBM模型2

其中对位模型概率不再采用简单的均匀分布模型,而是加入参数,使对位模型概率与句子长度和单词位置相关,即p(aj∣j,m,l)p(a_j|j,m,l)p(aj​∣j,m,l)

③IBM模型3

引入繁衍率模型,防止对位模型中一个单词对应过多的单词。

13.2 基于短语的翻译模型

基于短语的翻译模型相比于基于字的翻译模型提取的信息范围更广泛,因此能较少歧义。

同理,根据贝叶斯公式,有
T′=argmaxTP(T∣S)=argmaxT,S1KP(T,S1K∣S)=argmaxT,S1K,T1K,T1K′P(S1K∣S)P(T1K∣S1K,S)P(T1K∣T1K,S1K,S)P(T∣T1K,T1K,S1K,S)\begin{aligned} T'&=\underset{T}{argmax}\textbf{P}(\textbf{T}|\textbf{S})\\ &=\underset{T,S_1^K}{argmax}\textbf{P}(\textbf{T},S_1^K|\textbf{S})\\ &=\underset{T,S_1^K,T_1^K,T_1^{K'}}{argmax}\textbf{P}(S_1^K|\textbf{S})\textbf{P}(T_1^K|S_1^K,\textbf{S})\textbf{P}(T_1^K|T_1^K,S_1^K,\textbf{S})\textbf{P}(T|T_1^K,T_1^K,S_1^K,\textbf{S}) \end{aligned}\\ T′​=Targmax​P(T∣S)=T,S1K​argmax​P(T,S1K​∣S)=T,S1K​,T1K​,T1K′​argmax​P(S1K​∣S)P(T1K​∣S1K​,S)P(T1K​∣T1K​,S1K​,S)P(T∣T1K​,T1K​,S1K​,S)​其中第一个概率表示短语划分模型、第二个概率表示短语翻译模型、第三个概率表示短语调序模型、第四个概率表示目标语言模型。

1、短语划分模型:一般假设每一种短语划分都是等概率的。
2、短语翻译模型:
\qquad 2.1学习短语翻译规则:根据双语对齐词汇进行短语匹配。
\qquad 2.2计算短语翻译概率:最大化正向、逆向短语和词汇翻译四个概率。
3、短语调序模型:
\qquad 3.1距离跳转模型
\qquad 3.2分类模型
4、目标语言模型

基于短语的判别式翻译模型。将后验概率P(S∣T)P(S|T)P(S∣T)表示为一系列特征的加权和,即P(S∣T)=∑1Mλmhm(T,S)P(S|T)=\sum_1^M\lambda_mh_m(T,S)P(S∣T)=1∑M​λm​hm​(T,S)

13.3 神经机器翻译

统计机器翻译的优点:可解释性高、模块随便加、错误易追踪。
缺点:数据稀疏(语义相近的词无法共享翻译规则)、复杂结构无能为力、强烈依赖于先验知识。

神经机器翻译的基本途径:向量映射—>双向编码(LSTM)—>注意机制—>解码网络—>得到词汇概率。

13.4 译文评估

主要考察因素:1、流畅度;2、充分性;3、语义保持性
主观评测方法:忠实度、流利度;(依赖于人工打分)
客观评测方法:
①句子错误率;
②单词错误率;
③与位置无关单词错误率;
④METEOR评测;
⑤BLEU评测方法
⑥基于深度学习的客观评测:防止因为词不相同而导致错误率下降。(参考译文与计算译文每个词之间计算相似度,分别取相似度最大的词,然后计算准确率和召回率)

13.5 语音翻译

重点问题:噪声与冗余词的识别与过滤;实体名词识别和翻译;语序调整。
系统实现方法:
1、级联方法:语音识别—>机器翻译---->语音合成
2、端到端的方法

14、文本分类与聚类

应用:如新闻分类、垃圾邮件分类等

14.1 传统机器学习方法

主要步骤:模式—>特征表示—>特征选择—>分类器—>类别标签
①文本表示:
1、机器学习:向量空间模型(词袋模型):列一个出现在文本中所有词的词表,每个词拥有一个权重值,权重值的计算方法为:词频、布尔变量、逆文档频率、词频-逆文档频率
2、深度学习:文本表示采用词向量,即连续空间下的文本表示

②特征选择: 有三种指标:互信息、信息增益、Chi-Square统计

③分类算法: 生成式模型(朴素贝叶斯)、判别式模型(支持向量机)、最大熵模型。

14.2 深度学习方法

①基于卷积神经网络的方法:提取特征,做分类。

②基于循环神经网络的方法:

③预训练模型
预训练+微调方法:在全局信息表示上加一个多层感知机进行分类。
预训练+提示学习的方法:将文本分类转换成掩码语言模型中预测mask的问题。

14.3 分类性能评估

根据真实类别将分类结构分为四类:真正类(TP)、真负类(TN)、假正类(FP)、假负类(FN)。
(1)计算召回率、精确率和F1F_1F1​值。
Ri=TPiTPi+FNiPi=TPiTPi+FPiF1=2PRP+RR_i=\frac{TP_i}{TP_i+FN_i}\\ P_i=\frac{TP_i}{TP_i+FP_i}\\ F_1=\frac{2PR}{P+R}Ri​=TPi​+FNi​TPi​​Pi​=TPi​+FPi​TPi​​F1​=P+R2PR​(2)计算正确率、宏平均、微平均。
宏平均:先计算召回率、精确率,再平均。
微平均:先统计四类结构再计算召回率与精确率。

P-R曲线、ROC曲线:
P-R曲线:通过调整正负分类的阈值,绘制召回率-精确率的曲线。
ROC曲线:以假正率为横坐标,真正率(召回率)为纵坐标绘制。

14.4 文本聚类

1、相似性度量:两个文本对象之间的相似度、两个文本类之间的相似度、文本对象与文本集合之间的相似性。
文本对象相似度:距离度量、余弦相似度、杰卡德相似系数、KL散度
文本类相似度:最短距离、最长距离、簇平均法(两类样本距离和求均值)、重心法(两类均值的距离)、离差平方和法(各样本到合并之后的中心距离平方和减去各样本到各自类中心距离平方和)

2、聚类算法:k-means聚类、单遍聚类、层次聚类、密度聚类。

3、聚类性能评估:
两种方法:外部标准(有参考答案)、内部标准(无参考答案)
(1)外部标准:由专家和人工标注获得参考答案,根据两个样本分类和标准是否在同一类,有四类分类结果,SS、SD、DS、DD,然后计算宏观指标:
Rand统计量:RS=a+da+b+c+dRS=\frac{a+d}{a+b+c+d}RS=a+b+c+da+d​
Jaccard系数:IC=aa+b+cIC=\frac{a}{a+b+c}IC=a+b+ca​
FM指数:FMI=aa+b⋅aa+cFMI=\sqrt{\frac{a}{a+b}\cdot \frac{a}{a+c}}FMI=a+ba​⋅a+ca​​
微观指标:精确率、召回率、F1F_1F1​。
(2)内部标准:主要思想。簇间相似度越低越好,簇内相似度越高越好。如轮廓系数。

15、信息抽取

15.1 命名实体识别

共有7大类命名实体:人名、地名、机构名、时间、日期、货币、百分比
两个任务:实体检测、实体分类
方法:
①基于规则的命名实体识别(难以处理一词多义、缩写、新命名实体)
②基于有监督的机器学习方法:隐马尔可夫、条件随机场、深度神经网络。
评价方法:与规范标注对比,计算召回率、精确率、F。

15.2 实体消歧

两个内容:共指消解(一篇文档中不同实体表示同一含义)、实体链接(不同文档中相同实体表示不同含义)
共指消解:对实体进行聚类
实体链接:确定实体指称对应真实世界实体的过程。将实体通过背景知识映射到实体概念。

典型方法:局部法、全局法

15.3 关系抽取

15.4 事件抽取

16、人机对话

国科大《自然语言处理》复习(宗成庆老师)相关推荐

  1. [知识点整理]中科院/国科大 自然语言处理nlp 期末考试知识点整理

    本文为2022秋网安学院的自然语言处理课程期末复习知识点整理,水平有限,整理的答案可能有错误或遗漏,欢迎大家指正. 文章的第二部分内容参考了学校学姐的文章,文章写的很好,大家可以关注她:(133条消息 ...

  2. 国科大《高级人工智能》沈老师部分——行为主义笔记

    国科大<高级人工智能>沈老师部分--行为主义笔记 沈华伟老师yyds,每次上他的课都有一种深入浅出的感觉,他能够把很难的东西讲的很简单,听完就是醍醐灌顶,理解起来特别清晰 今年考试题目这部 ...

  3. 国科大英语B复习资料(书PDF+音频+样题)

    前言 为了方便大家备考我把国科大英语B的复习资料整理出来了.注意是英语B(博士学位英语)!!!有问题的话私聊我就成. 简单说明 免修考试:卷面需要70分 修读英语B+期末考试:卷面和平时成绩五五开(容 ...

  4. 国科大 - 自然语言处理(刘洋)- 期末复习

    Content 文章目录 20201231 LM 分词 最大匹配算法 最短路径法(最少分词法) 句法分析 Chart Parsing

  5. 国科大抢课避坑+选课指南+教务系统操作

    博客园: https://www.cnblogs.com/phoenixash/p/13669461.html 9月12日12:30,本菜鸡终于经历了国科大传说中的抢课大战,虽然自己之前准备的较多,但 ...

  6. 宗成庆:如何撰写毕业论文?

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale推荐 作者:宗成庆,模式识别国家重点实验室 [导读]今年特别不一样,尤其是对于 ...

  7. 【高级人工智能】国科大《高级人工智能》联结主义 笔记 + 考试回忆

    国科大<高级人工智能>吴老师部分--联结主义笔记 吴老师上课dddd,上课东西太多太杂,听不太懂比较煎熬,但是课后花点时间理解理解,还是挺有帮助的 考试按照重点复习即可,虽然答疑时提到的传 ...

  8. 微电子系统封装期末总结—国科大集成电路学院

    国科大集成电路学院曹立强老师开设的微电子系统封装课程,是集成电路工程专业研究生的学科基础课,通过讲述微电子电路的封装设计.制造,以及与封装技术密切相关的设备和材料基本概念与知识,要求学生掌握包括电子封 ...

  9. 自然语言处理(国科大2021-2022秋季学期课程)-基础概念及算法

    自然语言处理-刘洋-国科大2021-2022秋季学期课程 数学基础 拉格朗日乘子法 熵.相对熵.交叉熵 隐马尔科夫模型 马尔科夫模型 前向.后向算法:观测状态序列概率计算 前向概率 后向概率 Vite ...

最新文章

  1. UA MATH571B 2K析因设计 SAS实践 分数2k析因设计
  2. 阿里云量产50家独角兽前夜
  3. java安全编码指南之:Number操作
  4. 【python】整理的 Python 库
  5. 软件测试人员的三重境界
  6. mysql 数据备份方案_MySQL常见备份方案
  7. 基于任务的异步模式(TAP)
  8. 导入新工程,提示“Migrate Project to Gradle?”
  9. CentOS install btsync
  10. IO设备的控制器 适配器
  11. matlab shapley函数,合作博弈shapley值讲解.ppt
  12. matlab 全局变量(global)数据类型报错问题
  13. 【中科院】分子生物学-朱玉贤第四版-笔记-第14-16讲 真核生物基因表达调控
  14. passing '' as 'this' argument discards qualifiers [-fpermissive]
  15. 前端3D轨迹可视化渲染
  16. NoteBook / 期货及衍生品基础(3)
  17. 常州SEO姜东:tiktok(国际抖音)运营教程:打造高权重账号
  18. 机柜系统:数据和业务的幕后英雄
  19. 【新闻推荐系统】(task1)系统搭建基本流程
  20. 让你写工作总结不用愁,总结的方法套路大全

热门文章

  1. 2018年9月计算机二级考试《MS Office高级应用》基础自测卷
  2. 安恒月赛2020元旦场Writeup
  3. Python3 gevent 报错 RuntimeWarning: greenlet.greenlet size changed
  4. cas112592-50-4/四溴苯基卟啉镍/nickel(II) tetra(p-Br-phenyl)porphyrin/分子式:C44H24Br4N4Ni++/分子量:986.99800
  5. Mac 使用 之 Permission denied XXX
  6. O2O常见的结算模式是什么 O2O线上线下营销策略有哪些?
  7. 手机电路板文件_ORICO移动硬盘盒玩出新花样,变身手机备份宝
  8. 区块链定制开发用什么编程语言?
  9. 好看的桑基图是如何炼成的!
  10. Invalid component name: “_compiled“. Component names should conform to valid custom element name组件报错