（纯属为了记录自己学习的点滴过程，引用资料都附在参考列表）

1 基本概念

什么是新词（是什么）
新词是一个相对的概念，每个人的标准都不一样，所以我们这里定义: 词典之外的词语(OOV)称作新词。

为什么要进行新词提取（为什么）
新词的提取对中文分词而言具有重要的意义，因为语料库的标注成本很高。那么如何修订领域词典呢，此时，无监督的新词提取算法就体现了现实意义。

怎么进行新词提取（怎么办）

提取出大量文本(生语料)中的词语，无论新旧。
用词典过滤掉已有的词语，于是得到新词。

步骤 2 很容易，关键是步骤 1，如何无监督的提取出文本中的单词。给定一段文本，随机取一个片段，如果这个片段左右的搭配很丰富，并且片段内部成分搭配很固定，则可以认为这是一个词。将这样的片段筛选出来，按照频次由高到低排序，排在前面的有很高概率是词。

如果文本足够大，再用通用的词典过滤掉“旧词”，就可以得到“新词”。

片段外部左右搭配的丰富程度（越丰富说明不确定性越大，这样可以引进熵这个概念进行度量了），可以用信息熵来衡量，而片段内部搭配的固定程度可以用子序列的互信息来衡量。

信息熵
在信息论中，信息熵( entropy )指的是某条消息所含的信息量。它度量一个随机事件的不确定性，熵越大，不确定性越大，反之亦然。
对于随机变量XXX，信息熵定义如下：
H(x)=−∫xp(x)log⁡p(x)dxH(x) = -\int_x p(x) \log p(x) dxH(x)=−∫xp(x)logp(x)dx

举一个简单的例子

给定字符串 S 作为词语备选，X 定义为该字符串左边可能出现的字符(左邻字)，则称 H(X) 为 S 的左信息熵，类似的，定义右信息熵 H(Y)，例如下列句子:

两只蝴蝶飞啊飞
这些蝴蝶飞走了

那么对于字符串蝴蝶，它的左信息熵为1，而右信息熵为0。因为生语料库中蝴蝶的右邻字一定是飞。假如我们再收集一些句子，比如“蝴蝶效应”“蝴蝶蜕变”之类，就会观察到右信息熵会增大不少。

互信息（Mutual Information）
度量两个随机变量X,YX,YX,Y的相关程度，用狭隘的大白话理解随机变量的相关性，就是随机变量越相关，二者同时发生或者互斥的可能性越大，数学定义如下：
I(X;Y)=Ep(x,y)log⁡p(x,y)p(x)p(y)I(X; Y) = E_{p(x,y)} \log \frac{p(x,y)}{p(x)p(y)} I(X;Y)=Ep(x,y)logp(x)p(y)p(x,y)

还是上面“蝴蝶”的例子：

X=字符串前缀，Y=字符串后缀X = 字符串前缀，Y=字符串后缀X=字符串前缀，Y=字符串后缀，分析“蝴蝶”

信息抽取--新词提取相关推荐

信息抽取--关键词提取
(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表) 1 基本概念什么是关键词(是什么) 大略的讲就是文章中重要的单词,而不限于词语的新鲜程度. 什么样的单词是重要的单词,恐怕这是个见仁见智的 ...
揭开知识库问答KB-QA的面纱3·信息抽取篇
内容速览你是如何通过知识库回答问题的如何确定候选答案如何对问题进行信息抽取如何筛选候选答案论文实验与总结本期我们将介绍KB-QA传统方法之一的信息抽取(Information Extrac ...
KB-QA：如何对问题进行信息抽取？
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程公众号:datayx 内容速览你是如何通过知识库回答问题的如何确定候选答案如何对问题进行信息抽取如何筛选候选 ...
python医疗发票信息抽取_PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)...
1 三种信息类型的简介 xml : extensible markup language 与html非常相似现有html后有xml xml是html发展来的扩展通用 json 类型 javas ...
关于NLP相关技术全部在这里：预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
第十七篇：信息抽取Information Extraction
目录信息抽取应用如何? IE 中的机器学习大纲命名实体识别典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习关系抽取 ...
一人之力，刷爆三路榜单！信息抽取竞赛夺冠经验分享
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达文 | JayLou娄杰在现如今的NLP竞赛中,信息抽取(IE)任务已占据半壁江山.来 ...
【ACL2020】这8份Tutorial不可错过！包括：常识推理、多模态信息抽取、对话、解释性等...
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要7分钟 Follow小博主,每天更新前沿干货自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 日在线上举行.本届 A ...
实体链接：信息抽取中的NLP的基础任务
2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...

信息抽取--新词提取

1 基本概念

信息抽取--新词提取相关推荐

最新文章

热门文章