信息抽取--新词提取
(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)
1 基本概念
什么是新词(是什么)
新词是一个相对的概念,每个人的标准都不一样,所以我们这里定义: 词典之外的词语(OOV)称作新词。
为什么要进行新词提取(为什么)
新词的提取对中文分词而言具有重要的意义,因为语料库的标注成本很高。那么如何修订领域词典呢,此时,无监督的新词提取算法就体现了现实意义。
怎么进行新词提取(怎么办)
- 提取出大量文本(生语料)中的词语,无论新旧。
- 用词典过滤掉已有的词语,于是得到新词。
步骤 2 很容易,关键是步骤 1,如何无监督的提取出文本中的单词。给定一段文本,随机取一个片段,如果这个片段左右的搭配很丰富,并且片段内部成分搭配很固定,则可以认为这是一个词。将这样的片段筛选出来,按照频次由高到低排序,排在前面的有很高概率是词。
如果文本足够大,再用通用的词典过滤掉“旧词”,就可以得到“新词”。
片段外部左右搭配的丰富程度(越丰富说明不确定性越大,这样可以引进熵这个概念进行度量了),可以用信息熵来衡量,而片段内部搭配的固定程度可以用子序列的互信息来衡量。
信息熵
在信息论中,信息熵( entropy )指的是某条消息所含的信息量。它度量一个随机事件的不确定性,熵越大,不确定性越大,反之亦然。
对于随机变量XXX,信息熵定义如下:
H(x)=−∫xp(x)logp(x)dxH(x) = -\int_x p(x) \log p(x) dxH(x)=−∫xp(x)logp(x)dx
- 举一个简单的例子
给定字符串 S 作为词语备选,X 定义为该字符串左边可能出现的字符(左邻字),则称 H(X) 为 S 的左信息熵,类似的,定义右信息熵 H(Y),例如下列句子:
两只蝴蝶飞啊飞
这些蝴蝶飞走了
那么对于字符串蝴蝶,它的左信息熵为1,而右信息熵为0。因为生语料库中蝴蝶的右邻字一定是飞。假如我们再收集一些句子,比如“蝴蝶效应”“蝴蝶蜕变”之类,就会观察到右信息熵会增大不少。
互信息(Mutual Information)
度量两个随机变量X,YX,YX,Y的相关程度,用狭隘的大白话理解随机变量的相关性,就是随机变量越相关,二者同时发生或者互斥的可能性越大,数学定义如下:
I(X;Y)=Ep(x,y)logp(x,y)p(x)p(y)I(X; Y) = E_{p(x,y)} \log \frac{p(x,y)}{p(x)p(y)} I(X;Y)=Ep(x,y)logp(x)p(y)p(x,y)
- 还是上面“蝴蝶”的例子:
X=字符串前缀,Y=字符串后缀X = 字符串前缀,Y=字符串后缀X=字符串前缀,Y=字符串后缀,分析“蝴蝶”
信息抽取--新词提取相关推荐
- 信息抽取--关键词提取
(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表) 1 基本概念 什么是关键词(是什么) 大略的讲就是文章中重要的单词,而不限于词语的新鲜程度. 什么样的单词是重要的单词,恐怕这是个见仁见智的 ...
- 揭开知识库问答KB-QA的面纱3·信息抽取篇
内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选答案 论文实验与总结 本期我们将介绍KB-QA传统方法之一的信息抽取(Information Extrac ...
- KB-QA:如何对问题进行信息抽取?
向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程 公众号:datayx 内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选 ...
- python医疗发票 信息抽取_PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)...
1 三种信息类型的简介 xml : extensible markup language 与html非常相似 现有html后有xml xml是html发展来的 扩展 通用 json 类型 javas ...
- 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...
NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...
- 第十七篇:信息抽取Information Extraction
目录 信息抽取 应用 如何? IE 中的机器学习 大纲 命名实体识别 典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习 关系抽取 ...
- 一人之力,刷爆三路榜单!信息抽取竞赛夺冠经验分享
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达文 | JayLou娄杰 在现如今的NLP竞赛中,信息抽取(IE)任务已占据半壁江山.来 ...
- 【ACL2020】这8份Tutorial不可错过!包括:常识推理、多模态信息抽取、对话、解释性等...
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要7分钟 Follow小博主,每天更新前沿干货 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 日在线上举行.本届 A ...
- 实体链接:信息抽取中的NLP的基础任务
2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...
最新文章
- 亚马逊刊登php代码,最全的亚马逊刊登listing工具了解一下
- poj2728(最优比率生成树)
- 这 100 个心理学知识你必须了解
- C#:异步编程和线程的使用(.NET 4.5 ),异步方法改为同步执行
- Uni-Java_Java全栈必备之Uni-App
- 从电子工程师到研发经理到老板的多面人生
- Android 集成微信分享2,实现微信分享
- QML程序发布时无法正常运行的解决办法
- c# 从一组数中随机抽取一定个数_Python随机模块22个函数详解
- 【第二十九章】 springboot + zipkin + mysql
- 2018-3-10 unset 变量 ab测试
- 吴恩达深度学习笔记(十一)—— dropout正则化
- BZOJ4568 [Scoi2016]幸运数字
- HDU 4381 Grid
- 一些Euclid空间上的定义
- glTF模型在线查看利器【glTF Viewer 2.0】
- 最新软件云测试方法你知道多少?有什么好处
- can总线隔离中继器、canbridge-100、CanRepeater的can波特率和滤波设置
- mysql+查询触发器+sql_Mysql基本查询、视图、索引、触发器
- python matplotlib设置字体大小_python – Matplotlib表的字体大小