(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)

1 基本概念

什么是新词(是什么)
新词是一个相对的概念,每个人的标准都不一样,所以我们这里定义: 词典之外的词语(OOV)称作新词。

为什么要进行新词提取(为什么)
新词的提取对中文分词而言具有重要的意义,因为语料库的标注成本很高。那么如何修订领域词典呢,此时,无监督的新词提取算法就体现了现实意义。

怎么进行新词提取(怎么办)

  • 提取出大量文本(生语料)中的词语,无论新旧。
  • 用词典过滤掉已有的词语,于是得到新词。

步骤 2 很容易,关键是步骤 1,如何无监督的提取出文本中的单词。给定一段文本,随机取一个片段,如果这个片段左右的搭配很丰富,并且片段内部成分搭配很固定,则可以认为这是一个词。将这样的片段筛选出来,按照频次由高到低排序,排在前面的有很高概率是词。

如果文本足够大,再用通用的词典过滤掉“旧词”,就可以得到“新词”。

片段外部左右搭配的丰富程度(越丰富说明不确定性越大,这样可以引进熵这个概念进行度量了),可以用信息熵来衡量,而片段内部搭配的固定程度可以用子序列的互信息来衡量。

信息熵
在信息论中,信息熵( entropy )指的是某条消息所含的信息量。它度量一个随机事件的不确定性,熵越大,不确定性越大,反之亦然。
对于随机变量XXX,信息熵定义如下:
H(x)=−∫xp(x)log⁡p(x)dxH(x) = -\int_x p(x) \log p(x) dxH(x)=−∫x​p(x)logp(x)dx

  • 举一个简单的例子

给定字符串 S 作为词语备选,X 定义为该字符串左边可能出现的字符(左邻字),则称 H(X) 为 S 的左信息熵,类似的,定义右信息熵 H(Y),例如下列句子:

两只蝴蝶飞啊飞
这些蝴蝶飞走了

那么对于字符串蝴蝶,它的左信息熵为1,而右信息熵为0。因为生语料库中蝴蝶的右邻字一定是飞。假如我们再收集一些句子,比如“蝴蝶效应”“蝴蝶蜕变”之类,就会观察到右信息熵会增大不少。

互信息(Mutual Information)
度量两个随机变量X,YX,YX,Y的相关程度,用狭隘的大白话理解随机变量的相关性,就是随机变量越相关,二者同时发生或者互斥的可能性越大,数学定义如下:
I(X;Y)=Ep(x,y)log⁡p(x,y)p(x)p(y)I(X; Y) = E_{p(x,y)} \log \frac{p(x,y)}{p(x)p(y)} I(X;Y)=Ep(x,y)​logp(x)p(y)p(x,y)​

  • 还是上面“蝴蝶”的例子:

X=字符串前缀,Y=字符串后缀X = 字符串前缀,Y=字符串后缀X=字符串前缀,Y=字符串后缀,分析“蝴蝶”

信息抽取--新词提取相关推荐

  1. 信息抽取--关键词提取

    (纯属为了记录自己学习的点滴过程,引用资料都附在参考列表) 1 基本概念 什么是关键词(是什么) 大略的讲就是文章中重要的单词,而不限于词语的新鲜程度. 什么样的单词是重要的单词,恐怕这是个见仁见智的 ...

  2. 揭开知识库问答KB-QA的面纱3·信息抽取篇

    内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选答案 论文实验与总结 本期我们将介绍KB-QA传统方法之一的信息抽取(Information Extrac ...

  3. KB-QA:如何对问题进行信息抽取?

    向AI转型的程序员都关注了这个号???????????? 机器学习AI算法工程   公众号:datayx 内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选 ...

  4. python医疗发票 信息抽取_PYTHON网络爬虫与信息提取[信息的组织与提取](单元五)...

    1 三种信息类型的简介 xml : extensible markup language 与html非常相似 现有html后有xml xml是html发展来的 扩展 通用 json  类型 javas ...

  5. 关于NLP相关技术全部在这里:预训练模型、图神经网络、模型压缩、知识图谱、信息抽取、序列模型、深度学习、语法分析、文本处理...

    NLP近几年非常火,且发展特别快.像BERT.GPT-3.图神经网络.知识图谱等技术应运而生. 我们正处在信息爆炸的时代.面对每天铺天盖地的网络资源和论文.很多时候我们面临的问题并不是缺资源,而是找准 ...

  6. 第十七篇:信息抽取Information Extraction

    目录 信息抽取 应用 如何? IE 中的机器学习 大纲 命名实体识别 典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习 关系抽取 ...

  7. 一人之力,刷爆三路榜单!信息抽取竞赛夺冠经验分享

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达文 | JayLou娄杰 在现如今的NLP竞赛中,信息抽取(IE)任务已占据半壁江山.来 ...

  8. 【ACL2020】这8份Tutorial不可错过!包括:常识推理、多模态信息抽取、对话、解释性等...

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要7分钟 Follow小博主,每天更新前沿干货 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 日在线上举行.本届 A ...

  9. 实体链接:信息抽取中的NLP的基础任务

    2020-07-10 09:22:59 作者:Sundar V 编译:ronghuaiyang 导读 构建知识库的必备技能之一. 我相信大多数人都遇到过命名实体识别(NER).NER是一种基本的自然语 ...

最新文章

  1. 亚马逊刊登php代码,最全的亚马逊刊登listing工具了解一下
  2. poj2728(最优比率生成树)
  3. 这 100 个心理学知识你必须了解
  4. C#:异步编程和线程的使用(.NET 4.5 ),异步方法改为同步执行
  5. Uni-Java_Java全栈必备之Uni-App
  6. 从电子工程师到研发经理到老板的多面人生
  7. Android 集成微信分享2,实现微信分享
  8. QML程序发布时无法正常运行的解决办法
  9. c# 从一组数中随机抽取一定个数_Python随机模块22个函数详解
  10. 【第二十九章】 springboot + zipkin + mysql
  11. 2018-3-10 unset 变量 ab测试
  12. 吴恩达深度学习笔记(十一)—— dropout正则化
  13. BZOJ4568 [Scoi2016]幸运数字
  14. HDU 4381 Grid
  15. 一些Euclid空间上的定义
  16. glTF模型在线查看利器【glTF Viewer 2.0】
  17. 最新软件云测试方法你知道多少?有什么好处
  18. can总线隔离中继器、canbridge-100、CanRepeater的can波特率和滤波设置
  19. mysql+查询触发器+sql_Mysql基本查询、视图、索引、触发器
  20. python matplotlib设置字体大小_python – Matplotlib表的字体大小

热门文章

  1. 第一百三十四期:MySQL分页查询方法及优化
  2. spring mvc学习(39):restful的crud实现删除方式
  3. 第一百二十六期:代码以外的生存之道,献给每位入了坑的码农
  4. 第八十六期:“程序员锁死服务器导致公司倒闭”案正式开庭审理
  5. 6用NetBeans进行JSP开发
  6. python之lambda
  7. 实例3:python
  8. 小程序页面跳转的几个方法和区别
  9. docker php composer 使用_如何使用Docker部署PHP开发环境
  10. ASP正则表达式方面小笔记