目录

信息抽取

应用

如何?

IE 中的机器学习

大纲

命名实体识别

典型实体标签

NER作为序列标记

IO 标记

IOB 标签

NER作为序列标记,继续

NER:特征

NER 的深度学习

关系抽取

方法

基于规则的关系抽取

有监督的关系抽取

半监督关系抽取

远程监管

无监督关系提取(“OpenIE”)

评估

其他 IE 任务

时间表达提取

事件提取

最后


信息抽取

• 根据下面这句话:
    ‣ “Brasilia, the Brazilian capital, was founded in 1960.”
• 得到:
    ‣ capital(Brazil, Brasilia)
    ‣ founded(Brasilia, 1960)

• 主要目标:将文本转化为结构化数据

应用

• 股票分析
    ‣ 从新闻和社交媒体中收集信息
    ‣ 将文本汇总为结构化格式
    ‣ 决定是否以当前股价买入/卖出
• 医学研究
    ‣ 从有关疾病和治疗的文章中获取信息
    ‣ 决定为新患者申请哪种治疗

如何?

• 两个步骤:
    ‣ 命名实体识别 (NER):找出“Brasilia”和“1960”等实体
    ‣ 关系抽取:使用上下文查找“Brasilia”和“1960”(“founded”)之间的关系

IE 中的机器学习

• 命名实体识别(NER):序列模型,例如RNN、HMM 或CRF。
• 关系提取:主要是分类器,二元或多类。
• 本讲座:如何构建这两个任务以应用序列标记器和分类器。

大纲

• 命名实体识别
• 关系抽取
• 其他 IE 任务

命名实体识别

典型实体标签

• PER:人物、人物
• ORG:公司、运动队
• LOC:地区、山脉、海洋
• GPE:国家、州、省(在某些标签集中,这被标记为 LOC)
• FAC:桥梁、建筑物、机场
• VEH:飞机、火车、汽车
• 标签集依赖于应用程序:一些域处理特定实体,例如 蛋白质和基因

NER作为序列标记

• NE 标签可能不明确:
    ‣ “Washington” 可以是个人、地点或政治实体
• 做 POS 标记时的类似问题
    ‣ 合并上下文
• 我们可以为此使用序列标记器吗(例如 HMM)?
    ‣ 否,因为实体可以跨越多个标记
    ‣ 解决方法:修改标签集

IO 标记

• “I-ORG”代表一个实体(在本例中为 ORG)内部的令牌。
• 所有不是实体的令牌都获得“O”令牌(用于外部)。
• 无法区分:
    ‣ 具有多个标记的单个实体
    ‣ 具有单个标记的多个实体

IOB 标签

• B-ORG 代表 ORG 实体的开始。
• 如果实体具有多个单词,则后续标签表示为 I-ORG。

NER作为序列标记,继续

• 给定这样的标记方案,我们可以训练任何序列标记模型
• 理论上,可以使用 HMM,但首选 CRF 等判别模型

NER:特征

• POS 标签/句法块:许多实体是名词或名词短语。
• 地名录中的存在:实体列表,例如地名、人名和姓氏等。

NER 的深度学习

• 最先进的方法使用带有字符和单词嵌入的 LSTM(Lample 等人,2016 年)

关系抽取

• 传统上被定义为三元组提取:
    ‣ 单位(美国航空、AMR Corp.)
    ‣ 发言人(Tim Wagner,美国航空公司)
• 关键问题:我们是否知道所有可能的关系?

方法

• 如果我们可以访问固定关系数据库:
    ‣ 基于规则
    ‣ 监督
    ‣ 半监督
    ‣ 远程监管
• 如果对关系没有限制:
    ‣ 无监督
    ‣ 有时称为“OpenIE”

基于规则的关系抽取

• NP0 比如 NP1 → 下义词(NP1, NP0)

• 词汇句法模式:高精度、低召回率、需要人工

有监督的关系抽取

• 假设一个带有注释关系的语料库
• 两个步骤。 首先,查找实体对是否相关(二元分类)
    ‣ 对于每个句子,收集所有可能的实体对
    ‣ 注释对被视为正例
    ‣ 未标注的对作为反例
    • 其次,对于预测为正的对,使用多类分类器(例如 SVM)获得关系

半监督关系抽取

• 带注释的语料库的创建成本非常高
• 使用种子元组引导分类器

1. 给定种子元组: hub(Ryanair, Charleroi)
2. 在种子元组中查找包含术语的句子
    • 以沙勒罗瓦为枢纽的廉价航空公司瑞安航空取消了所有周末离开机场的航班。
3.提取一般模式
    • [ORG],使用 [LOC] 作为中心
4. 用这些模式寻找新的元组
    • 枢纽(捷星、阿瓦隆)
5. 将这些新元组添加到现有元组并重复步骤 2

语义漂移

• Pattern: [NP] has a {NP}* hub at [LOC]
• Sydney has a ferry hub at Circular Quay
    ‣ hub(Sydney, Circular Quay)

• 从此元组中提取出更多错误模式……
• 应该只接受具有高置信度的模式

远程监管

• 半监督方法假设存在种子元组以挖掘新元组
• 我们可以直接挖掘新元组吗?
• 远程监督从范围中获取新元组
来源:
    ‣ DBpedia
    ‣ Freebase
• 生成海量训练集,可以使用更丰富的特征,并且没有语义漂移的风险

无监督关系提取(“OpenIE”)

• 没有固定或封闭的关系集
• 关系是子句; 通常有一个动词
• “United has a hub in Chicago, which is the headquarters of United Continental Holdings.”
    ‣“has a hub in”(United, Chicago)
    ‣ “is the headquarters of”(芝加哥,联合大陆控股)
• 主要问题:将关系映射到规范形式

评估

• NER:F1-实体级别的度量。
• 已知关系集的关系抽取:F1-measure
• 未知关系的关系抽取:更难评估
    ‣ 通常需要一些人工评估
    ‣ 这些设置中使用的海量数据集无法手动评估(使用样本)
    ‣ 只能获得(近似)精度,不能获得召回率。

其他 IE 任务

时间表达提取

• 锚定:“上周”是什么时候?
    ‣ “last week” → 2007−W26
• 规范化:将表达式映射到规范形式。
    ‣ July 2, 2007 → 2007-07-02
• 主要基于规则的方法

事件提取

• 与NER 非常相似,包括注释和学习方法。
• 事件排序:检测一组事件在时间线中是如何发生的。
    ‣ 涉及事件提取和时间表达式提取。

最后

• 信息提取是一个包含许多不同任务和应用的广阔领域
    ‣ 命名实体识别
    ‣ 关系抽取
    ‣ 事件提取
• 机器学习方法涉及分类器和序列标记模型。

今天就到这里了,感谢小伙伴们的观看,谢谢!有问题评论区交流!

第十七篇:信息抽取Information Extraction相关推荐

  1. 必读!信息抽取(Information Extraction)【关系抽取】

    来源: AINLPer 微信公众号(每日给你好看-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-11 引言     信息抽取(information extraction ...

  2. 面向知识图谱的信息抽取

    面向知识图谱的信息抽取 人工智能技术与咨询 点击蓝字 · 关注我们 来源:< 数据挖掘,> ,作者赵海霞等 关键词: 知识图谱:信息抽取:实体抽取:关系抽取:开放域 摘要: 摘要: 随着大 ...

  3. FreeDOM —— 一个可迁移的网页信息抽取模型

    ⬆⬆⬆ 点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 在网页中抽取结构化信息是一种非常重要的知识获取(Knowledge Discvoery)方式.为了构建一个领域的知识图谱,往往需 ...

  4. 信息抽取在知识图谱构建中的实践与应用

    编者按 坦率地讲,各行各业对如何落地知识图谱这个问题,或多或少都心存一丝疑惑.人类知识和机器可理解的知识有什么区别?知识图谱如何突破自身局限性,从"万事通"转为"科学家& ...

  5. paddle 图标注_基于DGCNN和概率图的轻量级信息抽取模型

    作者丨苏剑林 单位丨追一科技 研究方向丨NLP,神经网络 个人主页丨kexue.fm 前几个月,百度举办了"2019语言与智能技术竞赛" [1],其中有三个赛道,而我对其中的&qu ...

  6. 揭开知识库问答KB-QA的面纱3·信息抽取篇

    内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选答案 论文实验与总结 本期我们将介绍KB-QA传统方法之一的信息抽取(Information Extrac ...

  7. [论文阅读笔记70]基于token-token grid模型的信息抽取(5篇)

    论文1: TPLinker: Single-stage Joint Extraction of Entities and Relations Through Token Pair Linking 年份 ...

  8. 深度学习应用篇-自然语言处理[10]:N-Gram、SimCSE介绍,更多技术:数据增强、智能标注、多分类算法、文本信息抽取、多模态信息抽取、模型压缩算法等

    [深度学习入门到进阶]必看系列,含激活函数.优化策略.损失函数.模型调优.归一化算法.卷积模型.序列模型.预训练模型.对抗神经网络等 专栏详细介绍:[深度学习入门到进阶]必看系列,含激活函数.优化策略 ...

  9. 【ACL2020】这8份Tutorial不可错过!包括:常识推理、多模态信息抽取、对话、解释性等...

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要7分钟 Follow小博主,每天更新前沿干货 自然语言处理领域顶级会议 ACL 2020 将于 7 月 5 日至 10 日在线上举行.本届 A ...

最新文章

  1. 象棋子 设计模式_通过设计国际象棋游戏了解策略模式
  2. Asp.net mvc中使用配置Unity
  3. PWN-PRACTICE-CTFSHOW-7
  4. wowbl最优势的服务器,CWOW中BL为什么远远多于LM一个新手之见
  5. oracl 单行字符型函数
  6. python api测试框架_python api 测试框架
  7. 着色器的细节层次技术 Shader Level of Detail
  8. Qt使用QPainter绘图的缩放问题
  9. 小鹏汽车提交赴美IPO:上半年营收1.42亿美元 何小鹏持股31.6%为最大股东
  10. C++子类的构造函数
  11. 系统学习NLP(十六)--DSSM
  12. ubuntu 安装nvm
  13. 【错误记录】springboot项目报错Field xxx in com.xx.xx.xx.impl.xxImpl required a bean
  14. 库存管理 库存管理软件榜单 库存管理软件排名 库存管理提高效率的办法
  15. CAD打开文件总是弹出要求选择字体怎么办
  16. linux eqep驱动框架,AM3352 数据表, 产品信息与支持 | TI.com.cn
  17. 大数乘方运算-C语言
  18. 腾讯云永久修改主机名
  19. mysql par文件_mysql .par文件格式解析
  20. 自动驾驶专业名词简写简写缩写

热门文章

  1. 8月精选Python开源项目Top10
  2. 吴恩达晒妻又晒车,顺便宣布了一个重大消息
  3. 一份为高中生准备的机器学习与人工智能入门指南
  4. 程序员转型AI,这里有最全的机器学习介绍+应用实例
  5. 面进了心心念念的国企!以为TM上岸了!干了1年!我却再次选择回到互联网大厂内卷!
  6. SpringBoot最最最常用的注解梳理
  7. 你的Redis怎么持久化的
  8. Spring Boot 第三篇:SpringBoot用JdbcTemplates访问Mysql
  9. Spring Cloud第六章:配置中心Config
  10. 如何高效读论文?剑桥CS教授亲授“三遍论”:论文最多读三遍,有的放矢,步步深入...