这是《语音和语言识别》第二十二章的笔记

  • 命名实体识别
  • 关系探测和分类
  • 时间和事件处理
  • 模板填充
  • 高级主题:生物医药学的信息提取

关系探测和分类

监督型学习方法

可以把这个问题拆分成两个步骤:

  1. 判断两个候选项之间是否存在关系 : 使用一个二类分类器
  2. 给关系打上标签 : 使用多类分类器如朴素贝叶斯、决策树、最大熵

对于特征项的选取:

  1. 候选项的实体类型
  2. 实体类型的连接
  3. 候选项前几个词语
  4. 候选项的词袋、bigram词袋
  5. 两个候选项之间的词语数目
  6. 两个候选项之间的实体数目
  7. 整个句法树
  8. 组块路径
  9. 依存路径
  10. 两个候选项在句法树上的路径

轻的监督型学习方法

使用种子正则模式来生成新的正则模式。
e.g.

/[ORG] has a hub at [LOC]

使用这个正则模式我们在google News里发现了一个句子:

Ryanair has a hub at Charleroi

那么接下来使用Ryanair、Charleroi、hub发现了新的模式:

/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]

新得到的模式的得分:

Conf = hits * log(finds)/ (hits + misses)

hits: 在搜索文档D的时候,新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候,新模式p匹配到的元组不在已有模式集T里的数目
finds: 在搜索文档D的时候,新模式p匹配到的所有元组

关系探测系统的评估

  1. 给出一篇文章,系统能发现和分类出多少个文章里的关系
  2. 系统能发现多少对元组(不考虑关系)

时间和事件处理

主要有三个方法:

  1. 在浅层句法分析、组块分析上的基于规则的系统
  2. 基于统计的IOB编码方法
  3. 基于成分的方法

方法1:
由于“时间”在句法分析里,只会出现在名词短语、形容词短语、副词短语中,在句法分析后,在这三类短语里,如果符合时间的正则模式,则认为这个部分为“时间”。

方法2:
归结为序列标注问题。

方法3:
句法分析后,在上面提到的三种短语里,进行序列标注。

所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间,比如“赵九月”是一个人名。

时间正则化

就是把时间标记成:开始、结束、之前、之后等。

事件处理和分析

大多数的事件是动词,大多数的动词是事件,有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:

  1. 词缀字符
  2. 正则化的后缀
  3. 词性
  4. 助动词
  5. 句法分析出的种类
  6. 词的形态
  7. 动词的根(英语)
  8. WordNet上的词义

时间和事件分析结合起来可以知道一条时间线上发生了什么事情。

有关时间分析的语料库有TimeBank(英文)。

模板填充

  1. 为每个实体实现一个分类器
  2. 实现一个多分类器

有些模板填充系统里的实体类别数是固定的,有些不是的。

高级主题:生物医药学信息提取

It is just an example.

Information Extraction相关推荐

  1. HDU 4868 Information Extraction(2014 多校联合第一场 H)

    看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...

  2. Text-to-Table: A New Way of Information Extraction

    作者:Xueqing Wu1, Jiacheng Zhang2, Hang Li2 单位:University of Illinois Urbana-Champaign1,ByteDance AI L ...

  3. 必读!信息抽取(Information Extraction)【关系抽取】

    来源: AINLPer 微信公众号(每日给你好看-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-11 引言     信息抽取(information extraction ...

  4. 论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)

    目录 引言 SDMG-R整体结构 双模态融合模块 Backbone部分 Head部分 融合模块 文本节点与边权重获得部分 图推理模块 分类模块 总结 引言 文档图像中的关键信息提取任务(Key Inf ...

  5. Information Extraction over Structured Data: Question Answering with Freebase【论文笔记】

              Information Extraction over Structured Data:Question Answering with Freebase 一.摘要 最近,人们一直在 ...

  6. UIE:Unified Structure Generation for Universal Information Extraction

    论文:https://arxiv.org/pdf/2203.12277.pdf 作者采用生成式text to structure结构统一了信息抽取的四个任务,并且在13个数据集上采用有监督.低资源和少 ...

  7. NLP——Information Extraction信息提取

    文章目录 Information Extraction 步骤 Named Entity Recognition (NER) Typical Entity Tags 典型实体标签 IO tagging ...

  8. 第十七篇:信息抽取Information Extraction

    目录 信息抽取 应用 如何? IE 中的机器学习 大纲 命名实体识别 典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习 关系抽取 ...

  9. SAP云平台 Document Information Extraction服务测试

  10. [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.

    1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...

最新文章

  1. iis7+php_5.5,IIS7+php5.5+fastcgi
  2. 1.1.1.1校园网_还担心断网?快试试清华校园网自动连接程序
  3. 用计算机探索,学生计算机基础的应用探索
  4. MTK tee.img的打包原理介绍
  5. Android开发:1-1、UI编程基础----基本介绍
  6. VMware Pro 14.1.2 官方正式版及激活密钥
  7. 暴跌300亿,“撤离”中国!乔布斯12年前憋的大招,又把一个巨头逼下神坛
  8. react 中使用import()实现按需加载报错 解决方法 --‘import’ and ‘export’ may only appear at the top level
  9. 数据结构与算法 3:二叉树,遍历,创建,释放,拷贝,求高度,面试,线索树
  10. springboot配置手动提交_Spring Boot 入门教程 | 图文讲解
  11. 高德地图加载白屏问题No implementation found for long com.autonavi.amap.mapcore.MapCore.nativeNew
  12. cad查看_天正电气CAD教程之标注实例讲解
  13. KITTI数据集简介(一)—— 传感器介绍
  14. web前端 网页加载 性能优化大全
  15. untiy 怎么把物体显示在最上层
  16. 社会心理学、社会和文化
  17. 【EMNLP 2021】SimCSE:句子嵌入的简单对比学习 【CVPR 2021】理解对比学习损失函数及温度系数
  18. ENGINE=InnoDB AUTO_INCREMENT=51(mysql)
  19. CP56time2a是什么格式?
  20. 一款带ai基因的向导般生成ppt的神奇网站

热门文章

  1. CBD将建智慧城市管理平台
  2. 设计模式(九): 从醋溜土豆丝和清炒苦瓜中来学习模板方法模式(Template Method Pattern)...
  3. 转:Scrapy(爬虫框架)入门教程
  4. log4j.xml配置示例
  5. java regex详解
  6. Solr schema编写指导
  7. 获取桌面DC: GetDC(GetDesktopWindow())与GetDC(NULL)
  8. 小米蓝牙左右互联_399元,真香!小米蓝牙耳机Air,同价位比有线体验还出色?...
  9. html顶栏符号不显示,html – 带有USE标记的SVG无法呈现
  10. 空心心形图案的c语言程序,C语言写的各种心形图案_6583