Information Extraction
这是《语音和语言识别》第二十二章的笔记
- 命名实体识别
- 关系探测和分类
- 时间和事件处理
- 模板填充
- 高级主题:生物医药学的信息提取
关系探测和分类
监督型学习方法
可以把这个问题拆分成两个步骤:
- 判断两个候选项之间是否存在关系 : 使用一个二类分类器
- 给关系打上标签 : 使用多类分类器如朴素贝叶斯、决策树、最大熵
对于特征项的选取:
- 候选项的实体类型
- 实体类型的连接
- 候选项前几个词语
- 候选项的词袋、bigram词袋
- 两个候选项之间的词语数目
- 两个候选项之间的实体数目
- 整个句法树
- 组块路径
- 依存路径
- 两个候选项在句法树上的路径
轻的监督型学习方法
使用种子正则模式来生成新的正则模式。
e.g.
/[ORG] has a hub at [LOC]
使用这个正则模式我们在google News里发现了一个句子:
Ryanair has a hub at Charleroi
那么接下来使用Ryanair、Charleroi、hub发现了新的模式:
/[ORG], which uses [LOC] as a hub
/[ORG]’s hub at [LOC]
/[LOC] a main hub for [ORG]
新得到的模式的得分:
Conf = hits * log(finds)/ (hits + misses)
hits: 在搜索文档D的时候,新模式p匹配到的元组在已有模式集T里的数目
missed: 在搜索文档D的时候,新模式p匹配到的元组不在已有模式集T里的数目
finds: 在搜索文档D的时候,新模式p匹配到的所有元组
关系探测系统的评估
- 给出一篇文章,系统能发现和分类出多少个文章里的关系
- 系统能发现多少对元组(不考虑关系)
时间和事件处理
主要有三个方法:
- 在浅层句法分析、组块分析上的基于规则的系统
- 基于统计的IOB编码方法
- 基于成分的方法
方法1:
由于“时间”在句法分析里,只会出现在名词短语、形容词短语、副词短语中,在句法分析后,在这三类短语里,如果符合时间的正则模式,则认为这个部分为“时间”。
方法2:
归结为序列标注问题。
方法3:
句法分析后,在上面提到的三种短语里,进行序列标注。
所有这三种方法的主要缺点是不能打到合理的覆盖。比如有的人名也包含时间,比如“赵九月”是一个人名。
时间正则化
就是把时间标记成:开始、结束、之前、之后等。
事件处理和分析
大多数的事件是动词,大多数的动词是事件,有些名词短语也是事件。大多数助动词不是事件。
以下是基于规则或者基于统计的分类器经常使用的特征项:
- 词缀字符
- 正则化的后缀
- 词性
- 助动词
- 句法分析出的种类
- 词的形态
- 动词的根(英语)
- WordNet上的词义
时间和事件分析结合起来可以知道一条时间线上发生了什么事情。
有关时间分析的语料库有TimeBank(英文)。
模板填充
- 为每个实体实现一个分类器
- 实现一个多分类器
有些模板填充系统里的实体类别数是固定的,有些不是的。
高级主题:生物医药学信息提取
It is just an example.
Information Extraction相关推荐
- HDU 4868 Information Extraction(2014 多校联合第一场 H)
看到这道题时我的内心是奔溃的,没有了解过HTML,只能靠窝的渣渣英语一点一点翻译啊TT. Information Extraction 题意:(纯手工翻译,有些用词可能在html中不是一样的,还多包涵 ...
- Text-to-Table: A New Way of Information Extraction
作者:Xueqing Wu1, Jiacheng Zhang2, Hang Li2 单位:University of Illinois Urbana-Champaign1,ByteDance AI L ...
- 必读!信息抽取(Information Extraction)【关系抽取】
来源: AINLPer 微信公众号(每日给你好看-) 编辑: ShuYini 校稿: ShuYini 时间: 2020-08-11 引言 信息抽取(information extraction ...
- 论文阅读: Spatial Dual-Modality Graph Reasoning for Key Information Extraction (关键信息提取算法)
目录 引言 SDMG-R整体结构 双模态融合模块 Backbone部分 Head部分 融合模块 文本节点与边权重获得部分 图推理模块 分类模块 总结 引言 文档图像中的关键信息提取任务(Key Inf ...
- Information Extraction over Structured Data: Question Answering with Freebase【论文笔记】
Information Extraction over Structured Data:Question Answering with Freebase 一.摘要 最近,人们一直在 ...
- UIE:Unified Structure Generation for Universal Information Extraction
论文:https://arxiv.org/pdf/2203.12277.pdf 作者采用生成式text to structure结构统一了信息抽取的四个任务,并且在13个数据集上采用有监督.低资源和少 ...
- NLP——Information Extraction信息提取
文章目录 Information Extraction 步骤 Named Entity Recognition (NER) Typical Entity Tags 典型实体标签 IO tagging ...
- 第十七篇:信息抽取Information Extraction
目录 信息抽取 应用 如何? IE 中的机器学习 大纲 命名实体识别 典型实体标签 NER作为序列标记 IO 标记 IOB 标签 NER作为序列标记,继续 NER:特征 NER 的深度学习 关系抽取 ...
- SAP云平台 Document Information Extraction服务测试
- [阅读笔记]Zhang Y. 3D Information Extraction Based on GPU.2010.
1.立体视觉基础 深度定义为物体间的距离 视差定义为同一点在左图(reference image) 和右图( target image) 中的x坐标差. 根据左图中每个点的视差得到的灰度图称为视差图. ...
最新文章
- iis7+php_5.5,IIS7+php5.5+fastcgi
- 1.1.1.1校园网_还担心断网?快试试清华校园网自动连接程序
- 用计算机探索,学生计算机基础的应用探索
- MTK tee.img的打包原理介绍
- Android开发:1-1、UI编程基础----基本介绍
- VMware Pro 14.1.2 官方正式版及激活密钥
- 暴跌300亿,“撤离”中国!乔布斯12年前憋的大招,又把一个巨头逼下神坛
- react 中使用import()实现按需加载报错 解决方法 --‘import’ and ‘export’ may only appear at the top level
- 数据结构与算法 3:二叉树,遍历,创建,释放,拷贝,求高度,面试,线索树
- springboot配置手动提交_Spring Boot 入门教程 | 图文讲解
- 高德地图加载白屏问题No implementation found for long com.autonavi.amap.mapcore.MapCore.nativeNew
- cad查看_天正电气CAD教程之标注实例讲解
- KITTI数据集简介(一)—— 传感器介绍
- web前端 网页加载 性能优化大全
- untiy 怎么把物体显示在最上层
- 社会心理学、社会和文化
- 【EMNLP 2021】SimCSE:句子嵌入的简单对比学习 【CVPR 2021】理解对比学习损失函数及温度系数
- ENGINE=InnoDB AUTO_INCREMENT=51(mysql)
- CP56time2a是什么格式?
- 一款带ai基因的向导般生成ppt的神奇网站
热门文章
- CBD将建智慧城市管理平台
- 设计模式(九): 从醋溜土豆丝和清炒苦瓜中来学习模板方法模式(Template Method Pattern)...
- 转:Scrapy(爬虫框架)入门教程
- log4j.xml配置示例
- java regex详解
- Solr schema编写指导
- 获取桌面DC: GetDC(GetDesktopWindow())与GetDC(NULL)
- 小米蓝牙左右互联_399元,真香!小米蓝牙耳机Air,同价位比有线体验还出色?...
- html顶栏符号不显示,html – 带有USE标记的SVG无法呈现
- 空心心形图案的c语言程序,C语言写的各种心形图案_6583