UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记

  • 关系抽取
    • 概述
    • 面向非结构化文本的关系抽取
      • 预定义关系抽取
      • 开放式关系抽取
    • 面向半结构化文本的关系抽取
    • 数据和评测

关系抽取

概述

  • 关系抽取:自动识别由一对概念和联系这对概念的关系构成相关三元组 / 多元组
  • 关系抽取信息来源:网页
    • 结构化数据
    • 半结构化数据
    • 纯文本
  • 关系类别
    • ACE 61种
    • TAC-KBP 39种
    • SemEval 10种
  • 难点
    • 自然语言的多样性(同一关系的不同表述)
    • 自然语言的歧义性(相同表述在不同语义下表示不同的关系)

面向非结构化文本的关系抽取

预定义关系抽取

  • 关系分类

    • 任务:给定两个实体,判断其关系

      • 关系集合已经定义好,实质是在关系集合中分类
    • 方法:机器学习方法,将关系实例转换成高维空间中的特征向量,在标注语料库训练生成分类模型,在识别实体间关系
      • 基于特征向量的方法

        • 获取有效的词法、句法、语义等特征,并有效集成起来
        • 产生描述实体语义关系的各种局部特征和全局特征
        • 特征选取:从自由文本及其句法结构中抽取各种词汇特征以及结构化特征
        • Pros:简单使用、计算比较快
        • Cons:难以进一步挖掘有效平面特征
      • 基于核函数的方法
        • 挖掘反应语义关系的结构化信息及如何有效计算结构化信息之间的相似度
        • 核函数K(x,y)K(x, y)K(x,y)表示二者之间的相似度
        • Pros:能够有效挖掘结构化信息
        • Cons:句法分析引入噪声,计算慢
      • 传统方法的问题
        • 需要抽取特征、专家知识
        • 很多语言缺乏处理工具,无法提取特征
        • 工具引入造成错误累积
        • 人工设计特征不一定合适
      • 基于深度学习的方法
        • 设计合理的网络结构,捕捉更多信息,更准确地完成关系抽取
        • CNN——建模局部特征
        • RNN——建模时序信息
        • 基于CNN的关系分类方法
          • 通过CNN学习文本语义特征
          • 词向量表示词汇语义特征(WordNet),CNN建模句子语义特征(词 + 位置)
          • 问题:CNN难以建模句子中长距离的依赖关系
        • 基于LSTM的关系分类方法
          • 双向LSTM,两个隐层向量对应位置求和
          • Attention层,隐层softmax
        • Pros:人工干预小,可扩展性好
        • Cons:可解释性差,训练时间长
  • 实体关系联合抽取
    • 任务:给定一个句子,需要识别句子中的实体以及实体之间的关系(RDF三元组)
    • 序列标注方法
      • BIES标注,以及头尾实体序号组合
      • 考虑Other标签,不属于任何关系
      • 标注形式:BIES - Relation - ID
      • 根据标注结果得到三元组
      • 标注方法
        • LSTM + CRF
        • LSTM + LSTM(E-D)
        • LSTM + LSTM + bias(对Other标签的重要程度进行设置)
      • 问题:不能同时抽取重叠实体的两个三元组——多关系抽取
  • 多关系抽取
    • 任务:给定一个句子,需要识别所有的三元组(存在重叠实体情形)
    • 重叠类型
      • 不重叠类型
      • 实体对重叠类型
      • 单个实体重叠类型
    • 拷贝机制的端到端模型
      • Encoder:将自然语言句子编码成一个定长语义向量
      • Decoder:直接解码成各个三元组
      • 拷贝机制:原句内容拷贝到LSTM中,提高对应词置信度
      • OneDecoder策略:一个解码单元解码所有三元组
      • MultiDecoder策略:多个解码单元解码,一个解码单元解码一个三元组
  • 远程监督关系抽取
    • 利用知识库对文本自动进行回标得到远程监督数据集
    • 无需人工参与,获取代价低,易扩展到大规模场景
    • 起源:在Wikipedia抽取关系信息
      • 难以确定关系类别
      • 无法获取训练语料
      • infobox抽取信息——文本回标(对齐)——获得训练语料
    • Distant Supervision
      • 使用知识库中的关系,启发式地标注语料
      • 假设:每一个同时包含连个实体的句子都会表述两个实体在知识库中的对应关系
      • 噪声问题
        • 标注负例
    • 形式化描述
      • 数据构建

        • 给定知识库中的一个三元组r(e1,e2)r(e_1, e_2)r(e1​,e2​)
        • 将同时包含了e1e_1e1​和e2e_2e2​的句子回标关系rrr
        • 这样的句子集合称为包
      • 任务
        • 包级别的标签预测:远程监督关系抽取需要给未知的包预测语义标签
        • 常用FreeBase回标NYT语料
      • 方法
        • 概率图方法
        • 矩阵补全方法(观测矩阵 = 低秩矩阵 + 噪声矩阵)
        • 深度学习方法
          • 包级别关系预测
          • 句子级别的关系抽取
    • 多实例学习
      • 不要确定包括两个实体的每个句子具有那种关系
      • 只要确定两个实体具体有那种关系就可以了
      • 目的:在不知道每个示例标签的情况下,根据训练集给定的包,通过学到的模型预测包的标签
    • 多实例学习远程监督分类(多示例单标签)
      • 动机:远程监督数据存在噪声、传统NLP工具存在错误累积问题
      • 方法
        • 视为一个多示例问题
        • 一个包只有一个标签
        • 分段CNN,摆脱对NLP工具的依赖
          • PCNN(对句子处理,然后取分类概率最大的句子的关系作为包的关系,训练时只使用这个句子)
          • 利用分段池化保留更多信息,句子分为三段(头实体、中间、尾实体)池化
        • 词的表示:词 + 位置
    • 多实例学习远程监督分类(多示例单标签 + 注意力机制)
      • 利用注意力机制减轻噪声影响
      • 方法
        • 用 CNN 对包中的每个句子进行表示
        • 计算每个句子的注意力权重
        • 包的表示等于各个句子表示加权之和
        • 对包的表示进行分类
    • 多实例学习远程监督分类(多示例多标签)
      • 存在包有个关系的情形
      • 需要考虑跨句子的信息——隐式关系
      • 方法
        • 跨句子最大池化捕获句子的信息
        • 两种损失函数建模多标签
    • 强化学习
      • 噪声信息不可避免
      • 基于句子级的示例挑选,得到包级别表示,可以有效滤除噪声
      • 每个包打多个标签,每个句子只有一个标签,可以指出那个句子给出了哪个标签,训练时直接判断哪些句子是噪声,并直接过滤掉,训练一个句子级别的分类器,为每个句子分类
      • 强化学习过程
        • 示例挑选器和关系分类器互相促进
        • 实力选择器挑选出有效的句子参与分类(策略梯度训练)
        • 关系分类器对挑选出的句子进行分类
    • 句子级远程监督关系分类(强化学习)
      • 包级别只关心包的关系
      • 句子级关系同时关心包中各句子类别
      • 利用远程监督数据对句子进行关系分类
      • 句子关系分类器,利用“至少一个”假设预测包的关系

开放式关系抽取

  • 通过识别表达语义关系的短语抽取实体之间的关系

  • 使用句法和统计数据过滤抽取的三元组

  • Pros:无需预先定义关系类别

  • Cons:语义未归一化,同一关系有不同表示

  • 传统方法

    • TextRunner

      • 语料的自动生成(依存句法分析)和分类器训练(朴素贝叶斯)
      • 大规模关系三元组的抽取
      • 关系三元组可信度计算(相似合并,利用网络频率计算)
  • 深度学习方法

    • 拷贝机制 + Seq2Seq

      • 句子片段作为三元组拷贝到模型

面向半结构化文本的关系抽取

  • 目标:从半结构化网页中抽取实体属性名以及实体属性值
  • 方法
    • 半结构化信息块定位

      • 具有相同模式的实体关系属性名总时连续出现
      • “XXX:”的结构出现
      • 关键在于属性名称的确定
      • 问题:仅依靠已有属性名定位,召回率低
      • 基本框架
        • 首先利用结构化信息识别半结构化块
        • 然后在识别的块中学习属性模板并抽取属性
        • 对模板和属性名进行排序,获得高质量的模板和属性名
        • 利用高质量的模板和属性名进行定位和抽取
        • [外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5ZIsSp1C-1588178569882)(assets/image-20200429193127144.png)]
      • 启发式规则P8
    • 模板学习
      • 确定前缀和分隔符
    • Ranker对抽取模板于属性名进行排序
      • Graph,Random Walking
    • 单个页面内实体属性抽取
      • 利用网站级知识在页面定位半结构化信息块
      • 抽取属性名和属性值
      • 确定实体1
        • 大多数情况下条目名称
        • 并列结构情形

数据和评测

  • 评测语料:P16

    • ACE:关系检测和识别
    • TAC-KBP
    • SemEval:信息抽取
    • NYT:数据构建(Freebase回标)
    • WebNLG:为生成任务构建,数据构建

UCAS - AI学院 - 知识图谱专项课 - 第8讲 - 课程笔记相关推荐

  1. UCAS - AI学院 - 自然语言处理专项课 - 第7讲 - 课程笔记

    UCAS-AI学院-自然语言处理专项课-第7讲-课程笔记 形态分析.汉语分词与词性标注 概述 英语形态分析 汉语自动分词 概要 性能评价方法 未登录词识别 现状和未来 词性标注 形态分析.汉语分词与词 ...

  2. UCAS - AI学院 - 自然语言处理专项课 - 第8讲 - 课程笔记

    UCAS-AI学院-自然语言处理专项课-第8讲-课程笔记 句法分析·短语结构分析 概述 线图分析法 CYK分析法 基于PCFG的分析法 句法分析性能评估 局部句法分析 句法分析·依存句法分析 概述 依 ...

  3. UCAS - AI学院 - 计算机视觉专项课 - 第1讲 - 课程笔记

    UCAS-AI学院-计算机视觉专项课-第1讲-课程笔记 课程介绍 什么是计算机视觉 计算机视觉发展的四个重要历程 课程介绍 线上讲授+答疑 编程作业+文献阅读作业 30% 课堂开卷 70% 什么是计算 ...

  4. 半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架DGL-KE

    出品 | AI科技大本营(ID:rgznai100) 知识图谱 (Knowledge Graph)作为一个重要的技术,在近几年里被广泛运用在了信息检索,自然语言处理,以及推荐系统等各种领域.学习知识图 ...

  5. 半小时训练亿级规模知识图谱,亚马逊AI开源知识图谱嵌入表示框架

    来源:AI 科技大本营 本文约2300字,建议阅读9分钟 亚马逊 AI 团队开源了一款专门针对大规模知识图谱嵌入表示的新训练框架 DGL-KE,能让研究人员和工业界用户方便.快速地在大规模知识图谱数据 ...

  6. 一文详解知识图谱关键技术与应用 | 公开课笔记

    讲师 | 桂洪冠 来源 | AI科技大本营在线公开课 视频回放地址:https://edu.csdn.net/huiyiCourse/detail/844 本课程从知识图谱的历史由来开展,讲述知识图谱 ...

  7. 如何系统学习知识图谱-张子良-专题视频课程

    如何系统学习知识图谱-314人已学习 课程介绍         如何系统学习知识图谱 课程收益     一套完整的人工智能学习方法论:两大目标.七大步骤     两大基于实践的知识图谱学习佳实践经验总 ...

  8. AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记及资源在线阅读

    http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html 深度学习笔记目录 第一门课 神经网络和深度学习(Neural Networks and De ...

  9. AIQ - deeplearning.ai 全套吴恩达老师的深度学习课程笔记

    http://www.6aiq.com/deeplearning_ai/html/SUMMARY.html 深度学习笔记目录 第一门课 神经网络和深度学习(Neural Networks and De ...

最新文章

  1. JSP Cookie处理
  2. idea自动更新java_IntelliJ IDEA自动更新资源文件
  3. mysql查询三个月内的_如何在三个月内自学攻克雅思6.5分?
  4. Python图像处理库:Pillow 初级教程
  5. Web后端学习笔记 Flask(10)CSRF攻击原理
  6. Linux下 Mysql 命令 备份
  7. vue+express+mongoose项目构建
  8. 框架基础---动态代理
  9. 分析CHE矢量变频器在数控雕刻机床上应用
  10. Java之图片添加文字
  11. 7-161 双曲余弦函数(*)
  12. Contour 学习笔记(一):使用 Contour 接管 Kubernetes 的南北流量
  13. Windows/Linux下C++对于UUID的跨平台封装
  14. 两个各四只青蛙过河java_Java实现 LeetCode 403 青蛙过河
  15. 实现图片“模糊”特效
  16. 希腊字母的读法[转]
  17. python简单的接口测试实例
  18. js 排班插件_排班小程序
  19. java学习--容器(1)
  20. ISO27001-2013学习笔记

热门文章

  1. Opencv分类器的训练(内含文件批量改名工具及负样本图包下载地址)
  2. Matlab设置双y轴特性
  3. python中的模块和类_Python模块与类
  4. Java中获取节假日日期
  5. 连接到手机热点显示无法解析服务器,Win10系统电脑可以成功连接上手机的热点但连不上网该如何处理...
  6. JavaScript历史
  7. L1-SVD实现DOA
  8. 服务器支持电脑硬盘吗,服务器硬盘和普通硬盘有什么区别?服务器硬盘和普通硬盘区别对比评测...
  9. 【Unity3D】点选物体、框选物体、绘制外边框
  10. 南宁动物园的动物,真是一个比一个疯!