一、KBQA的主要流程

1.1 什么是KBQA

给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案

1.2 KBQA的实现范式

KBQA在技术上可以分成两种方案,分别是一种是语义解析方式,第二种信息检索方式方法。

语义解析是把问题解析出句法成分、逻辑组合、关系、实体等,然后转为知识库上的查询语句,这种方法优点是有较高的精度,但是需要定义大量的规则,人工量成本较高,并且低召回。

而信息检索方式以实体在知识库上召回较多的候选路径,通过语义匹配的方式对候选路径进行重排序,从而选择最优的路径作为答案,所以信息检索方式具有较高泛化性。

1.3 KBQA的常见问题类型

二、信息检索式KBQA

2.1 A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2.1.1 介绍

主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式
答案选择的Pipeline方式构建问答系统,该系统最多能解决两跳(two-hop)的问题。

2.1.2 模型

①分词处理:分词词典由ccks提供的所有实体和实体提及构成

②主要实体提及识别:通过实体长度、实体频数实体距离疑问词的距离、实体两跳子图在问题中覆盖的词数、实体两跳子图与问题中词的词向量相似程度、实体两跳子图在问题中覆盖的字数作为特征,最后计算实体得分:
S c o r e t o p i c e n t i t y = w 1 ∗ F 1 + w 2 ∗ F 2 + w 3 ∗ F 3 + W 4 ∗ F 4 + w 5 ∗ F 5 + w 6 ∗ F 6 Scoretopicentity=w1*F1 +w2*F2 +w3*F3 +W4*F4+ w5* F5 + w6*F6 Scoretopicentity=w1∗F1+w2∗F2+w3∗F3+W4∗F4+w5∗F5+w6∗F6
③实体提取在图谱中提出所有的三元组,这些成为候选三元组

④关系识别:通过问题和候选三元组的关系的词重合次数、问题和候选三元组的关系的词向量相似程度、问题和候选三元组的关系的字重合次数、问题和候选三元组的关系的字向量相似程度作为特征确定排名前10个三元组。

⑤语义匹配:利用BiMPM模型选择与问题语义最匹配的三元组。

⑥笞案选择:基于启发式的规则选择答案,这要对一跳和两跳进行区分

2.2 混合语义相似度的中文知识图谱问答系统

2.2.1 指称识别

  • 子串匹配:生成问题全部子串,剪枝(长度>=2,指称不能被完全包含)
  • 命名实体识别召回人名指称。
  • 启发式方法识别指称。针对可以被其它指称包含的指称,把该实体的一度关系召回,与问题进行匹配,匹配成功的留下该指称。

2.2.3 实体链接

  • 实体与问题匹配特征

    • 实体名称与问题的匹配度
    • 实体二度子图与问题的匹配度
    • 实体类型与问题的匹配度
    • 采用集合距离/word2vec
  • 流行度特征
    • 实体在图谱出现频率
    • 实体不同的一度关系个数
  • 指称重要度特征
    • 指称是否被引号或书名号包含
    • 指称是否在开头或结尾
    • 指称和疑问词的距离
    • 指称是否包含数字或字母
    • 基于lambdarank的排序算法

2.2.3 模板匹配组件

  • 召回每个实体的二度子图
  • 剪枝一:当实体流行度过ths,慢删除该节点的关联边。
  • 剪枝二:某些路径的方向未在训练集中出现,删除这种路径
  • 三种模板

2.2.4 路径排序组件

  • 39个特征
  • 路径与问题字面匹配特征:jaccard,编辑距离
  • 路径与问题的语义匹配特征:bert答案类型特征
  • 答案类型匹配特征
  • 实体链接的概率
  • 候选路径自身特征(匹配哪类模板)

2.3 DUTIR 中文开放域知识库问答评测报告

2.3.1 模型

2.3.2 辅助词典构建

  • 实体链接词典:由主办方提供
  • 分词词典:实体链接词典中的所有实体提及,知识库中所有实体的主干成分
  • 词频词典:计算实体提及和属性值提及的词频特征,利用搜狗开源中文词频词典构建
  • 倒排索引:识别属性值的模糊匹配

2.3.3 实体提及和属性值提及识别

  • bert将训练集中标注实体还原为实体提及:“大连理工的校歌|是|什么?” -> “大连理工|的|校歌|是什么”
  • 属性值提及识别
    • 书名,称号,数字,正则
    • 时间属性,正则
    • 模糊匹配属性:得到问题中每个字对应的所有属性值,统计每个属性值的次数,选top3加入候选属性值的提及

2.3.4 实体链接及筛选

  • (1)实体提及的长度:该实体对应的实体提及的字数;

    (2)实体提及的词频:该实体对应的实体提及的词频;

    (3)实体提及的位置:该实体对应的实体提及距离句首的距离;

    (4)实体两跳内关系和问题重叠词的数量;

    (5)实体两跳内关系和问题重叠字的数量;

  • logistic回归进行训练打分预测

2.3.5 候选查询路径生成及文本匹配

  • 对每个实体抽取单跳关系和两跳关系作为候选的查询语句
  • bert [cls] q1 [seg] 查询路径还原的人工问题 [seg] 进行打分

2.3.6 桥接及答案选择

  • 有一部分包含两个及以上的主语实体,例如“北京大学除了哪些哲学家”
  • 对匹配的单跳候选路径到知识库进行检索,验证其是否能和其他候选实体组成多实体情况的查询路径 {ent1, rel1, ANSWER, rel2, ent2}
参考文献:

1、A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering

2、混合语义相似度的中文知识图谱问答系统

3、DUTIR 中文开放域知识库问答评测报告

公众号:自然语言处理及深度学习

KBQA的主要流程及部分Top竞赛方案总结相关推荐

  1. kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享

    kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享 今天kaggle Talking Data结束了,开榜前踩着金牌最后一名提心吊胆,最后虽然选的结果是第7好的,但还是前进 ...

  2. 计算机知识二级竞赛流程,计算机知识竞赛方案.doc

    计算机知识竞赛方案 计算机知识竞赛方案 主旨: 二. 参赛方式:: 三. 比赛时时间: 2004年11月月8日 流程: 1.平等自愿的基础上,各各参赛队自由组队参赛. 2.比赛时间地点由组委会讨讨论决 ...

  3. 第十六届全国大学生智能车竞赛广东赛区线上竞赛方案

    简 介: 针对2021年广东省新冠疫情防控要求,针对广东省参加2021年智能车竞赛的高校采用线上比赛的方式.本文给出了线上比赛的实施方案. 关键词: 智能车竞赛,2021年竞赛,广东省线上比赛 §01 ...

  4. 第十五届全国大学生智能车竞赛线上竞赛方案(草案)

    ■ 背景介绍 全国大学生智能汽车竞赛旨在加强大学生实践.创新能力和团队精神的培养,从2005年受教育部高等教育司委托( 公函[2005]201号文.教高司[2005]13号 )教育部高等学校自动化大类 ...

  5. 【数据竞赛】2020 Kaggle 10大竞赛方案汇总

    作者: 尘沙黑夜 2020 Kaggle 10大竞赛方案汇总 1  2020kaggle精选10大赛事汇总 1.1  2019 Data Science Bowl(3493只队伍) 1.2  Tens ...

  6. 【竞赛相关】Kaggle竞赛宝典国内外竞赛方案汇总

    本文汇总了kaggle竞赛宝典将近50个竞赛的Top方案&思路&代码. 2019年度所有国内外竞赛汇总 干货 | 2019 数据竞赛TOP方案合集 数据竞赛2019年度年鉴发布(250 ...

  7. 【数据竞赛】Kaggle竞赛宝典国内外竞赛方案汇总

    本文汇总了kaggle竞赛宝典将近50个竞赛的Top方案&思路&代码.关注"kaggle竞赛宝典"并在后台输入"竞赛宝典",还将获得5个kagg ...

  8. x小学计算机知识竞赛方案,竞赛方案精编小学竞赛方案

    小学可以开展的竞赛活动多种多样,以下是小编精心收集整理的小学竞赛活动,下面小编就和大家分享,来欣赏一下吧. 小学竞赛活动1 一.活动主题 思考,让生活更美好. 二.活动目的 1.通过这次活动,让更多同 ...

  9. 2021 年江西省职业院校技能大赛网络搭建与应用技能竞赛方案(中职组)

    2021 年江西省职业院校技能大赛 网络搭建与应用技能竞赛方案(中职组) 各高职院校(中专部).中等职业学校: 根据江西省教育厅<关于举办2021 年江西省职业院校技能大赛的通知>(赣教职 ...

最新文章

  1. redmine 2.2.x 修改文档附件的存放目录
  2. html5 --- 使用javascript脚本控制媒体播放
  3. 下拉菜单(含有阻止事件冒泡)
  4. linux 64位 php memcached 扩展,LINUX系统安装PHP的memcached扩展
  5. 聊聊 scala 的模式匹配 1
  6. 管理系统中计算机er图怎么画,er图怎么画?数据库E-R图画法教程详解
  7. 使用SurfaceView完成地图无缝拼接
  8. VASP+Phono3py计算声子linewidth
  9. 运动世界校园【夜神模拟器】5.30
  10. 图片,让PPT富有冲击力(师从于珞珈老师)
  11. C2 CompilerThread9 长时间占用CPU解决方案
  12. 写一个PE的壳_Part 5:PE格式修复+lief源码修改
  13. ubuntu 11.10使用fcitx双拼输入法
  14. iOS开发者账号快速添加手机号码
  15. 关于串联匹配电阻其作用
  16. 再见亦是兄弟:别少旭
  17. 化学空间对接概念性验证 | Chemical Space Docking
  18. 日式键盘与美式键盘转换
  19. 【零散知识】字典学习(Dictionary Learning)
  20. 龙书虎书鲸书啃不动?试试豆瓣评分9.5的猴书

热门文章

  1. 浅谈Linux tty体系,理清tty驱动层次与各种概念
  2. 用c语言实现交并差算法,C语言实现集合的交,并,差
  3. Linux进程控制:wait获取子进程退出状态 WIFEXITED和WIFSIGNALED用法
  4. PAT.1139 First Contact
  5. [CF226E]Noble Knight's Path
  6. 防火墙的各个区域互通
  7. python中莱布尼茨计算圆周率_IOS 莱布尼茨公式计算圆周率π
  8. 火影忍者364-动漫加油站中心
  9. 敏捷项目管理流程-Scrum框架最全总结!
  10. nyoj--7 街区最短路径问题(枚举 or math)