KBQA的主要流程及部分Top竞赛方案总结
一、KBQA的主要流程
1.1 什么是KBQA
给定自然语言问题,通过对问题进行语义理解和解析,进而利用知识库进行查询、推理得出答案
1.2 KBQA的实现范式
KBQA在技术上可以分成两种方案,分别是一种是语义解析方式,第二种信息检索方式方法。
语义解析是把问题解析出句法成分、逻辑组合、关系、实体等,然后转为知识库上的查询语句,这种方法优点是有较高的精度,但是需要定义大量的规则,人工量成本较高,并且低召回。
而信息检索方式以实体在知识库上召回较多的候选路径,通过语义匹配的方式对候选路径进行重排序,从而选择最优的路径作为答案,所以信息检索方式具有较高泛化性。
1.3 KBQA的常见问题类型
二、信息检索式KBQA
2.1 A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering
2.1.1 介绍
主要是面向开放领域的知识图谱的问答。通过分词、主题实体提及识别、实体连接关系识别、语义匹配、启发式
答案选择的Pipeline方式构建问答系统,该系统最多能解决两跳(two-hop)的问题。
2.1.2 模型
①分词处理:分词词典由ccks提供的所有实体和实体提及构成
②主要实体提及识别:通过实体长度、实体频数实体距离疑问词的距离、实体两跳子图在问题中覆盖的词数、实体两跳子图与问题中词的词向量相似程度、实体两跳子图在问题中覆盖的字数作为特征,最后计算实体得分:
S c o r e t o p i c e n t i t y = w 1 ∗ F 1 + w 2 ∗ F 2 + w 3 ∗ F 3 + W 4 ∗ F 4 + w 5 ∗ F 5 + w 6 ∗ F 6 Scoretopicentity=w1*F1 +w2*F2 +w3*F3 +W4*F4+ w5* F5 + w6*F6 Scoretopicentity=w1∗F1+w2∗F2+w3∗F3+W4∗F4+w5∗F5+w6∗F6
③实体提取在图谱中提出所有的三元组,这些成为候选三元组
④关系识别:通过问题和候选三元组的关系的词重合次数、问题和候选三元组的关系的词向量相似程度、问题和候选三元组的关系的字重合次数、问题和候选三元组的关系的字向量相似程度作为特征确定排名前10个三元组。
⑤语义匹配:利用BiMPM模型选择与问题语义最匹配的三元组。
⑥笞案选择:基于启发式的规则选择答案,这要对一跳和两跳进行区分
2.2 混合语义相似度的中文知识图谱问答系统
2.2.1 指称识别
- 子串匹配:生成问题全部子串,剪枝(长度>=2,指称不能被完全包含)
- 命名实体识别召回人名指称。
- 启发式方法识别指称。针对可以被其它指称包含的指称,把该实体的一度关系召回,与问题进行匹配,匹配成功的留下该指称。
2.2.3 实体链接
- 实体与问题匹配特征
- 实体名称与问题的匹配度
- 实体二度子图与问题的匹配度
- 实体类型与问题的匹配度
- 采用集合距离/word2vec
- 流行度特征
- 实体在图谱出现频率
- 实体不同的一度关系个数
- 指称重要度特征
- 指称是否被引号或书名号包含
- 指称是否在开头或结尾
- 指称和疑问词的距离
- 指称是否包含数字或字母
- …
- 基于lambdarank的排序算法
2.2.3 模板匹配组件
- 召回每个实体的二度子图
- 剪枝一:当实体流行度过ths,慢删除该节点的关联边。
- 剪枝二:某些路径的方向未在训练集中出现,删除这种路径
- 三种模板
2.2.4 路径排序组件
- 39个特征
- 路径与问题字面匹配特征:jaccard,编辑距离
- 路径与问题的语义匹配特征:bert答案类型特征
- 答案类型匹配特征
- 实体链接的概率
- 候选路径自身特征(匹配哪类模板)
2.3 DUTIR 中文开放域知识库问答评测报告
2.3.1 模型
2.3.2 辅助词典构建
- 实体链接词典:由主办方提供
- 分词词典:实体链接词典中的所有实体提及,知识库中所有实体的主干成分
- 词频词典:计算实体提及和属性值提及的词频特征,利用搜狗开源中文词频词典构建
- 倒排索引:识别属性值的模糊匹配
2.3.3 实体提及和属性值提及识别
- bert将训练集中标注实体还原为实体提及:“大连理工的校歌|是|什么?” -> “大连理工|的|校歌|是什么”
- 属性值提及识别
- 书名,称号,数字,正则
- 时间属性,正则
- 模糊匹配属性:得到问题中每个字对应的所有属性值,统计每个属性值的次数,选top3加入候选属性值的提及
2.3.4 实体链接及筛选
(1)实体提及的长度:该实体对应的实体提及的字数;
(2)实体提及的词频:该实体对应的实体提及的词频;
(3)实体提及的位置:该实体对应的实体提及距离句首的距离;
(4)实体两跳内关系和问题重叠词的数量;
(5)实体两跳内关系和问题重叠字的数量;
logistic回归进行训练打分预测
2.3.5 候选查询路径生成及文本匹配
- 对每个实体抽取单跳关系和两跳关系作为候选的查询语句
- bert [cls] q1 [seg] 查询路径还原的人工问题 [seg] 进行打分
2.3.6 桥接及答案选择
- 有一部分包含两个及以上的主语实体,例如“北京大学除了哪些哲学家”
- 对匹配的单跳候选路径到知识库进行检索,验证其是否能和其他候选实体组成多实体情况的查询路径 {ent1, rel1, ANSWER, rel2, ent2}
参考文献:
1、A Joint Model of Entity Linking and Predicate Recognition for Knowledge Base Question Answering
2、混合语义相似度的中文知识图谱问答系统
3、DUTIR 中文开放域知识库问答评测报告
公众号:自然语言处理及深度学习
KBQA的主要流程及部分Top竞赛方案总结相关推荐
- kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享
kaggle Talking Data 广告欺诈检测竞赛 top 1%方案分享 今天kaggle Talking Data结束了,开榜前踩着金牌最后一名提心吊胆,最后虽然选的结果是第7好的,但还是前进 ...
- 计算机知识二级竞赛流程,计算机知识竞赛方案.doc
计算机知识竞赛方案 计算机知识竞赛方案 主旨: 二. 参赛方式:: 三. 比赛时时间: 2004年11月月8日 流程: 1.平等自愿的基础上,各各参赛队自由组队参赛. 2.比赛时间地点由组委会讨讨论决 ...
- 第十六届全国大学生智能车竞赛广东赛区线上竞赛方案
简 介: 针对2021年广东省新冠疫情防控要求,针对广东省参加2021年智能车竞赛的高校采用线上比赛的方式.本文给出了线上比赛的实施方案. 关键词: 智能车竞赛,2021年竞赛,广东省线上比赛 §01 ...
- 第十五届全国大学生智能车竞赛线上竞赛方案(草案)
■ 背景介绍 全国大学生智能汽车竞赛旨在加强大学生实践.创新能力和团队精神的培养,从2005年受教育部高等教育司委托( 公函[2005]201号文.教高司[2005]13号 )教育部高等学校自动化大类 ...
- 【数据竞赛】2020 Kaggle 10大竞赛方案汇总
作者: 尘沙黑夜 2020 Kaggle 10大竞赛方案汇总 1 2020kaggle精选10大赛事汇总 1.1 2019 Data Science Bowl(3493只队伍) 1.2 Tens ...
- 【竞赛相关】Kaggle竞赛宝典国内外竞赛方案汇总
本文汇总了kaggle竞赛宝典将近50个竞赛的Top方案&思路&代码. 2019年度所有国内外竞赛汇总 干货 | 2019 数据竞赛TOP方案合集 数据竞赛2019年度年鉴发布(250 ...
- 【数据竞赛】Kaggle竞赛宝典国内外竞赛方案汇总
本文汇总了kaggle竞赛宝典将近50个竞赛的Top方案&思路&代码.关注"kaggle竞赛宝典"并在后台输入"竞赛宝典",还将获得5个kagg ...
- x小学计算机知识竞赛方案,竞赛方案精编小学竞赛方案
小学可以开展的竞赛活动多种多样,以下是小编精心收集整理的小学竞赛活动,下面小编就和大家分享,来欣赏一下吧. 小学竞赛活动1 一.活动主题 思考,让生活更美好. 二.活动目的 1.通过这次活动,让更多同 ...
- 2021 年江西省职业院校技能大赛网络搭建与应用技能竞赛方案(中职组)
2021 年江西省职业院校技能大赛 网络搭建与应用技能竞赛方案(中职组) 各高职院校(中专部).中等职业学校: 根据江西省教育厅<关于举办2021 年江西省职业院校技能大赛的通知>(赣教职 ...
最新文章
- redmine 2.2.x 修改文档附件的存放目录
- html5 --- 使用javascript脚本控制媒体播放
- 下拉菜单(含有阻止事件冒泡)
- linux 64位 php memcached 扩展,LINUX系统安装PHP的memcached扩展
- 聊聊 scala 的模式匹配 1
- 管理系统中计算机er图怎么画,er图怎么画?数据库E-R图画法教程详解
- 使用SurfaceView完成地图无缝拼接
- VASP+Phono3py计算声子linewidth
- 运动世界校园【夜神模拟器】5.30
- 图片,让PPT富有冲击力(师从于珞珈老师)
- C2 CompilerThread9 长时间占用CPU解决方案
- 写一个PE的壳_Part 5:PE格式修复+lief源码修改
- ubuntu 11.10使用fcitx双拼输入法
- iOS开发者账号快速添加手机号码
- 关于串联匹配电阻其作用
- 再见亦是兄弟:别少旭
- 化学空间对接概念性验证 | Chemical Space Docking
- 日式键盘与美式键盘转换
- 【零散知识】字典学习(Dictionary Learning)
- 龙书虎书鲸书啃不动?试试豆瓣评分9.5的猴书
热门文章
- 浅谈Linux tty体系,理清tty驱动层次与各种概念
- 用c语言实现交并差算法,C语言实现集合的交,并,差
- Linux进程控制:wait获取子进程退出状态 WIFEXITED和WIFSIGNALED用法
- PAT.1139 First Contact
- [CF226E]Noble Knight's Path
- 防火墙的各个区域互通
- python中莱布尼茨计算圆周率_IOS 莱布尼茨公式计算圆周率π
- 火影忍者364-动漫加油站中心
- 敏捷项目管理流程-Scrum框架最全总结!
- nyoj--7 街区最短路径问题(枚举 or math)