论文导读

目录
- Abstract
- introduction
- - 1 抛砖引的玉（砖见于图谱构建综述吧）
  - 2 现有方法介绍
  - 3 问题驱动
  - 4 挑战与贡献
- Interaction approach overview
- - 1 构造候选查询图BGP
  - 2 与用户交互验证BGP
- Data-driven question analyzing
- - 1词组映射生成 phrase mapping
  - - 1.1候选词组映射
    - 1.2短语依赖图 phrase dependency graph（PDG）
    - 1.3basic graph pattern （BGP生成基本图模式）
- Oracle-based query formulation （基于Oracle的查询语句）
- - 1交互问题（验证BGP）
  - 2 验证BGP
  - 3 有效率的交互
- Query evaluation
- - 1 Query Prefetching
  - 2 答案生成
- Hybrid question understanding
- Experimental study
- - 1 度量
  - 2错误分析
- Related work
- Conclusions

title : Interactive natural language question answering over  knowledge graphs
anthor : Weiguo Zheng ,  Hong Cheng ,Jeffrey Xu Yu , Lei Zou , Kangfei Zhao

present a data + oracle approach to answer NLQs over knowledge graphs. [数据引导+oracle方法]
let users verify the ambiguities during the query understanding. [用户交互消除歧义部分]
To reduce the interaction cost, we formalize an interaction problem [交互问题形式化]
propose a query prefetching technique by exploiting the latency in the interactions with users.[预取查询技术]
devise a hybrid approach that incorporates NLP-based, data-driven, and interaction techniques to-
gether to complete the question understanding. [问题理解上用了多技术融合]

introduction

1 抛砖引的玉（砖见于图谱构建综述吧）

[搜索引擎缺乏表现力]
[结构化查询语言又太过吃力]
引入图查询：
providing graphical query interfaces to explore knowledge graphs
They allow users to construct query patterns by dragging the elementary components

然鹅——

构造需要的知识带来的精神负担+构造图像耗费时间成本

引入NLP！然鹅

需要弥合非结构化自然语言问题与结构化知识图之间的鸿沟

2 现有方法介绍

基于学习方法

def:问题-答案对作为输入，并训练将自然语言问题转换为逻辑形式的复杂语法
lack:需要大量带注释的训练示例，这对于大型开放域知识图是不切实际的

基于规则

def:现有的NLP工具处理输入的语句，以获得语法树，在该语法树的基础上，使用一些规则提取查询框架。
challenge：在查询图构建过程中消除歧义。ways：联合消歧[29]和数据驱动方法[41]。
lack：计算机很难准确地理解自然语言的问题

3 问题驱动

problem：which actor from California is married to a person born in NY that played in Philadelphia

如图所示：

也就是说，通过消歧技术之后，依然会剩下四个难以被消除的语句（因为都是对的）
the ubiquitous ambiguities of natural language questions and flexible schema of knowledge graphs使得自然语言对这些问题的处理也并不好（以上是消歧技术）

基本原则是理解问题并通过数据（即知识图）与用户之间的对话来生成结构化查询。它有两方面的好处：

由于用户确切知道自己想要什么，因此让用户验证数据量可以实现更好的准确性；
知识图指定问题中短语的映射对象（实体/概念/谓词）之间的结构关系，这有助于查询表述。

4 挑战与贡献

挑战一：自然语言问题结构转化为知识图谱问题结构

<1>由于语言的灵活性，在构造结构化查询的过程可能存在很多歧义
<2>知识图没有固定模式，不能直接被用于图查询

挑战二：交互成本

<1>问题的数量 降低交互成本
<2>正确回答可能不能构成查询结构

挑战三：检索与查询图匹配的子图（从大图）具有很高的计算难度
贡献

<1>首先提出不依赖与NLP的工具构造查询：单词分段（word segmentation）和语义解析（semantic parsing），具体就是对分词进行映射。
<2>通过预取技术得到预存储的候选匹配，节省查询的时间成本。
<3>然后提出基于NLP的方法，数据驱动+交互的混合方法

Interaction approach overview

互动方法综述

1 构造候选查询图BGP

<1>先用分词工具分词———得到词汇
<2>再用NLP工具进行语法分析
<3>构造结构化查询
缺点：NLP结果不一定正确；NLP结果不一定能用来查询知识图谱，或者说很难。

[词组]p
[词组p的映射数]mi

各种mi乘积组合会有很多种结果，根据在知识图谱中的映射可以减少这种映射连接数量
得到phrase dependency graph
还是有很多路径，而且短语未必正确——交互获取反馈

[BGP]查询图的基本模式=选择路径问题 （用户优化动态生成）

2 与用户交互验证BGP

有三个子任务

<1>与用户交互，将交互问题转化为格式化的问题，是NP难题
<2>一次验证整个候选BGP（查询图基本模式）
<3>有效的交互；有些交互虽然正确，但是对构造正确的查询图没有用

Data-driven question analyzing

1词组映射生成 phrase mapping

1.1候选词组映射

步骤：短语检测，短语扩展和映射计算
（一）短语检测
独立短语：与目标知识图无关就能生成的短语

n-gram based approach:先去除is are 之类的得到简化后的自然语言问题NLQ
我们可以根据目标知识图中最大实体/谓词长度来设置阈值δ
列举长度不超过阈值的候选短语集合ph（N’）
把里头的以介词开头的去掉

（二）短语扩展
基于同义词词典

S(p)同义词词典扩展的词组
EP（N'）:包含p和S(p)
ED(S1,S2)：字符串转化所需要的最少操作数
O : 知识图G中的实体，概念和谓词的集合
C(p):短语p的候选映射
w.r.t:with respect to

基于字符串相似度将扩展短语映射到指定的知识图G

return pairs of strings which are similar to each other
采用FastSS算法（快速查询短语的算法）
得到候选短语映射后通过检索映射及其之间的边来直接获取短语依赖图。

1.2短语依赖图 phrase dependency graph（PDG）

由于候选短语映射太多可能，并且包含错误，所以通过用户交互来确定正确的部分

长度不超过阈值的候选短语数量

提出短语依赖图 phrase dependency graph来降低用户交互的成本；
PDG包含PDG1和PDG2：

PDG1：每个顶点代表一个词组p，共有word的话就连在一起
PDG2：由短语的候选映射集成的子图，每个顶点是一个候选映射c（实体、关系、映射等等），边表示在知识图谱上相邻

表达了三种关系：NLP中的关系、知识图谱中的关系和短语与实体等之间的关系。


<1>inner dependency：如果PDG1里的一个词组被用户确认，那么和他共享至少一个单词的词组都可以排除掉
<2>outer dependency：如果某个映射c1在PDG2里被证实是对的，那么如果只有c2与它相邻，我们就不需要检测c2和它对应的p了

1.3basic graph pattern （BGP生成基本图模式）

基本图模式是指与输入问题相对应的图模式，其中每个顶点表示G中的实体或概念，每个边缘表示G中的谓词；用户已经验证了BGP中的所有顶点和边缘。
查询片段：用F表示的查询片段是连接的查询子图或孤立的顶点，其中顶点和边已映射到知识图并由用户验证。

λ（vi,vj）:知识图里面i和j两个实体之间的简单路径集
路径之间的相关性越大，就越可能属于同一个BGP

【路径之间的相关性计算】

{相似度度量方法：Resnik similarity, Lin similarity , and word2vec }本文用最后一个

Ec(F1,F2)表示两个node之间的多种路径的组合，并且求出了路径和知识图谱N之间的一个相似度。
组合很多，所以设定一个相对较大的阈值L作为路径长度
构建BGP的两种方式：

<1>Rel必须在某个θ之上
<2>选择Rel得分前k名的
<3>自适应的选择方法：找到临界的Rel(e){关键边},并且删除得分小于它的e们

关键边的定义：去除它和小于它的部分构不成连接图；没有比它更小的边使得分号之前的内容成立。

{计算关键边的算法}：就是从小到大，一条条把边去掉，看是否还连接着，直到临界边

时间复杂度

Oracle-based query formulation （基于Oracle的查询语句）

1交互问题（验证BGP）

交互图：

PDG中的每个顶点v代表一个候选短语，不同验证顺序可能会导致不同的交互成本

不同顺序生成的交互图的pw

每个交互图产生的可能性计算

根据下面的图，calls应该是被计算的v的个数

[Attention]因为v1,v2,v3是两两连接的，当有任何一个顶点被确认的时候，其他顶点也相应确定（Pr的来源）
总的成本就是一个加权公式，如下所述：

所以就选择成本最小的“环”作为先后准则。

MIDS:最小独立支配集(头头们的集合)
S:Any instance of the MIDS problem (denoted by I ) precisely corresponds to an instance of the special interaction problem
above (denoted by S ).

从成本判断转化为Benefit判断（删除邻接点的操作与上面的例子相同）

时间复杂度：

2 验证BGP

前面的refine工作相当于是在完善候选BGP。完善之后它依然有很多个fragments，所以需要用户来选择fragments之间的路径。
为了节约成本，一次性让用户验证整个BGP（BGP生成在用户的监督下进行，如果一个候选fault，就用算法生成新的[remove某些被判断错误的边]）

3 有效率的交互

针对那些正确却对查询图生成没有帮助的交互行为——locally correct
提出了一种data—driven的方法来优化这种问题

同义词组的任何一个被选中，就可以终止对所有同义词的询问（为了避免发生被选中但是不存在映射的情况）

Query evaluation

1 Query Prefetching

对fragments提前进行图匹配
用户选择的时候只要对这些match进行join就可以了
定义：

我们根据知识图中的连通性对每个片段的匹配进行分类

incident edges: 入射边缘

原图：

extended(左)；类型替代（右）

【match join 算法】
If two query fragments F1 and F2 are merged to form a larger fragment F 3 , it is easy to utilize the matching patterns to compute the matches of F 3 .

选择匹配的fragments之间的点和路径问题

2 答案生成

处理自然语言中的结构问题（独立语句）

Variable phrase ：wh-word ——wh的东东来匹配实体
命令式语句中的变量是BGP中最接近命令式关键字的通配符实体
Aggregation phrase ：聚合短语直接进行Compute
Modifier phrase（修饰语）：检索满足修饰符约束的最终结果
运算符短语。通常，运算符短语会比较两个数字值。因此，有两个步骤来处理包含运算符短语的问题，即标识数字谓词并保持比较对象的一致性。如果问题不包含任何数字谓词，我们将与运算符短语之前的所有与图模式匹配的子图求和，作为比较对象。
如果发生不一致，我们将生成查询操作符短语的实体的查询，然后检索相应的数值，该数值将用作过滤条件
修饰语和运算符短语指定了匹配项上的约束条件，用于过滤掉错误的匹配项

Hybrid question understanding

理解问题带来了巨大的时间消耗。

优化：NLP-based, data-driven, and interaction-based techniques together
try to identify the phrase mappings (i.e., the entities, types, and predicates in the knowledge graph correspond to the phrases) as many as possible by using the existing NLP tools
inner dependency and the outer dependency依然存在，被采用

Experimental study

1 度量

效率：精度P（已回答中正确的比率）、recall R（the ratio of the correctly discovered answers over all the golden standard answers）,调和平均数
有用性：回答问题所需要的时间；交互次数；用户满意度
具体进行的时候涉及到对字段最大长度数值的选择（分词来用的）——建议2-4

2错误分析

可能存在多种表达相同语义的结构
错误的查询表述（相似性未必总是可靠的）

Related work

pass

Conclusions

pass