序言

赶忙，不能写得很详细，所以把两篇类似的合并发在一篇paper里了，第一篇难度较低，是基于模板的做法，但是其中的概率模型方法值得借鉴，第二篇难度很大，想要彻底搞明白需要时间。第三篇很快的过了一遍，是讲常识知识推理的，感觉有点像知识图谱里的关系预测，考虑到它在baseline上的提升不是太多，没有特别仔细地看，方法可能是前人用过的，不过看起来还是比较新颖的。

之所以突然又开始看这块，那肯定是被wyl给恶心了呗。

注意第一篇的项目代码是Java。

好家伙，雨停了，去跑步。

——吐了，刚做完拉伸就开始下大雨，硬着头皮跑了10圈，17’41"，差强人意，五月份截至17日一共跑了四次长距离，不知道月底前能不能再跑一次长距离了，反正这一周多以来都没有起到能跑长距离的状态，诸多因素。

PS：
我发现那个大佬WXY（keep@WXY啊啊啊）昨天也跑了一次场地15km，特别快，均配4’10"，不过比起他半马配速破四还不是那么牛B，然后脚底磨了个跟我去年一样鸡蛋大小的血泡，哈哈哈。

其实我注意到的是这货最近keep上发POST说自己好像不顺心，怕不是也和npy闹矛盾，因为我看到他npy好久不在他的POST下面跟他互动，而且他也很久不跑长距离了，莫名奇妙跑了一次场地15km，肯定是想散散心（以我自己的经验，我也喜欢烦的时候养两天状态去跑长距离）。虽然跟他只是点头之交，在场上跟跑过几次，也不太熟，但是就是觉得人总是个很奇怪的动物，总是会自寻烦恼，说白了就是吃得太撑，事太少，害。主要是从我自己的角度出发，我觉得好不容易接受了被一个人彻底绝交的现实（实话说这还是我第一次被别人绝交），又把心思放到另一个人身上，自己真的是差劲透顶，行为上不逾矩，但是心思上已经逾矩了。

文章目录

序言
- @[toc]
Learning to Automatically Solve Algebra Word Problems 笔注
Differentiable Learning of Logic Rules for Knowledge Base Reasoning 笔注
TransOMCS: From Linguistic Graphs to Commonsense Knowledge 笔注

Learning to Automatically Solve Algebra Word Problems 笔注

论文标题：Learning to Automatically Solve Algebra Word Problems

中文标题：学习自动求解代数语言问题

下载链接：Citeseer

项目地址：wordsprobs

本文给出了一种自动求解由自然语言表达的代数问题的求解模型，比如下面这个自然语言表达的问题：

An amusement park sells 2 kinds of tickets. Tickets for children cost $1.50. Adult tickets cost $4. On a certain day, 278 people entered the park. On that same day the admission fees collected totaled $792. How many children were admitted on that day? How many adults were admitted?

即可通过下面的一元二次方程组求解：
${x+y=2781.5x+4y=792⟹{x=128y=150(1)\left\{\begin{aligned} &x&+y&=278\\ &1.5x&+4y&=792 \end{aligned}\right. \Longrightarrow \left\{\begin{aligned} x=128\\ y=150 \end{aligned}\right. \tag{1}$
本文的模型是在根据带槽位（slots）的自然语言模板（template）生成的训练数据集上训练而来的，比如上面的例题就是一种模板，里面的四个具体数字（ $1.5, 4, 278, 792$ ）以及对应的两个名词（ $children\text{Tickets for children}$ 中的 $Tickets\rm Tickets$ ， $tickets\text{Adult tickets}$ 中的 $tickets\rm tickets$ ）都是模板槽位上的填充词。

这些推断得到的对应关系可以用于定义跨语句特征（cross-sentence features）以及给模型提供全局性的暗示（global cue），比如在上面的例题中$($1.50,\text{children}) $和$ ($4,\text{adults}) $都围绕着单词$ \rm cost$，这就暗示模型需要将两个常量的乘积进行累和。
本文的监督学习有两种场景，分别是对问题解的监督和求解问题的方程组的监督，显然后者是更强的监督。
本文的模型在Algebra.com中提供的 $514$ 个代数语言问题上进行评估，成功求解了超过 $69%69\%$ 的代数语言问题（第二种较强的监督），如果只看问题解的话可以达到 $70%70\%$ 以上的精确度。
相关研究一览：
- 情境语义解释（Situated Semantic Interpretation）：强化学习，高成本的逻辑形式标注（用于对话系统，问答系统）。
- 信息提取（Information Extraction）：本文的方法是基于模板的信息提取。
- 自动语言问题求解器（Automatic Word Problem Solvers）：基于规则的方法
具体将语言问题（word problems）映射成方程组的方法：其实连方程组都是有模板的
接下来就是非常硬核的模型推导部分了，看起来还挺有意思：
- 定义：
  
  令 $X\mathcal{X}$ 是所有语言问题的集合，一个语言问题（word problems） $x∈Xx\in\mathcal{X}$ 是由 $k$ 个单词的序列 $w_1,w_2,...,w_k)$ 构成，定义方程模板（equation template） $t$ ，是公式 $A = B$ ，其中 $A$ 和 $B$ 都是表达式，表达式 $A$ 是下面四种之一：
  - 一个数字常量（number constant） $f$
  - 一个数字槽位（number slot） $n$
  - 一个未知数槽位（unknown slot） $u$
  - 两个表达式数学关系 $R$ ，如 $n1×u1n_1\times u_1$
  定义一个系统模板（system template） $T$ 是 $l$ 个方程模板的集合 ${t_0,t_2,...,t_l\}$ ， $T\mathcal{T}$ 是所有系统模板的集合（族）。
  
  注意到一个槽位可能在一个系统模板中出现不止一次，这样可以使得同一个变量可以在不同的方程中被重复使用。
  
  记一个槽位 $u$ 的具体实例 $i$ 为 $u^i$ ，简洁地，省略那些只出现一次的槽位的实例 $i$ 上标。
  
  为了捕获语言问题 $x$ 与系统模板 $T$ 之间的对应关系，定义 $p$ 是一系列二元组 $(w, s)$ 的集合，其中 $w$ 是 $x$ 中的一个符号（token）， $s$ 是 $T$ 中的一个槽位实例。
- 给定上述一系列定义，一个方程 $e$ 即可通过一个模板 $t$ 构造得到，其中：
  - 每个数字槽位 $n$ 将使用一个具体的实数替换；
  - 每个未知数槽位将使用一个变量替换；
  - 每个数字常数 $f$ 保持原样；
  称上述将模板转换为方程的过程为模板实例化（template instantiation）
- 类似地，一个方程系统（equation system） $E$ 是 $l$ 个方程的集合 ${e_0,e_1,...,e_l\}$ ，将其中每个方程都实例化即可，最终得到方程组的解 $a$ （若干实数构成的元组）。
- 定义从语言问题派生（derivation）的 $y = (T, p, a)$ ，其中 $T$ 是选定的系统模板， $p$ 是 $T$ 与 $x$ 之间的对应（alignment）， $a$ 是问题的解，令 $Y\mathcal{Y}$ 是所有这些派生 $y$ 构成的集合。
- 派生空间：
  
  我们的目的是将每个语言问题 $x$ 映射到一个方程系统 $E$ 。
  
  方程系统的空间可以定义为所有可能的系统模板 $T$ 的集合 $T\mathcal{T}$ 和原始问题 $x$ 中那些可以用于填充槽位的单词。
  
  实际操作中，我们根据训练数据生成 $T\mathcal{T}$ （ $4.1\text{Section 4.1}$ ），给定系统模板 $T∈TT\in\mathcal{T}$ ，创建 $T$ 与 $x$ 之间的对应（alignment） $p$ ，所有可能的对应对（alignment pairs）被以下各项条件约束：
  - 每个数字槽位 $n∈Tn\in T$ 可以对应文本中的任意数字
  - 一个数字单词只能对应单一的数字槽位 $n$
  - 一个未知数槽位实例 $u∈Tu\in T$ 只能对应一个名词
  具体对应方式如下图所示：
- 概率模型：显然派生 $y∈Yy\in\mathcal{Y}$ 和语言问题 $x∈xx\in\mathcal{x}$ 的数量都非常多，因此需要通过一个对数线性（log-linear）模型来进行判别，这可以理解为是一个特征函数 $ϕ:X×Y→Rd\phi:\mathcal{X}\times\mathcal{Y}\rightarrow\R^d$ ，以及超参数 $θ∈Rd\theta\in\R^d$ ，则在给定 $x$ 的情况下，条件概率可以定义为：
  $p(y∣x;θ)=eθ⋅ϕ(x,y)∑y′∈Yeθ⋅ϕ(x,y′)(2)p(y|x;\theta)=\frac{e^{\theta\cdot\phi(x,y)}}{\sum_{y'\in\mathcal{Y}}e^{\theta\cdot\phi(x,y')}}\tag{2}$
  
  在 $θ\theta$ 已知的情况下就可以通过最大似然去挑选问题解：
  $f(x)=argmaxap(a∣x;θ)(3)f(x)=\text{argmax}_ap(a|x;\theta)\tag{3}$
  此处问题解的概率是在所有模板与对应选择上累和得到的：
  $AN(y)=ap(y∣x;θ)(4)p(a|x;\theta)=\sum_{y\in\mathcal{Y}\\\text{s.t. AN}(y)=a}p(y|x;\theta)\tag{4}$
  其中 $AN(y)\text{AN}(y)$ 从派生 $y$ 中提取得到一个问题解 $a$ ，这样就可以将派生 $y$ 建模成一个隐层变量（latent variable），本文使用一个束搜索（beam search）的方法来近似地通过式 $(4)$ 寻找 $a$
- 模型学习：本质上我们需要推导 $T\mathcal{T}$ 中的系统模板结构以及估计模型参数 $θ\theta$
  - 模板推导：训练样本 ${(x_i,E_i):i=1,2,...,n\}$ ，其中 $x_i$ 是一个语言问题， $E_i$ 是方程集合。生成每个 $E_i$ 的方法是通过将每个变量替换成一个未知数槽位或者将文本中提及的数字替换为一个数字槽位。具体如下图所示：
  - 参数估计：训练样本 ${(xi,Vi):i=1,2,...,n}\{(x_i,\mathcal{V}_i):i=1,2,...,n\}$ ，其中 $x_i$ 是一个语言问题， $Vi:Y→{0,1}\mathcal{V}_i:\mathcal{Y}\rightarrow\{0,1\}$ 是一个验证函数，即表示正确（映射为 $1$ ）与错误（映射为 $0$ ）。
    
    具体估计参数 $θ\theta$ 的方法用的是最大似然：
    $Vi(y)=1log⁡p(y∣xi;θ)(5)O=\sum_i\sum_{y\in\mathcal{Y}\\\text{s.t. }\mathcal{V}_i(y)=1}\log p(y|x_i;\theta)\tag{5}$
    优化器是 $L-BFGS\text{L-BFGS}$ （刚好和运筹优化对上了），具体梯度值为：
    $∂O∂θj=∑iEp(y∣xi,Vi(y)=1;θ)[ϕj(xi,y)]−Ep(y∣xi;θ)[ϕj(xi,y)](6)\frac{\partial O}{\partial \theta_j}=\sum_iE_{p\left(y|x_i,\mathcal{V_i}(y)=1;\theta\right)}\left[\phi_j(x_i,y)\right]-E_{p\left(y|x_i;\theta\right)}\left[\phi_j(x_i,y)\right]\tag{6}$
  - 模型推断：
    
    注意计算式 $(4)$ 中的正规化常数（normalization constant）需要对所有模板和所有可能的实例化方法进行累和，这就需要指数时间，因此我们用束搜索（beam search）来进行近似（这块值得深究，暂时没有太搞明白，大概的意思是会对每次迭代的搜索结果进行剪枝，只取 $top-k\text{top-}k$ 的结果）。
    
    另外计算式 $(6)$ 同样需要束搜索来近似，大约是只计算梯度中一半的偏导数来进行近似。
    - 束搜索：
    1. $Search\text{Beam Search}$ （集束搜索）多用在一些大型系统中，比如机器翻译系统，语音识别系统等，因为这些系统中的数据集可能非常大，而且结果也没有唯一正确的解，系统用最快的方式找到最接近正确的解才是系统的目标。
- 模型实现细节：
  
  ① 一些自然语言可以转化为等式条件，如：John is 3 years older than Bill.
  
  ② 一些模板如 $s_1+s_2=s_3$ 中 $s_1$ 与 $s_2$ 是不同变量，因此需要进行槽位签名（slot signature）
  
  ③ 特征 $ϕ(x,y)\phi(x,y)$ 是通过四种特征计算得到的，具体如下表所示：
实验结果：
- 数据集：来自Algebra.com，好像总量很小，只有 $1024$ 个样本对，从中还筛选掉不少，词汇只涉及 $2352$ 个，总句子数才 $1616$ ，问题就只有 $514$ 个，太少了，没有代表性。
- 监督方法：半监督学习结合监督学习。
- 评估方法： $5$ 折交叉验证。
- 参数求解器： $L-BFGS\text{L-BFGS}$ ，损失函数正则项系数 $0.1$ ，使用二模作为正则项，涉及的运算只有加减乘除。
- 结果就略过了，大约是七成的准确率，不过数据集也太小了。

Differentiable Learning of Logic Rules for Knowledge Base Reasoning 笔注

论文标题：Differentiable Learning of Logic Rules for Knowledge Base Reasoning

中文标题：基于知识推理的逻辑规则可微学习

下载链接：arxiv@1702.08367

项目地址：GitHub@ProPPR

本文是针对基于知识的逻辑推理的问题，学习概率型的一阶逻辑规则（probabilistic first-order logical rules），这个任务是非常困难的，原因是需要在连续空间中学习参数（parameter，如每个规则的置信度）以及在离散空间中学习结构（structure，模型中包含的规则集，确定这个东西是一个离散优化问题）。因此本文提出一种神经逻辑程序（Neural Logic Programming）架构，它可以将一阶逻辑规则的参数与结构学习结合到一个端对端的可微分模型（end-to-end differentiable model）中来解决这一问题。
关系规则（relational）的学习很多时候是为了能够更好的迁移，比如给定一系列公司与公司所在地的知识库，函数HasOfficeInCountry(country, company)，就可以在知识库发生变化时仍能根据逻辑规则推理到结果，而常规的基于嵌入的方法如 $TransE\text{TransE}$ 则很难处理新出现的规则。
- 关系规则学习属于统计关系学习范畴，并且在学习中可能会涉及提出新的逻辑规则，这也称为导出式逻辑程序（inductive logic programming）。
- 通常底层逻辑是概率型逻辑，如马尔可夫逻辑网络（Markov Logic Networks），使用概率型模型的好处是可以更好的建模复杂与带噪声的数据。
总之就是本文的模型是可微的，虽然寻找规则集是一个离散优化问题，这种思路启发于参考文献 $database\text{Tensorlog: A differentiable deductive database}$ ](https://arxiv.org/abs/1605.06523)中的 $TensorLOG\text{TensorLOG}$ 模型。
模型架构：
- 基于知识的推理（Knowledge base reasoning）：
  
  知识基础（Knowledge bases）是指一系列关系数据Relation(head,tail)的收集，其中head和tail是实体，Relation则是两者之间的二进制关系（binary relation），一些例子：
  - HasOfficeInCity(New York, Uber)
  - CityInCountry(USA, New York)
  本文考虑的基于知识的推理由一个查询（这里的查询只涉及关系，而非传统意义上的关系与实体），实体tail（查询的对象），实体head（查询的答案）构成。
  
  目的是得到一系列排好序的候选解head
  
  从知识基础上进行推理的方法是根据一套加权的链式逻辑规则（weighted chain-like logical rules）形式，类似随机逻辑程序（stochastic logic programs）：
  $αquery(Y,X)←Rn(Y,Zn)∧...∧R1(Z1,X)\alpha\quad\text{query}(Y,X)\leftarrow R_n(Y,Z_n)\wedge...\wedge R_1(Z_1,X)$
  其实找到一系列关系把 $Y$ 和 $X$ 给串接起来，其中 $α∈[0,1]\alpha\in[0,1]$ 是这条规则的置信度（confidence）， $R_i$ 都是知识基础中的关系，则在给定实体 $x$ 的条件下，每个 $y$ 的得分定义为那些能够导出 $query(y,x)\text{query}(y,x)$ 的规则的置信度之和，这样就可以进行排序。
- $reasoning\text{TensorLog for KB reasoning}$ ：
  
  给定知识基础，设 $E$ 是所有实体集合， $R$ 是所有二进制关系集合，我们将每个实体映射成整数，每个实体 $i$ 与一个 $one-hot\text{one-hot}$ 编码的向量 $vi∈{0,1}∣E∣v_i\in\{0,1\}^{|E|}$ 对应（第 $i$ 个位置为 $1$ ）。
  
  $TensorLog\text{TensorLog}$ 为每个关系 $R$ 定义一个运算符 $M_R$ ，具体而言， $MR∈{0,1}∣E∣×∣E∣M_R\in\{0,1\}^{|E|\times|E|}$ 是一个矩阵，若 $R (i, j)$ 在知识基础中，则索引 $(i, j)$ 的取值为 $1$ ，否则为 $0$ ，其中 $i$ 是第 $i$ 个实体， $j$ 同理。
  
  然后我们建立 $TensorLog\text{TensorLog}$ 运算操作与逻辑规则推断限制案例（restricted case of logical rule inference）之间的联系：
  - 基于上述的运算操作， $∀X=x\forall X=x$ ，我们可以模拟逻辑规则推断： $R(Y,X)←P(Y,Z)∧Q(Z,X)R(Y,X)\leftarrow P(Y,Z)\wedge Q(Z,X)$ ，通过简单的矩阵乘法：
    $MP⋅MQ⋅vx=sM_P\cdot M_Q\cdot v_x=s$
    换言之，向量 $s$ 中的非零实体集合为 $P(y,z)∈KB,Q(z,x)∈KB}\{y:\exists z\text{ s.t. }P(y,z)\in\text{KB},Q(z,x)\in\text{KB}\}$ ，其中 $KB\text{KB}$ 为知识基础，这是两条规则推理的例子，我们当然可以推广到多条规则的推理。
  - 通过上述的 $TensorLog\text{TensorLog}$ 运算，我们想要学习的东西如下式所示：
    $∑lalΠk∈βlMRk\sum_la_l\Pi_{k\in\beta_l}M_{R_k}$
    其中 $l$ 是所有可能的规则的索引， $αl\alpha_l$ 则是对应规则 $l$ 与 $βl\beta_l$ 的置信度。
    
    其实就是把所有的可能的推理的得分给累和。
  - 在推断过程中，给定实体 $v_x$ ，每个检索到的实体的得分等于向量 $s$ 中的实体，如下式所示：
    $s=∑l(αl(Πk∈βlMRkvx))score(y∣x)=vy⊤ss=\sum_l\left(\alpha_l\left(\Pi_{k\in\beta_l}M_{R_k}v_x\right)\right)\\ \text{score}(y|x)=v_y^\top s$
  - 对于每个查询，最终我们关心的是下面的学习问题：
    $max⁡αl,βl∑x,yscore(y∣x)=max⁡α,βvy⊤(∑l(αl(Πk∈βlMRkvx)))\max_{\alpha_l,\beta_l}\sum_{x,y}\text{score}(y|x)=\max_{\alpha,\beta}v_y^\top\left(\sum_l\left(\alpha_l\left(\Pi_{k\in\beta_l}M_{R_k}v_x\right)\right)\right)$
    其中 $x, y$ 是满足查询的实体对， $αl,βl\alpha_l,\beta_l$ 则是需要学习的。
    
    即最大化给定 $x$ 下，输出 $y$ 的一个得分。
- 学习逻辑规则：
  
  接下来我们阐述可微的规则学习过程，包括参数学习以及模型架构。
  
  正如公式 $∑lalΠk∈βlMRk\sum_la_l\Pi_{k\in\beta_l}M_{R_k}$ 所示，对于每个查询，我们需要学习一套规则来推导出它，以及这些规则的置信度。然而构建一个可微的过程来直接学习参数以及架构 $(αl,βl)(\alpha_l,\beta_l)$ 是很困难的，这是因为每个参数都和一个特定规则相联系，而枚举所有的规则显然是一个离散任务，因此本文使用一种不同的方式来重构公式 $∑lalΠk∈βlMRk\sum_la_l\Pi_{k\in\beta_l}M_{R_k}$ ：
  $∏t=1T∑k∣R∣αtkMRk\prod_{t=1}^T\sum_{k}^{|R|}\alpha_t^kM_{R_k}$
  其中 $T$ 四规则的最大长度（即链式规则的长度）， $∣ R ∣$ 即知识基础中关系的数量，这与之前离散的公式不同之处在于规则中的每个关系都赋予了权重，这就将规则的枚举和置信度的配置相结合。
  
  然而这种转换后的公式依然不够，因为它假设了所有链式规则的长度相同。下面我们将进一步说明：
  - 在循环构造（recurrent formulation）中，我们使用辅助的记忆向量（memory vectors） $u_t$ ，初始化记忆向量为给定的实体 $v_x$ ，模型首先计算一个当前记忆向量的加权平均（基于记忆注意力向量（memory attention） $b_t$ ），然后模型再将 $TensorLog\text{TensorLog}$ 运算符应用在运算注意力向量（operation attention vector） $a_t$ 上，该构造允许模型将 $TensorLog\text{TensorLog}$ 运算符应用在所有当前的部分推导结果（partial inference results）上，而非只是针对最后一步的结果。具体的公式抽象表示如下式所示：
    $u0=vxut=∑k∣R∣αlkMRk(∑τ=0t−1btτuτ)∀1≤t≤TuT+1=∑τ=0TbT+1τuτu_0=v_x\\ u_t=\sum_k^{|R|}\alpha_l^kM_{R_k}\left(\sum_{\tau=0}^{t-1}b_t^{\tau}u_\tau\right)\quad \forall 1\le t\le T\\ u_{T+1}=\sum_{\tau=0}^Tb_{T+1}^\tau u_\tau$
  - 最终模型计算所有记忆向量的加权平均，再使用你注意力机制来选取正确的规则长度，给定上面的循环构造，对于每个查询，可学习的参数就是 ${at∣1≤t≤T}\{a_t|1\le t\le T\}$ 与 ${bt∣1≤t≤T+1}\{b_t|1\le t\le T+1\}$ 。
  - 到目前为止整个用于学习运算注意力向量和记忆注意力向量的神经控制系统已经说明清楚，接下来就是如何使用 $RNN\rm RNN$ 来构建模型。显然 $RNN\rm RNN$ 是最适合上述循环构造的，假设具体如下：
    $ht=update(ht−1,input)at=softmax(Wht+b)bt=softmax([h0,...,ht−1]⊤ht)h_t=\text{update}(h_{t-1},\text{input})\\ a_t=\text{softmax}(Wh_t+b)\\ b_t=\text{softmax}([h_0,...,h_{t-1}]^\top h_t)$
    下图给出了系统的示意图：
    
    注意循环构造的公式表述中，每个 $u_t$ 都将保存在内存中，最终内存中包含每一步的部分推导结果，即 ${u_0,...,u_t,...,u_{T+1}\}$ ，最终的推导结果 $u$ 就是内存中的最后一个向量，即 $u_{T+1}$ ,对应上面提及的目标函数 $max⁡αl,βl∑x,yscore(y∣x)=max⁡α,βvy⊤(∑l(αl(Πk∈βlMRkvx)))\max_{\alpha_l,\beta_l}\sum_{x,y}\text{score}(y|x)=\max_{\alpha,\beta}v_y^\top\left(\sum_l\left(\alpha_l\left(\Pi_{k\in\beta_l}M_{R_k}v_x\right)\right)\right)$ ，这里就是要最大化 $log⁡(vy⊤u)\log(v_y^\top u)$ ，使用 $log⁡\log$ 是经验性地加上非线性运算可以提升优化效果。
  - 接下来最关键地部分来了：
    
    我们要把神经控制系统中得到注意力向量还原成逻辑规则
    
    对于每个查询，我们可以得到规则以及注意力向量 $a_t,b_t)$ 对应的置信度 $(αl,βl)(\alpha_l,\beta_l)$ ，根据上面的若干公式，我们总是可以倒推出逻辑规则链条： $R_1,R_2,...,R_{T+1}$
实验结果及分析：
- 本文结合统计关系学习（statistical relation learning），网格路径发现（grid path finding），知识基础实现（knowledge base completion），基于知识基础的问答：
  - 统计关系学习：数据集为 $System\text{Unified Medical Language System}$ ，来源是 $biomedicine\text{biomedicine}$ ，
  - 网格路径发现：这个好像有点意思，暂时没看明白。
  - 知识基础实现：这部分作者做了对比实验，项目代码也是主要对这块的，使用了 $WN18,FB15K,FB15KSelected\text{WN18,FB15K,FB15KSelected}$ ，对比了若干方法，总之 $TransE\text{TransE}$ 的效果是真的差得离谱，其他衡量指标都是 $MRR\rm MRR$ ，在第一个数据集上可以达到 $0.94$ ，非常高了，最后一个则很差，只有 $0.25$ ，即差不多 $Hit@4\text{Hit@4}$ 的平均水平。
  - 基于知识基础的问答：这个准确率高的惊人，能有 $94.6%94.6\%$

TransOMCS: From Linguistic Graphs to Commonsense Knowledge 笔注

论文标题：TransOMCS: From Linguistic Graphs to Commonsense Knowledge

中文标题：TransOMCS：从语言图到常识知识

下载链接：arxiv@2005.00206v1

项目地址：GitHub@TransOMCS

常识知识指那些人们在交流中往往会省略掉的内容，的传统获取方法需要很多的人力，因此很难大规模的进行标注，本文是提供一种从语言图（Linguistic）种提取常识知识的方法，以及将cheap（可以理解为没有太大用的）的知识转换为expensive（可以理解为很有用）的知识。
这部分前人似乎已经做了不少工作，可以参考一下 $Introduction\text{Introduction}$ 部分提及的几篇参考文献，比如 $5.5\text{ConceptNet 5.5}$ 以及 $CommonSense(OMCS)\text{Open Mind CommonSense(OMCS)}$ 等。
直接来看问题定义：

给定一个种子常识知识集合（seed commonsense knowledge set） $C\mathcal{C}$ （其中包含 $m$ 个元组），以及一个语言图集合 $G\mathcal{G}$ （其中包含 $n$ 个语言图 $G$ ），其中 $m≪nm\ll n$ ，每个常识事实（commonsense fact）以元组形式存储 $(h,r,t)∈C(h,r,t)\in\mathcal{C}$ ，且其中 $r∈Rr\in\mathcal{R}$ 是人工定义的常识关系（commonsense relations，比如 $UsedFor,CapableOf,AtLocation,MotivatedByGoal\text{UsedFor,CapableOf,AtLocation,MotivatedByGoal}$ 等）， $h$ 和 $t$ 都是任意短语，我们的目的是根据 $G\mathcal{G}$ 来推断一个新的常识知识集合 $C+\mathcal{C}^+$ （其中带有 $m^+$ 个常识知识， $m+≫mm^+\gg m$ ）。
方法：
- 整体的框架如下图所示：
  
  一开始对于每个种子常识元组 $(h,r,t)∈C(h,r,t)\in\mathcal{C}$ ，匹配并选择包含 $h$ 和 $t$ 的支持语言图（supporting linguistic graphs），然后对于每个常识关系，根据匹配的常识元组和语言图的pair提取语言模式（linguistic patterns），接着再使用一个模式过滤模块（pattern filter module）来选择最高质量的模式，最后训练一个判别模型（discriminative model）来评估提取的常识知识的质量。
方法细节：
- 知识源：
  
  针对常识知识源：使用英文版的 $5.5\text{Concept 5.5}$ 作为数据源，也考察了原始的 $OMCS\text{OMCS}$ 项目的数据源，一共有 $36954$ 个单词和 $149908$ 个概念（concepts），以及 $207407$ 个元组来构成 $C\mathcal{C}$
  
  针对语言知识源：使用 $ASER\text{ASER}$ 的核心子集，带有 $37.9M37.9\rm M$ 个语言图来构成 $G\mathcal{G}$
  
  这个 $ASER\rm ASER$ 是来自参考文献：
  
  Hongming Zhang, Xin Liu, Haojie Pan, Yangqiu Song, and Cane Wing-Ki Leung. ASER: A large-scale eventuality knowledge graph. In Proceedings of WWW 2020, pages 201–211, 2020.
- 模式提取：
  
  给定一个匹配好的常识元组 $(h,r,t)∈C(h,r,t)\in\mathcal{C}$ 和一个语言图 $G∈GG\in\mathcal{G}$ ，模式提取模块的目标是在语言关系（linguistic relations）上找到一个模式，使得给定 $r$ ，我们可以精确地从 $G$ 中提取所有 $h$ 和 $t$ 中的单词，正式地定义每个模式（pattern） $P$ 如下所示：
  定义 $1$ ：每个模式 $P$ 包含三个成分：
  1. 头结构（head structure） $p_h$
  2. 尾结构（tail structure） $p_t$
  3. 内部结构（internal structure） $p_i$
  其中 $p_h$ 和 $p_t$ 都是 $G$ 中最小的，可以分别覆盖所有 $h$ 和 $t$ 中的单词的语言子图（linguistic sub-graph）。 $p_i$ 则是图 $G$ 中从 $p_h$ 到 $p_t$ 的最短路径。
  - 首先从 $G$ 中提取 $p_h$ 和 $p_t$ 来覆盖 $h$ 和 $t$ 中的所有单词，以头模式（head pattern）为例，对于 $h$ 中的每个单词，我们首先找到它在 $G$ 中的位置，为了避免任意性，如果我们在 $G$ 中找到了不止一个匹配，则丢弃当前的匹配对，并返回无模式（no pattern）。
  - 然后，将 $h$ 中第一个单词的位置作为起始编码（start code），对图 $G$ 进行广度优先搜索（BFS），目的是找到 $G$ 的一个能够只覆盖 $h$ 中单词的子结构。
  - 若BFS最终找到了这样一个子结构，则将它表示为 $p_h$ ，否则则丢弃这个样例，并并返回无模式（no pattern）。
  - 同理我们得到 $p_t$ ，再确定 $p_i$ （最短路径）。
  - 总体上来看这个事情的时间复杂度为 $O(∣C∣⋅∣G∣⋅N2)O(|\mathcal{C}|\cdot|\mathcal{G}|\cdot N^2)$ ，算法示意图如下图所示：
- 模式选择与知识提取：
  - 定义模式 $P$ 关于常识关系 $r$ 的置信度（plausibility）：
    $Pr⁡(P∣r)=F(P∣r)∑P′∈PrF(P′∣r)(1)\Pr(P|r)=\frac{F(P|r)}{\sum_{P'\in\mathcal{P}^rF(P'|r)}}\tag{1}$
    其中 $Pr\mathcal{P}^r$ 则是用于给 $r$ 提取的所有模式， $F (P ∣ r)$ 是用于确定 $P$ 的质量的得分函数，具体如下：
    $F(P∣r)=C(P∣r)⋅L(P)⋅U(P∣r)(2)F(P|r)=C(P|r)\cdot L(P)\cdot U(P|r)\tag{2}$
    其中 $C (P ∣ r)$ 指关于 $r$ ，总共可以观察到的 $P$ 的计数（count）， $L (P)$ 指 $P$ 的长度（因此我们希望得到更复杂的，即更长的模式），以及 $U(P∣r)=C(P∣r)/Cr∑r′∈RC(P∣r′)/∣Cr′∣U(P|r)=\frac{C(P|r)/\sqrt{\mathcal{C}^r}}{\sum_{r'\in\mathcal{R}}C(P|r')/\sqrt{|\mathcal{C}^{r'}|}}$ 是 $P$ 关于 $r$ 的独特性得分（uniqueness score）。
- 常识知识排序模块：
  
  这是为了减少噪声，因此会提出一些候选解，并作排序，这需要对数据集做一些处理。
  
  这个模块的目的是给所有提取得到的知识进行置信度评分，具体而言，我们定义所有已标注的知识集合为 $K\mathcal{K}$ ，对于每个 $k∈Kk\in\mathcal{K}$ ，我们表示它的支撑语言图为 $Gk\mathcal{G}^k$ ，设 $F(k∣Gk)F(k|\mathcal{G}^k)$ 是给定 $Gk\mathcal{G}^k$ 下， $k$ 的置信度得分函数，如下所示：
  $F(k∣Gk)=1∣Gk∣∑g∈Gkf(k∣g)(3)F(k|\mathcal{G}^k)=\frac1{|\mathcal{G}^k|}\sum_{g\in\mathcal{G}^k}f(k|g)\tag{3}$
  其中 $f (k ∣ g)$ 是给定 $g$ ， $k$ 的置信度得分。
模型细节：

模型示意图如下图所示：

里面用到的一些内容以及细节：

Transformer
图注意力机制（Graph Attention）：

这个具体看一下，对于图 $g$ 中的每一个 $w$ ，我们可以将它的表示为 $e^\hat e$ ，如下所示：
$e^=∑e′∈N(e)ae,e′⋅e′(4)\hat e=\sum_{e'\in N(e)}a_{e,e'}\cdot e'\tag{4}$
其中 $N (e)$ 是与 $w$ 直接相连的邻接点， $a_{e,e'}$ 是 $e^{'}$ 关于 $e$ 的注意力权重，具体定义为：
$ae,e′=eNNa([e,e′])∑e~∈N(e)eNNa([e,e~])(5)a_{e,e'}=\frac{e^{\text{NN}_a([e,e'])}}{\sum_{\tilde e\in N(e)}e^{\text{NN}_a([e,\tilde e])}}\tag{5}$
注意这里的 $[.]$ 表示向量拼接， $NNa\text{NN}_a$ 则是用于预测注意力权重的DNN在 $SoftMax\text{SoftMax}$ 层的前一层输出结果。
置信度预测（Plausibility Prediction）：

上面是将 $e$ 和 $e^\hat e$ 拼接起来（对于所有单词），然后创建头嵌入（head embedding） $oheado_{\rm head}$ 以及尾嵌入（tail embedding） $otailo_{\rm tail}$ ，方法是简单的在头尾中出现的单词上的 $[e,e^][e,\hat e]$ 上做均值池化。

此外还有两个重要的特征，图频数（graph frequency） $ofreo_{\rm fre}$ （即这张图出现了多少次）以及图类型（graph type，即这个图是node还是edge） $etypee_{\rm type}$ ，最终 $f (k ∣ g)$ 如下所示：
$f(k∣g)=NNp([ohead,otail,ofre,otype])(6)f(k|g)={\rm NN}_p([o_{\rm head},o_{\rm tail},o_{\rm fre},o_{\rm type}])\tag{6}$
其中 $NNp{\rm NN}_p$ 是一个用于预测置信度的全连接层，损失函数为交叉熵，优化器为随机梯度下降。
模型评估结果：模型的评估结果对比 $BERT\rm BERT$ （精确度 $70.91%70.91\%$ ）提升到 $73.23%73.23\%$

【论文速读】自动解题+认知推理+常识发现相关推荐

【论文速读】城市自动驾驶应用的概率语义地图
点云PCL免费知识星球,点云论文速读. 标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications 作者:D ...
【论文速读】RandLA-Net大规模点云的高效语义分割
点云PCL免费知识星球,点云论文速读. 文章:RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds 作者:Qi ...
论文速读 -- BEVerse
论文速读 – BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Dr ...
【论文速读】基于投影方法的激光雷达点云处理比较
点云PCL免费知识星球,点云论文速读. 文章:LiDAR point-cloud processing based on projection methods: a comparison 作者:Gui ...
【论文速读】基于图像的伪激光雷达三维目标检测
点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...
【点云论文速读】6D位姿估计
点云PCL免费知识星球,点云论文速读. 标题:MoreFusion: Multi-object Reasoning for 6D Pose Estimation from Volumetric Fus ...
【点云论文速读】基于优化的视觉惯导里程计与GPS的紧耦合的融合方案
转载自:https://mp.weixin.qq.com/s/Y-h7eto1Zc_Mkzlh653vpg [点云论文速读]基于优化的视觉惯导里程计与GPS的紧耦合的融合方案原创 dianyunPC ...
【论文速读】点云深度学习论文综述
点云PCL免费知识星球,点云论文速读. 文章:Deep Learning for 3D Point Clouds: A Survey 作者:Yulan Guo , Hanyun Wang , Qing ...
【点云论文速读】最佳点云分割分析
点云PCL免费知识星球,点云论文速读. 标题:Learning to Optimally Segment Point Clouds 作者:Peiyun Hu, David Held 星球ID:part ...

【论文速读】自动解题+认知推理+常识发现

序言

文章目录

Learning to Automatically Solve Algebra Word Problems 笔注

Differentiable Learning of Logic Rules for Knowledge Base Reasoning 笔注

TransOMCS: From Linguistic Graphs to Commonsense Knowledge 笔注

【论文速读】自动解题+认知推理+常识发现相关推荐

最新文章

热门文章