1、简介

  • ​论文地址:https://arxiv.org/pdf/2104.08303.pdf

最近,基于 Transformer 的架构被用于越来越多被应用于Table QA。在本文中,作者提出了两种新颖的方法,证明一种方法可以在不使用任何这些专门的预训练技术的情况下在 Table QA 任务上实现卓越的性能。

  • 第一个模型称为 RCI Interaction ,它利用基于 Transformer 的架构,该架构独立地对行和列进行分类以识别相关单元格。该模型在最近的基准测试中查找单元格值时产生了极高的准确性。
  • 作者还提出的第二种模型,称为 RCI Representation,通过实现现有表的嵌入,为在线 QA 系统提供了优于表的显着效率优势。

在最近的基准上实验证明,所提出的方法可以有效地定位表格上的单元格值(在 WikiSQL 查找问题上高达 ∼98% 的 Hit@1 准确率)。此外,RCI Interaction 模型优于最先进的基于 Transformer 在非常大的表语料库(TAPAS 和 TABERT)上进行预训练的方法,在标准 WikiSQL 基准上实现了 ∼3.4% 和 ∼18.86% 的额外精度提高。

2、模型介绍

2.1 模型结构

RCI使用文本匹配来定位答案所在的行或者列,其中一个文本是Question,另一个文本是行或者列。

  • RCI Interaction:序列化文本会使用[CLS]和[SEP]将问题与行或者列文本进行拼接,然后这个序列对被输入至ALBERT 。最终[CLS] 隐藏层的输出用于后面的线性层和softmax,判断行或者列是否包含答案。
  • RCI Representation:
    问题的向量表示和列或者行的向量表示会先被分别算出来。然后,这两个向量按如上图所示的方式进行拼接,并使用带有softmax层的全连接层对拼接后的向量进行分类。

2.2 表格序列化

我们了解了模型的结构后,还有个问题没介绍,那就是行和列是怎么序列化为文本的?作者这里采用的方案是:

  • 行:每个单元格的序列化为:单元格的值与该单元格所对应的列标题的拼接,再将该行的每个单元格序列化拼接,构成行的序列化。
  • 列:将该列列表头与该列的各个单元格值进行拼接,构成列的序列化。

    举个例子,如上所示的表。该表格的第一行被转换为:
Name:Benjamin Contee|Took office:1789|Left office:1791|Party:Anti-Administration|Note/Events:|

该表的第二列被转换为

Took office : 1789 | 1791 | 1792 | 1793 | 1795 |

3. 扩展到聚合问题

虽然 RCI 的重点是解决表格查找问题,但也可以通过添加问题分类器扩展到聚合问题。训练另一个Transformer将“问题-表头”序列对分类为六类之一:lookup, max, min, count, sum 和average。因为表格标题是和,诸如“How many wins do the Cubs have?”之类的问题是相关的。可以由 lookup、count 或者 sum操作得到答案,具体取决于表的结构。

对 RCI 模型的单元级别置信度设置一个阈值,并按预测的问题类型,进行聚合,产生最终答案,即可用于单元格的查找问题,也可以用于聚合成单个数字的问题。

【NAACL 2021】RCI:在基于 Transformer 的表格问答中行和列语义捕获相关推荐

  1. NAACL 2021 | QA-GNN:基于语言模型和知识图谱的问答推理

    ©PaperWeekly 原创 · 作者|刘兴贤 学校|北京邮电大学硕士生 研究方向|自然语言处理 论文标题: QA-GNN: Reasoning with Language Models and K ...

  2. php表格制作4行两列的表格,excel表格怎么插行和列?

    表格插入行的方法:将鼠标移动行数的编号上,右击选择"插入",再通过输入数值来确定需要添加的行数,回车即可.表格插入列的方法:将鼠标移动列数的编号上,右击选择"插入&quo ...

  3. php添加表格行列,excel表格怎么插行和列?

    表格插入行的方法:将鼠标移动行数的编号上,右击选择"插入",再通过输入数值来确定需要添加的行数,回车即可.表格插入列的方法:将鼠标移动列数的编号上,右击选择"插入&quo ...

  4. html表格table冻结行和列

    2019独角兽企业重金招聘Python工程师标准>>> 转自http://liyinlei.iteye.com/blog/2077714 这种固定行列的方式只适用于IE,并且只适用于 ...

  5. 完全基于Transformer的目标检测器,ICLR匿名论文实现视觉、检测统一

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 一种新的集成视觉和检测 Tra ...

  6. 基于 SheetJS js-xlsx 将 Excel 中的表格转为 html 代码

    Nodejs中基于 SheetJS/js-xlsx 转 Excel 前言 在日常开发中,有时为了避免一些费时且无意义的操作时,我们可以借助一些第三方来达到目的. 比如,用原生 html 画 table ...

  7. 2021-IEEE论文-深度神经网络在文档图像表格识别中的应用现状及性能分析

    2021年5月12日收到, 2021年6月4日接受, 出版日期2021年6月9日, 当前版本日期2021年6月24日. 原论文下载地址 摘要 - Abstract   表格识别的第一阶段是检测文档中的 ...

  8. CVPR 2021 | 基于Transformer的端到端视频实例分割方法

    实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...

  9. 这年头,机器翻译都会通过文字脑补画面了 | NAACL 2021

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 现在,想象一个外国人面前摆了句「金石迸碎荡尘埃,磐山纡水尽为开」. 除了痛苦地死抠复杂单词和长难句语法,他还能怎么去理解这句话呢? --想象 ...

最新文章

  1. JS 实现MVC的写法
  2. 专题 19 Makefile的使用
  3. CSS设置列表的符号
  4. C++Primer::头文件设计基本原则 与 预处理器介绍
  5. 硬件:台式机老式键盘知识科普
  6. python 武沛齐_武沛齐 - 主页
  7. SpringBoot 精通系列-SpringBoot如何操作Memcache
  8. 【飞控理论】从零开始学习Kalman Filters之四:卡尔曼滤波C语言代码实现
  9. oracle 01035,oracle常用命令(一)
  10. Android 使用字符串动态获取资源ID
  11. 对软件开发人员的几个阶段思考和总结
  12. 病毒木马防御与分析实战 1
  13. 数据分析中的缺失值处理
  14. 将阿里云盘挂载为本地磁盘使用
  15. vs2015 帮助内容_我在2015年阅读的内容
  16. Discuz!x1.5实现在线文档(doc、ppt、pdf)播放
  17. 记录一下 yum install *** 报错问题:failure: repodata/repomd.xml from tvinternal_dev: [Errno 256] No more mirr
  18. 关于加减运算时能否使用等价无穷小的问题
  19. 不小心中招被安装了小黑记事本
  20. 银汇通无线pos机促进了金融银行卡的发展

热门文章

  1. Qt数据导出csv防止科学记数法
  2. IDEA文件出现java file out of source root解决方法
  3. 修复Ubuntu文件系统
  4. ABAP数据字典和数据表的读取
  5. Druid.io index_realtime实时任务源码分析
  6. 武汉科技大学计算机复试机试,2019年武汉科技大学考研复试及录取工作方案
  7. laravel Helpers文件 通用帮助函数 以及常用帮助方法
  8. python signal模块_Python signal 信号模块和进程
  9. java根据年月获取天数_获取指定年月的天数
  10. NTKO OFFICE文档控件使用