长篇问答任务（LFQA）的发展面临哪些阻碍？

©PaperWeekly 原创 · 作者｜蔡杰

学校｜北京大学硕士生

研究方向｜QA

论文标题：

Hurdles to Progress in Long-form Question Answering

论文链接：

https://arxiv.org/pdf/2103.06332.pdf

论文来源：

NAACL 2021

Long-form question answering

长文本问答（LFQA）的任务包括检索与给定问题相关的文档，并使用它们生成一个段落长度的答案。

Problem 1:

作者做了一个有趣的实验：将 retriver 检索到的文档在 inference 阶段替换为随机采样的文档。人工 A/B 测试和 ROUGE-L 等自动指标的结果表明，对替换为随机文档的操作对生成的答案质量几乎没有影响。

原因是 train-set 和 validation-set 中存在大量相似问题集合，validation-set 中至少有 81% 的问题被改写后在 train-set 中出现，几乎所有的验证问题都与训练集问题在主题上相似。一个使用 random retriver 的系统在 ELI5 上表现更好。因此这是目前长文本问答存在的一个隐患问题。

Problem 2:

ROUGE-L 评测指标的问题。简单的 baseline，只需要重复 copy 问题，或随机选择一个 train-set 钟的答案，就可以优于普通的 LFQA 系统，如 RAG（Lewis et al., 2020c）。

更不正常的是，作者提出的系统给出的答案甚至能够达到比人类书写的答案更高的 ROUGE-L。因此作者认为 ROUGE-L 不是一个可靠的评估 LFQA 的方法，因为它的输出空间大且相对不受限制（例如，与翻译或总结相比）。

Model

2.1 Retriever

REALM 是一个使用了 Retrieval-Augmented 的预训练模型，它将一个带有 [MASK] 符号的句子作为 question，从语料中抽取出相关的文档，然后将句子和相关的文档拼接成问答的输入格式，预测 [MASK] 位置的词。

作者在本文中将“C-REALM”作为 retriver，返回与输入问题相关的文档。“C-REALM”是一个编码器，在训练的时候使用了对比学习的思想，编码器将问题和文档分别编码，然后学习目标是将问题的向量尽量和相关的文档向量接近，使问题的向量和不相关的文档向量尽量远离，以达到筛选相关文档的目的。

2.2 Generator

基于“C-REALM”召回的文档，作者使用了“Routing Transformer”（RT，目前长文本语言模型 SOTA）)，RT 是一种稀疏注意力模型，利用局部注意和在 mini-batch 中使用 k-means 聚类来更好地建模长期依赖关系。

2.3 Main Experiments

作者目前在 ELI5 数据集的榜单上达到了 SOTA。

Analysis

3.1 Are generations grounded in retrieval?

虽然本文的 retrieval-augmented 系统实现了 SOTA，但作者发现该系统几乎没有使用检索到的文档。为了测量这一点，作者进行了消融实验，在 inference 时，用维基百科上随机取样的段落替换检索到的段落。之后将这个随机 baseline 与原始系统进行比较，包括生成质量以及生成与检索段落之间的 n-gram 重叠。

结果表明随机 baseline 与原始系统的 ROUGE-L 评分相当，而且 n-gram 的重叠数量也相当。

在 human eval 中，两个系统的差别也不超过 7%。所以作者认为应该在以后的 LFQA 指标中加入一项与 random 召回结果的对比，真正说明系统的有效性。

3.2 ROUGE-L Bounds on ELI5 Performance

作者发现只需要从 trainset 中复制一个相关问题的答案就可以获得 28.5 ROUGE-L，但这个数字到底有多“好”？ELI5 上的 ROUGE-L 分数的的上界和下界分别应该是多少？ROUGE-L 对于 LFQA 来说真的是一个有用的度量标准吗？

论文中作者设置对 ELI5 数据集的 ELI5 分数设置了两个下界：1）将问题复制 5 次并 concat，因为长度较长，会加大 ROUGE-L 的分数；2）在训练集中随机检索一个答案。上界则是标准答案：平均来说，每个问题有 12 个标准答案，作者衡量的是最长的标准答案，因为最长的标准答案具有最高的 ROUGE-L 分数。

设置上下界之后，作者发现下界超过了之前的工作，上界的 ROUGE-L 并不高。所以 ROUGE-L 对于 LFQA 来说可能不是一个合适的评价指标。

对此作者提出了几种可能的解决办法：1）一个可能的解决办法是进行句子级别的评估，然后在生成的句子中汇总得分，但对于缺乏多样性和长度短的问题需要进行适当的惩罚；2）包括学习特定任务的度量来测量语义重叠或检查事实正确性和输入的正确性。

但是所有的自动度量都有存在各自的局限性，因此常常使用人工评测来测量生成答案的质量。

3.3 Difficulty of Human Evaluation

但是人工评测也会存在一些问题：

不熟悉问题主题。标注人员通常不熟悉一些问题中讨论的技术主题，这使得很难评估答案的正确性。
答案长度。答案长度增加的同时也增加了标注人员对答案理解的难度，答案的正确性也会降低。

因此，有必要设计更简单的计算方法。有部分研究人员在这方面做出了尝试，他们每次只显示一个生成的句子，并根据愚弄人类的句子数量来评估系统质量。

3.4 Conclusion

本文提出了一个“retrieval augmented”的应用于问答领域的答案生成系统，该系统在 ELI5-LFQA 数据集上实现了 SOTA。然而，作者通过深入的分析揭示了目前 LFQA 普遍存在的几个问题，包括模型，评估指标和数据集本身等等。作者希望通过本文号召社会各界共同努力，解决这些问题，使研究取得真正有意义的进展。

更多阅读

#投稿通道#

让你的论文被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学习心得或技术干货。我们的目的只有一个，让知识真正流动起来。

???? 来稿标准：

• 稿件确系个人原创作品，来稿需注明作者个人信息（姓名+学校/工作单位+学历/职位+研究方向）

• 如果文章并非首发，请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发，均会添加“原创”标志

???? 投稿邮箱：

• 投稿邮箱：hr@paperweekly.site

• 所有文章配图，请单独在附件中发送

• 请留下即时联系方式（微信或手机），以便我们在编辑发布时和作者沟通

????

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 PaperWeekly 的交流群里。

长篇问答任务（LFQA）的发展面临哪些阻碍？相关推荐

核心算法缺位，人工智能发展面临“卡脖子”窘境
http://www.xinhuanet.com/politics/2019-04/30/c_1124435131.htm "徐匡迪之问"引发业界共鸣-- 核心算法缺位,人工智能发 ...
虚拟顺丰快递生成器_电商时代｜从顺丰优选看，生鲜冷链物流发展面临的问题及解决思路...
电子商务的发展,在对现代物流经营模式产生巨大影响的同时也提出了更高要求,如何在短时间内将生鲜产品完好的配送到顾客手中,是行业发展面临的主要问题:其中冷链物流是电商时代生鲜产品运输的重要环节和基本保障, ...
工业大数据发展面临四方面挑战
推动以数据为核心的工业转型升级,不仅已成为产业宏观层面的共识,也给微观层面的企业带来了实实在在的效益,但工业大数据的发展也面临着数据资源不足.数据管理滞后.孤岛普遍存在.应用深度不足等四大挑战,因此, ...
工业大数据的发展面临哪四大挑战
以数据为关键因素推动产业转型升级,不仅成为行业在宏观层面的共识,而且在微观层面上也给企业带来了实实在在的利益.然而,工业大数据的发展也面临着数据资源不足.数据管理滞后.孤岛普遍存在.应用深度不足等四大 ...
微电子封装技术未来发展面临的问题与挑战
毫无疑问,3D封装和SIP系统封装是当前以至于以后很长一段时间内微电子封装技术的发展方向. 目前3D封装技术的发展面临的难题:一是制造过程中实时工艺过程的实时检测问题.因为这一问题如果解决不了,那么就 ...
翟婉明院士：中国高铁发展面临的科技挑战与对策
翟婉明,轨道交通工程专家,中国科学院院士,现任西南交通大学首席教授,中国力学学会第十届副理事长,中国振动工程学会副理事长,四川省科协副主席. 长期从事轨道交通工程动力学研究,开拓了铁路大系统动力学研究 ...
大数据发展面临七个挑战
大数据挑战和机遇并存,大数据在未来几年的发展将从前几年的预期膨胀阶段.炒作阶段转入理性发展阶段.落地应用阶段,大数据在未来几年将逐渐步入理性发展期.未来的大数据发展依然存在诸多挑战,但前景依然非常乐观 ...
大数据发展面临的挑战是什么？
现在大数据是世界都关注的事情,这是因为大数据能够帮助人们做很多的事情,大数据的发展也是很多国家重视的地方,当然,我国也不例外.我国对大数据还是比较重视的,现在我国的大数据产业发展已经有了一定的基础,但 ...
【算力网络】算力网络发展面临的问题与挑战
本人就职于国际知名终端厂商,负责modem芯片研发. 在5G早期负责终端数据业务层.核心网相关的开发工作,目前牵头6G算力网络技术标准研究. 博客内容主要围绕: 5G协议讲解 ...

长篇问答任务（LFQA）的发展面临哪些阻碍？

长篇问答任务（LFQA）的发展面临哪些阻碍？相关推荐

最新文章

热门文章