重磅推荐专栏: 《Transformers自然语言处理系列教程》
手把手带你深入实践Transformers,轻松构建属于自己的NLP智能应用!

https://arxiv.org/pdf/2102.12128.pdf


从文档中抽取问答对任务,经典的做法是基于Pipline的方式。如上图(a)先从文档中抽取候选的答案,然后基于候选的答案生成合适的问题。上图(b)先基于文档生成问题,再基于生成的问题进行机器阅读理解,从文档中抽取答案

作者认为,高质量的问答对直接决定了下游任务的最终效果,从而极大的决定了用户体验。 但是目前产出问答对主要依赖于人工标注或用多个模型分别产生问题和答案。人工标注会涉及到数据隐私而且标注的成本较高而且拓展性较差难以大规模应用。而用多个模型进行流水线式分别去产生问题和答案则效率较低,需要训练至少两个深度学习模型,人工成本较高且较多的人工干预,而且问题生成和答案抽取两个模型之间缺乏相互关联,极容易产生问题和答案不匹配的情况。

基于此, 文本提出了一种一站式(OneStop)问答对挖掘方法, 能用一个模型同时产生问题和答案,大大提高问答对产生的效率和效果并节省了大量的人力成本。 模型部署成本低,整体问答对产生的效率得到了很大的提高。


该模型采用了经典的基于 transformer 的 end2end 结构,包含以下结构:

  1. 双向编码器(bidirectional encoder)
  2. 单向解码器(auto-regressive decoder)

该模型包含问题生成和答案抽取两个任务:

  • Question Generation 任务:
  • Answer Span Prediction 任务:


    最终的损失函数为:

总结思考

虽然文本说大大提高问答对产生的效率,但是在业界应用还是需要很多的人工成本进行数据准备的。

首先,遇到的问题是 document 的格式。该文档可能是PDF、Word、PPT、图片、网易等等。如何很好的解析与清洗,这是一个挺麻烦的事情。

其次,document 可能非常长,如果用于模型训练/预测,则需要进行切分?如何合理的切分也是一个问题。而且,模型训练要求同一个 document 只能对应一对 <q,a>, 而真实的数据中 document 有可能对应多个 QA pair, 为此,我们对 document 进行切分处理时,还要保证每个 document 有且只有一个 <q,a> 对。

【WWW 2021】【阿里小蜜】QAMaker:一站式的文档问答对抽取相关推荐

  1. 阿里小蜜多模态知识图谱的构建及应用

    分享嘉宾:徐国海 阿里巴巴 编辑整理:monk 国家管网 出品平台:DataFunTalk 导读:本文由阿里巴巴达摩院阿里小蜜团队带来,介绍其在知识图谱方面一年多以来的一些工作进展.主要内容包括:①  ...

  2. 深度学习核心技术精讲100篇(四十六)-情感分析算法在阿里小蜜的应用实践

    前言 人机对话一直是自然语言处理领域内的重要研究方向之一,近年来随着人机交互技术的进步,对话系统正逐渐走向实际应用.其中,智能客服系统受到了很多企业尤其是中大型企业的广泛关注.智能客服系统旨在解决传统 ...

  3. 颠覆传统的电商智能助理-阿里小蜜技术揭秘

    http://www.infoq.com/cn/articles/electricity-supplier-intelligent-assistant 一.双11的挑战与服务模式的转型 在全球人工智能 ...

  4. 揭秘阿里小蜜:基于检索模型和生成模型相结合的聊天引擎 | PaperDaily #25

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  5. 全球最强大脑在哪?阿里小蜜算法团队在寻找

    阿里妹导读:阿里小蜜的算法专家们最近在意大利都灵筹备一场国际数据挖掘竞赛.这场竞赛的名字叫CIKM AnalytiCup,是全球著名的公开.公正的大数据开放式竞赛. 去年,这场比赛是与阿里云.深圳气象 ...

  6. 机器如何猜你所想?阿里小蜜预测平台揭秘 1

    阿里妹导读:阿里小蜜是2015年阿里发布的一款智能客服机器人.2017年双11期间,阿里小蜜的服务量达到643万,其中智能解决率达到95%,占整体服务量的95%.经过近几年的发展,能否更进一步解决智能 ...

  7. 未来已来!阿里小蜜AI技术揭秘

    原文链接 1.双11的挑战与服务模式的转型 在全球人工智能领域不断发展的今天,包括Google.Facebook.Microsoft.Amazon.Apple等互联公司相继推出了自己的智能私人助理和机 ...

  8. 论文翻译-阿里小蜜,基于检索模型和生成模型相结合的聊天引擎

    1.摘要 阿里小蜜是一款开放领域的聊天机器人引擎,他结合了IR(检索)模型与带有注意力机制的seq2seq生成模型.从效果上来讲,阿里小蜜的表现明显优于只使用某一种单一模型的情况. 2.介绍 近年来, ...

  9. 2017年出品干货 | 阿里小蜜-电商领域的智能助理技术实践

    作者简介 陈海青,阿里巴巴智能服务事业部资深技术专家,在阿里从事智能人机交互领域相关的工作和研究8年,带领团队构建了阿里巴巴智能交互机器人系统.本文来自陈海青在"携程技术沙龙--人机语义交互 ...

最新文章

  1. 安装meme_通过构建Meme生成器学习React
  2. Java 中JProgressBar,Java JProgressBar
  3. 搜狗浏览器智慧版_奥维互动地图浏览器下载_奥维互动地图浏览器64位版v7.1.2
  4. hdu4609 3idiots 三角形计数 FFT
  5. python中出现ascii编码问题的解决办法
  6. 作者:肖戎(1974-),女,广东省地方税务局高级工程师、副处长。
  7. Tomcat学习总结(13)—— Tomcat常用参数配置说明
  8. 转一篇关于IIS用户权限的帖子
  9. 绑定数据源注意的地方
  10. idea 页面改了 网页没_如何做出高大上的PPT?试试美得令人窒息的网页风格!
  11. 基于RFID定位技术下的机房资产管理系统,RFID资产管理解决方案--新导智能
  12. 机器学习 | 样本不平衡问题处理方法
  13. 无盘新手大本营(转)
  14. matlab 雷电,利用MATLAB实现对雷电监测数据的分析和绘图
  15. c#rs232与三菱通讯_C#对三菱PLC的以太网和串口通讯以及台达PLC的以太网通讯
  16. 什么是Ninja -
  17. 程序里的国际时区和夏令时
  18. 阿里云云盾安全事件提醒:挖矿程序
  19. Anaconda安装踩雷+解决Anaconda Navigator打不开
  20. no-cache,max-age=0,nostore区别及304原理

热门文章

  1. [源码和文档分享]基于java语言的C/S模式网络聊天室软件
  2. 在Python中使用Protobuf
  3. Odoo与浪潮合资研发PS Cloud之如何销售配饰及选购产品(交叉销售)
  4. 机器学习编程sklearn常用语句
  5. 超市端午节促销活动方案
  6. Python自动化办公:openpyxl教程(进阶)
  7. Unity Shader - 后处理:油画效果
  8. C-V2X业务演进白皮书
  9. c语言实验傅里叶变换运行结果,DSP实验报告1new.doc
  10. TQQ2440第一节:启动代码