每天给你送来NLP技术干货!


排版:炼丹笔记

来源:数据派THU

  • 问题生成任务需要我们根据篇章及对应的答案自动生成相应的问题,即“篇章+答案→问题”这样的流程。

  • 训练集由三个字段(篇章、问题、答案)构成,测试集由两个字段(篇章、答案)构成,其中的问题字段需要我们生成。

  • 根据以上分析,我们可以采用Seq2Seq模型来端到端地实现问题生成,而模型的输入为篇章和答案,输出为问题。


文本长度分布

篇章文本长度在100以下的数据较少,长度区间400-500的数据占比较大。

问题文本长度主要集中在5-20这个区间,长度40以上的数据较少。

答案文本长度主要集中在1-100区间,长度200以上的数据较少。

分析总结

  • 训练数据量适中,不是很大数据量,但是也不算少。

  • 文本长度:篇章文本最大,其次是答案文本,最后是问题文本。

  • 如果只看答案文本,那它的长度分布应该是同分布。

  • 若要将篇章、问题和答案拼接进行训练,则需要对其进行文本截断;

    • 问题是要预测的部分,并且长度不是太长,所以可以不进行截断;

    • 答案是从篇章中截取的,可以适当截取短一点;

    • 篇章在硬件资源允许的范围内,可以尽量截取长一点。


核心思路

  • 数据预处理:数据清洗(剔除空白字符、剔除带括号的英文),处理部分不匹配数据(绝大部分答案是从篇章中截取的,不匹配数据指答案在篇章中无法完全匹配到的数据);

  • 文本截断:思路是篇章中答案所在位置的附近与问题的相关性最强,答案的前面部分信息最多,问题文本最长131个字符。具体操作是篇章取答案所在位置的前64个字符和后128个字符;答案取前64个字符;问题取前131个字符。

  • 数据输入:训练时按照“[CLS]篇章[SEP]答案[SEP]问题[SEP]”格式输入。推断时按照“[CLS]篇章[SEP]答案[SEP]”格式输入。如图1所示。

  • 模型架构:使用“NEZHA + UniLM”的方式来构建一个Seq2Seq模型,端到端地实现“篇章 + 答案 → 问题”。如图2所示。

UniLM也是一个多层Transformer网络,跟bert类似,但是UniLM能够同时完成三种预训练目标,如上述表格所示,几乎囊括了上述模型的几种预训练方式,而且新增了sequence-to-sequence训练方式,所以其在NLU和NLG任务上都有很好的表现。UniLM模型基于mask词的语境来完成对mask词的预测,也是完形填空任务。对于不同的训练目标,其语境是不同的。

1.单向训练语言模型,mask词的语境就是其单侧的words,左边或者右边。

2.双向训练语言模型,mask词的语境就是左右两侧的words。

3.Seq-to-Seq语言模型,左边的seq我们称sourcesequence,右边的seq我们称为target sequence,我们要预测的就是target sequence,所以其语境就是所有的source sequence和其左侧已经预测出来的target sequence。

优势:

1.三种不同的训练目标,网络参数共享。

2.正是因为网络参数共享,使得模型避免了过拟合于某单一的语言模型,使得学习出来的模型更加general,更具普适性。

3.因为采用了Seq-to-Seq语言模型,使得其在能够完成NLU任务的同时,也能够完成NLG任务,例如:抽象文摘,问答生成。

  • 缓解Exposure Bias问题的策略:1.通过随机替换Decoder的输入词来构造“有代表性”的负样本;2.使用对抗训练来生成扰动样本。

  • 解码:使用Beam search来对问题进行解码。

  • 解决显存不足的方法:由于显存有限,无法使用较大的batch size进行训练,梯度累积优化器可以使用小的batch size实现大batch size的效果——只要你愿意花n倍的时间,可以达到n倍batch size的效果,而不需要增加显存。

  • 其他Trick:

    • 在单模型(NEZHA-Large-WWM)上使用5折交叉验证。

    • 对词表进行精简(因为总的tokens大概有2万个,这意味着最后预测生成的token时是一个2万分类问题,但事实上有接近一半的tokens都不会分出来,因此这2万分类浪费了一些计算量)。

    • EarlyStopping。

    • 伪标签。

经验总结

  • 文本截断策略使得文本能够在满足预训练模型输入的要求下,较少的损失上下文信息,提分效果显著。使用该文本截断策略之前,一直无法提升至0.6+。

  • nezha-large-wwm预训练模型是我们队试过效果是最好的模型,单个的nezha-large-wwm加上之前的技巧就能达到0.64+。nezha-base、nezha-base-wwm和wobert在该任务上效果相差不多,大约0.63+,roberta-wwm-large-ext、bert-wwm-ext大约0.62+。

  • 使用随机替换和对抗训练能够缓解Exposure Bias,使用这两个trick后效果提升也比较明显,大约有百分之二提升。

  • 不使用交叉验证,不划分验证集的情况下,使用全部训练数据进行训练,大约第12个epoch效果最好。使用交叉验证后效果会优于全量训练的结果,缺点是训练推断时间太长。

  • 伪标签是一个比较常用的trick,在该生成任务上,使用伪标签有细微的提升,大约万分之二左右。

  • 梯度累积使得能够用较大的batch size训练large模型,分数上也有细微的提升。


天池竞赛 | 中医药领域的问题生成冠军方案相关推荐

  1. SemEval-2020自由文本关系抽取冠军方案解读 (附NLP竞赛常用技巧总结)

    本文将回顾平安人寿近期在PaperWeekly × Biendata直播间进行的主题为「SemEval-2020自由文本关系抽取冠军方案解读(附NLP竞赛常用技巧总结)」的技术分享,由平安人寿AI团队 ...

  2. 实录 | DSTC 8“基于Schema的对话状态追踪”竞赛冠军方案解读

    本文将回顾平安人寿近期在 PaperWeekly 直播间进行的主题为「DSTC 8"基于 Schema 的对话状态追踪"竞赛冠军方案解读」的技术分享,由平安人寿 AI 团队高级算法 ...

  3. 第十七届全国大学生智能汽车竞赛:智慧交通组创意赛线上资格赛-冠军方案

    前言 本项目只介绍比赛中运用到的各种技巧,并不涉及模型训练流程.如果想看完整的数据准备.模型训练及转换和预测步骤,请移步至我的另一个项目:[改进版]第17届百度创意组线上赛baseline 如果你觉得 ...

  4. 直播 | SemEval-2020自由文本关系抽取冠军方案解读(附NLP竞赛常用技巧总结)

    「PW Live」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交 ...

  5. 直播 | DSTC 8“基于Schema的对话状态追踪”竞赛冠军方案解读

    「PW Live」是 PaperWeekly 的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义, ...

  6. 天池竞赛-津南数字制造算法挑战赛【赛场二】解决方案分享

    天池竞赛-津南数字制造算法挑战赛[赛场二]解决方案分享 一.前言 竞赛页面 团队名BugFlow,最终排名35/2157 虽然成绩一般,但是作为一支目标检测领域的新手队伍,仅仅有一块1070显卡,从零 ...

  7. 天池竞赛-地表建筑物识别 语义分割

    目录 1 案例介绍 2 数据预处理 2.1 rle编码转换 2.2 数据扩增 2.3 异常数据的处理 3 自定义数据库类 4 模型训练 5 语义分割的准确率评价方法 5.1 像素准确率(PA) 5.2 ...

  8. ICASSP2023 | TEA-PSE 3.0: 深度噪声抑制(DNS)竞赛个性化语音增强冠军方案解读

    实时通信 (RTC) 在我们的日常生活中变得不可或缺,诸如腾讯会议在内的语音RTC应用已经成为我们日常使用的在线交流工具.然而在通话过程中,语音质量受到背景噪声.混响.干扰说话人等多种干扰的显著影响. ...

  9. 【数据竞赛】消费金融场景下的用户购买预测冠军方案分享

    大赛介绍 2000多年前,阿基米德说:"给我一个支点,我可以撬动整个地球".伴随近年来新技术的快速涌现和迅猛发展,大数据或将成为传统金融行业向金融科技转型的"阿基米德支点 ...

最新文章

  1. java最少有多少线程_【并发编程】一个最简单的Java程序有多少线程?
  2. Yarn将用TypeScript重写,Flow惨遭亲爹抛弃!
  3. 电视节目《宅男改变世界》
  4. 安装 pear、phpunit 测试用例步骤方法
  5. MySQL操作之条件,排序,分页,聚合函数,分组,连接,子查询,自连接查询总结...
  6. c++primer 容器算法整理一
  7. MATLAB疲劳检测系统
  8. Premiere常用快捷键
  9. 桌面应用开发技术对比
  10. vue 生命周期图 + activated + deactivated
  11. Java基础:说说Java
  12. Linux系统把图标放到桌面
  13. 基于TF-IDF的简单搜索引擎的实现
  14. 苹果移动设备密码破解
  15. 动漫Q版人物头部怎么画?
  16. 最新网站生成APP源代码+Flutter项目/带控制端
  17. 游戏编程入门(9):开发 Henway(小鸡过马路) 游戏
  18. 关于海康摄像头的摘要认证
  19. 小白都能学会的Python基础 第六讲:综合实战2 - 大数据分词与词云图绘制
  20. 微信小程序 springboot旅游景点门票预订服务系统

热门文章

  1. EAX、ECX、EDX、EBX、ESI、EDI、ESP、EBP寄存器
  2. HLK-B36 WIFI/BLE 二合一透传沙雕按键说明
  3. MP4学习(九)ts-mp4源码阅读(7)mdia box的解析
  4. 2012第27周移动APP推荐
  5. python怎么左对齐_python中如何用ljust()实现字符串左对齐?
  6. mysql 字段值分布很少的字段要不要加索引
  7. TCP的三次握手与四次挥手理解
  8. 【CF869E】The Untended Antiquity(哈希+二维树状数组)
  9. c语言人民邮电出版社课后答案,C语言程序设计教程(人民邮电出版社) 课后习题解答6-10...
  10. vim 打开php 回车没了,设置 - VIM在Fi结束时禁用自动换行