一文看完澜舟科技被EMNLP'22录用的三篇论文

每天给你送来NLP技术干货！

来自：澜舟科技

作为NLP领域的新创企业，澜舟科技非常注重对核心技术的研究和实习生的培养。自 2021 年成立以来，澜舟已培养了来自国内外知名高校的 120 名余位实习生。最近，澜舟科技实习生提交的有关预训练模型、文本生成和信息检索等三篇论文被 EMNLP 2022录用。EMNLP（Conference on Empirical Methods in Natural Language Processing）由国际计算语言学会 ACL 旗下 SIGDAT 组织，每年举办一次，是 NLP 领域最具影响力的国际会议之一。

以下是论文详情：

论文介绍

✦

题目：Instance Regularization for Discriminative Language Model Pre-training（基于样例正则化的判别式语言模型预训练）

作者：Zhuosheng Zhang, Hai Zhao, Ming Zhou

摘要：以 BERT 为代表的预训练模型采用降噪自编码，在自然语言处理任务上取得了显著的成功。该类模型的训练过程通常包含两个步骤：编码和去噪。编码阶段对原始输入样本进行破坏，例如将句子中一部分词语通过特殊符号进行遮盖，从而构造训练数据。在去噪阶段，输入所构造的训练数据，模型将其恢复成原始数据。现有的方法通常分别针对编码或去噪过程进行改进，缺乏对训练数据质量的评估。由于训练样本均被同等对待，不同难度的训练样本影响模型的收敛速度不同。为了更好地评估数据质量，本文提出将训练样本的还原难度作为正则化信号融合到预训练过程中。该训练目标包含两个角度：一是计算样本在编码阶段被破坏的程度，即度量被破坏的句子和原始句子间的分布差异；二是计算去噪阶段样本的还原难度，即度量预测的句子和原始句子间的分布差异。我们将该正则化方法应用于 BERT 和 ELECTRA 模型，在自然语言理解和阅读理解等任务上均显著优于基准模型。分析表明，该方法有助于提升模型收敛速度、提升性能和增强模型鲁棒性。

实习生简介：

张倬胜，上海交通大学计算机科学与工程系博士研究生，导师是赵海教授。研究领域为自然语言处理，研究兴趣为面向认知推理的预训练模型。入选“2021全球 AI 华人新星百强”榜单，获评上海交通大学学术之星。担任 CCL 2022 学生研讨会共同主席，中文信息学会青工委学生委员。在澜舟科技实习期间，主要从事孟子轻量化预训练模型的研究。

论文介绍

✦

题目：Long Text Generation with Topic-aware Discrete Latent Variable Model（话题感知的离散隐变量模型用于长文本生成）

作者：Erguang Yang, Mingtong Liu, Deyi Xiong, Yujie Zhang, Jinan Xu, Yufeng Chen

摘要：目前预训练语言模型在自动文摘、对话生成等许多任务上取得 SOTA 的结果，但面向开放式长生成任务，生成连贯的长篇文本仍然是一个挑战。先前基于离散隐变量的工作关注建模文本内部的篇章关系，虽然可以生成结构良好的文本，但仍然存在内容发散问题。直观上，一篇长文本可以分割为多个语义片段并且每个片段围绕一个主话题展开，使用话题序列来指导生成过程可以帮助生成与话题相关且连贯的文本。基于以上的讨论，在这项工作中我们探索离散隐变量是否可以学习有关话题的信息，提出片段级的词袋重构目标，使离散隐变量能够建模每个片段的话题信息。进一步，我们构建了话题感知离散隐变量指导的文本生成模型，利用话题感知的隐变量序列指导生成文本，使生成的内容与输入更相关。自动和人工评测实验表明，所提方法在相关性和连贯性方法均优于已有方法。此外，隐变量的可视化分析结果显示，词袋重构目标确实能够使离散隐变量捕获到有关话题的信息。

模型整体框架

隐变量分析

实习生简介：

杨二光，北京交通大学自然语言处理实验室四年级博士生，导师为张玉洁教授，研究方向为可控文本生成、复述生成、故事生成。在澜舟科技实习期间主要从事长文本生成、营销文案生成等课题。

论文介绍

✦

题目：Recovering Gold from Black Sand: Multilingual Dense Passage Retrieval with Hard and False Negative Samples （沙里淘金：使用难负样本和伪负样本提高多语言稠密段落检索能力）

作者：Tianhao Shen, Mingtong Liu, Ming Zhou, Deyi Xiong

摘要：最近，基于预训练语言模型和双塔架构的稠密段落检索 (Dense Passage Retrieval) 模型得到了学术界的广泛关注。与此同时，多语言预训练模型表现出了强大的语言泛化能力，这使得我们能够将稠密段落检索推广到多语言场景。然而，在现有工作中，多语言稠密段落检索中的负样本仍未得到充分利用，最有价值的难负样本（与正样本相似的负样本）和伪负样本（被视为负样本的未标注正样本）仍被淹没在随机负样本的海洋中。在本文中，我们提出了一种新的方法——mHFN，以更好地利用难负样本和伪负样本提高多语言稠密段落检索能力。其主要由三个模块构成：(1) 一个多语言难负样本增强模块，用于在不同语言间共享难负样本特征，并基于现有难负样本进一步合成高质量的增强难负样本；(2) 一个多语言负样本缓存队列，以增加训练时各语言可用候选负样本的数量；(3) 一个轻量的自适应伪负样本过滤器，用于识别所有候选负样本中未被人工标注的伪负样本。对伪负样本进行过滤能够减小训练数据中的噪声，从而实现更有效的训练。我们在一个高质量的多语言段落检索数据集——Mr. TyDi 上评估了 mHFN 的性能，其基于维基百科构建，涵盖了11种不同类型的语言。实验结果表明，mHFN 超过了目前已有的稀疏、稠密和混合基线模型，在所有语言上均取得了目前最优的检索性能。

实习生简介：

沈田浩，天津大学自然语言处理实验室 (TJUNLP) 二年级博士生，导师为熊德意教授，现研究方向为对话与问答系统。2021 年于北京邮电大学智能科学与技术专业取得硕士学位，导师王小捷教授。曾获得第九届对话技术挑战赛 (DSTC9) “端到端多领域任务型对话”赛道第一名。在澜舟科技实习期间，主要从事自然语言问答、搜索和对话研究。

结束语

祝贺这三位实习生同学取得的成就，也感谢他们的导师对他们在澜舟实习从事相关研究工作的大力支持。

澜舟科技自 2021 年以来，已先后招收了 120 余位来自国内外著名大学的实习生。他们在澜舟科技实习期间，分别参加了孟子预训练模型（文本和多模态）、机器翻译（多语言翻译、篇章级翻译）、生成式 AI（文本生成、文一图转换）、金融信息抽取（零样本学习、事件抽取、ESG抽取）、信息检索、知识图谱、推理、语音识别和分析等方面的研究和开发工作。在 mentor 的带领和指导下，每位同学均取得了丰硕的成果和收获。

欢迎同学们来澜舟实习，大家一起探索 NLP 的最新研究。

一文看完澜舟科技被EMNLP'22录用的三篇论文相关推荐

来自澜舟科技创始人周明的一封信
今天是 6 月 10 日,对澜舟人是一个很特别的日子:澜舟科技满一周岁了!澜舟的历史揭开了新篇章!在过去的一年里,全体澜舟人在各界朋友的支持下,日复一日兢兢业业地工作,使得澜舟取得了飞跃的发展.我想借 ...

北京招聘 | 澜舟科技招聘NLP工程师、NLP研究员、产品项目经理
合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 澜舟科技澜舟科技是一家认知智能公司,针对商业场景数字化转型.以自然语言处 ...

FTP协议中的登录上传下载新建目录删除目录的wireshark包分析（一文看完TCP包分析，附源文件，ppt，操作视频）
目录一原理二.FTP登录三.FTP下载四.FTP上传五.FTP新建目录六.FTP删除目录一原理前言:TCP/IP四层模型和OSI模型对照,以及FTP在模型中的位置. • ...

澜舟科技创始人兼CEO周明受邀出席“基础科学与人工智能论坛”
由首届国际基础科学大会主席丘成桐先生发起的"基础科学与人工智能论坛"于7月23日下午在国家科技传播中心举办.澜舟科技创始人兼CEO.中国计算机学会CCF 副理事长.创新工场首席科学 ...

飞步科技三篇论文入选CVPR 2022
关注公众号,发现CV技术之美本文转载自飞步无人驾驶在即将举行的计算机视觉国际顶级会议CVPR 2022中,飞步科技被录用了三篇高水平论文,涉及车道线检测.3D目标检测.少样本分类等与无人驾驶密切相 ...

看google三篇论文的感触
刚开始看老师推荐的三篇Google的技术论文(分别是GFS,Mapreduce,Bigtable)时,基本上是云里雾里,摸不着头尾.于是我结合网上查询的资料,对于这些论文讲述的一些知识有了一定的了解. ...

一文看完2018苹果秋季新品发布会，你想知道的问题这里都有答案！
苹果2018秋季新品发布会结束了.此处发布会看完下来内心毫无波澜,并没有多少惊艳到人的地方,倒是处处看到了国产手机发布会的影子.话不多说,下文给大家汇总一下本次苹果新品发布会的重点. 命名有国产手机的 ...

一文看完HTTP3的演化历程
HTTP协议为Web的发展提供了驱动力,它始于1991年的HTTP/0.9,在1999年演变为HTTP/1.1,并由IETF(互联网工程任务组)负责进行标准化.HTTP/1.1存在了很长一段时间,但W ...

AAAI 2020 提前看 | 三篇论文解读问答系统最新研究进展
机器之心原创作者:仵冀颖编辑:H4O 2020 年 2 月 7 日至 12 日,AAAI 2020 将于美国纽约举办.今年 AAAI 共接受了 8800 篇提交论文,其中评审了 7737 篇,接收 ...

最新文章

tf.squeeze示例代码

他开发了基因界的百科全书，贡献却少有人知

第九届蓝桥杯大赛软件赛省赛 C/C++ 大学B组

如何阅读《深入理解计算机系统》？（文末送书）

不能装载文档控件。请在检查浏览器的选项中检查浏览器的安全设置_Excel基础—文件菜单之设置信息...

strlen() Bug

Give root password for maintenance (Or press Control-D to continue)

nginx+php fpm日志报错信息

读李云同学的博文：无能的很可能正是我们自己

HADOOP学习_grep和wordcount的例子

从APP测试角度看新增长应用类型如何取得优势

河南省第十届ACM程序设计大赛参赛心得

Google Admob 广告快速集成（并集成Firebase统计）

004_simulink建立子系统

使用Route报错：A ＜Route＞ is only ever to be used as the child of ＜Routes＞ element, never rendered directl

IBL(二) IBL中Specular 和Diffuse的计算（ReflectProbe 和 LightProbe）

2022中科院分区表即将公布，多方官宣：或将弃用影响因子

Ant Design Vue 的 table 隐藏特定列

golang 字符串拼接性能比较

微信小程序之input 边框

热门文章

Memory Barriers

dmpython部署操作轨迹

Android中绘图板的实现

elementUI InfiniteScroll 无限滚动一次加载到底不受禁用限制问题解决

【AI每日播报】首次超越LSTM : Facebook 门卷积网络新模型能否取代递归模型

jitter单位_时间抖动(jitter)的概念及其分析方法

排查https请求出现received fatal alert: internal_error的问题

计算机音乐念诗之王,念诗之王怎么做出来的念诗之王完整顺口溜

基于WEB 的实时事件通知

ffmpeg 命令图片和视频相互转换