ACL 2021今天正式颁发“最佳论文”奖项,字节跳动AI Lab的研究成果在3350篇投稿中脱颖而出,当选今年度“最佳论文”。这是ACL成立59年以来,华人科学家团队第二次赢得最高奖项,此前由中科院计算所主导的研究项目曾被评为ACL 2019“最佳长论文”。

ACL大会由国际计算语言学协会主办,是自然语言处理与计算语言学领域最高级别的学术会议。自然语言处理(NLP)被誉为“人工智能皇冠上的明珠”,在机器翻译、搜索、信息流、输入法等领域有着广泛的应用。

字节跳动的获奖论文提出一种新的词表学习方案VOLT。词表是所有NLP任务都会使用的基础组件,ACL官方评审认为,“字节跳动的VOLT方案对机器翻译中一个重要问题提出了有效且新颖的解决方案,能显著减少词表的学习和搜索时间,相信其不仅会在研究界产生重要影响,在工业应用方面也有着巨大潜力”。

在这篇主题为《Vocabulary Learningvia Optimal Transport for Machine Translation》的论文中,作者创新地把经济学和数学的知识运用到词表学习方案:

首先,论文使用经济学的“边际收益”概念定义了词表质量的评价指标。

信息熵可以理解为蕴含在每个字中的平均语义含量。信息熵越小,越加利于模型学习。作者使用基于字的熵计算方式来评估该属性,其中v为词表,i为词表中的标记,P为标记在训练集出现的频率:

在基于频率的方法下,词表越小,稀疏标记(token)越少,参数也越少,那么更加有利于模型学习。

信息熵和词表大小不可以兼顾。一般来说,词表越大,所需参数越大,稀疏标记越多,但是信息熵在减小。为此,论文引入了“边际收益”的概念。

“边际收益”衡量了付出单位代价所能获得的利益的数量。作者将信息熵看成是利益,词表大小看成是代价。随着词表的增加,不同大小的词表对应的信息熵收益是不同的。

通过使用“边际收益”的概念,作者定义了衡量词表质量的指标MUV,并且观测到了MUV指标和下游任务的相关性。

然后,以“最优运输”的数学方法尝试解决最优词表的生成问题。

给定词表评价指标MUV之后,学习最优词表的问题可以粗略地等价为寻找具有最大MUV的词表问题,但是词表搜索空间不仅庞大,而且是离散空间,如何去高效地学到相应的词表呢?论文作者巧妙地将词表学习转化成了搜索具有最大MUV分数词表的离散优化问题,“最优运输”就是一个非常合适的解决方案。

大约250年前,法国数学家蒙日在其作品中对“最优运输”类问题进行了严格分析,下面是一个比较直观的例子。假设在战争中,我方一些前线阵地发出了需要增兵的信号,而我们的士兵分散在不同的后方根据地。不同的前线需要的士兵个数不同,后方根据地的士兵个数也不同,前线距离后方根据地的距离也不同。问如何设计转移方案,使得总转移代价最低?这就是最优运输想要回答的问题。

最优运输问题示意图

通过建模成一个“最优运输”的目标函数,VOLT方案取得了出色的效果。以下是VOLT生成的词表在双语翻译的结果,可以看到,新方法学到的词表比经常使用的词表小很多,效果也很有竞争力。

以下是多语翻译的结果,总体来看,VOLT方案在三分之二的数据集上效果也是较好的。

目前,VOLT研究项目已向全球开发者开源。

论文地址:

https://arxiv.org/abs/2012.15671

项目地址:

https://github.com/Jingjing-NLP/VOLT

据了解,这篇最佳论文研究成果也将在字节跳动的火山翻译业务中逐步落地,为飞书、今日头条等产品和火山引擎的企业级客户提供机器翻译支持。2021年以来,火山翻译实现多项重要技术突破,研发出支持150个语种互译的大规模翻译模型mRASP2,并对外开源了当前业界最快的推理和训练引擎LightSeq2.0,以及端到端语音翻译工具包NeurST,获得开源社区的广泛好评。

在此前由ACL举办的机器翻译大赛WMT2021上,火山翻译以独创的“并行翻译”系统参赛,夺得德语到英语方向比赛自动评估第一名。“并行翻译”在国际赛事中首次亮相,就击败了从左向右逐词翻译的传统技术,打破后者在机器翻译领域的绝对统治地位,这项技术的论文也得到ACL 2021大会收录。

华人团队再获ACL最高奖,这次来自字节跳动的NLP基础研究相关推荐

  1. 清华大学参赛计算机集群,清华学生超算团队再获双料冠军

    清华学生超算团队再获双料冠军 本次决赛共有来自世界各地的13支队伍参赛,清华代表队由张晨.钟闰鑫.陈嘉杰.王雨田.翟明书.宋泽宇6名本科生组成,指导教师为计算机系助理研究员韩文弢和副教授翟季冬.计算机 ...

  2. 微软云服务再添新产品,这次来自两位华裔女科学家创办的AI公司

    微软云服务再添新产品,这次来自两位华裔女科学家创办的AI公司 微软的Azure AI又添了一项新产品. 这次是一个用于反欺诈的AI平台,来自DataVisor. 微软全球金融服务副总裁Janet Le ...

  3. 华人一作获最佳论文奖,第四大视觉顶会BMVC大奖出炉!

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 作者 | 陈大鑫 转自:AI科技评论 近日,BMVC 2020最佳论文奖.最佳论文奖亚军.最佳 ...

  4. 又是一道题拉开差距!IOI落幕,中国队三金一银,美国华人选手再获冠军

    乾明 栗子 发自 凹非寺  量子位 报道 | 公众号 QbitAI IOI 2019--国际信息学奥林匹克竞赛,已经落下帷幕. 中国队四名选手,揽获三金一银,总冠军则再度被美国队华人选手摘走. 此次中 ...

  5. GPT-3等三篇论文获NeurIPS 2020 最佳论文奖!华人一作获时间检验奖

    作者 | AI科技评论 刚刚,NeurIPS 2020在官网公布了2020年度最佳论文奖和时间检验奖两项大奖! 今年一共有三篇论文共同获得最佳论文奖,其中第二篇获奖论文就是来自OpenAI团队打造的今 ...

  6. AI风范,院士点赞丨北京人工智能峰会暨AI金雁奖颁奖典礼成功举办,实在智能再获AI金雁奖

    4月14日,由中国电子商会人工智能委员会主办,中国创业者俱乐部.北京集智未来人工智能产业创新基地联合主办的"2023北京人工智能峰会暨AI金雁奖颁奖典礼"举行,汇聚了人工智能各领域 ...

  7. 对抗样本攻防战,清华大学TSAIL团队再获CAAD攻防赛第一

    最近,在全球安全领域的殿堂级盛会 DEF CON 2018 上,GeekPwn 拉斯维加斯站举行了 CAAD CTF 邀请赛,六支由国内外顶级 AI 学者与研究院组成的队伍共同探讨以对抗训练为攻防手段 ...

  8. 基于光量子电路,潘建伟团队再获重要突破!

    光子盒研究院出品 解决独立集(IS)问题或其他组合优化问题在经济学.生物学.芯片设计和计算机视觉等不同领域有广泛的应用. 对于典型的结构,如线图.平面图和树形图,找到它们所有的独立集合是一个多项式复杂 ...

  9. 字节跳动AI科学家王崇学生时代论文获“时间检验研究奖”

    在"久经时间考验"的AI科研成果评选中,华人科学家再次成为赢家. 8月17日举行的国际数据挖掘与知识发现大会KDD2021上,字节跳动AI科学家王崇以学生时代的一篇论文获得&quo ...

最新文章

  1. python快速编程入门教程-半小时带你快速入门Python编程,Python快速入门教程
  2. 软件系统架构师成长之路(一)
  3. Ubuntu平台 Qt 5.x 安装方法
  4. HMM:Hidden Markov Model 代码讲解
  5. Linux-Android 修改屏蔽长按键功能
  6. 锐捷ap怎么设置_新房装修网络布线方案一:AC+AP模式,弱电箱只放光猫和集成AC...
  7. kibana使用详解
  8. IT中一些常见英汉互译
  9. duilib入门简明教程 -- 前言(1) (转)
  10. linux 修改时间 date
  11. java完全自学手册下载,已拿offer
  12. Android 第三方SDK特征的收集
  13. mysql 8 my.ini skip_mysql8.0版本skip-grant-tables出现的新问题
  14. 配置keepalived实现Nginx高可用(单主、双主模式)
  15. 阿里、百度、腾讯招聘 Java 程序员的技术标准,你达到要求了吗?
  16. Gmail打不开登录不了邮箱最新解决方法
  17. 【python--爬虫】彼岸图网高清壁纸爬虫
  18. SpringCloud学习(一) SpringCloud 基础介绍
  19. python 最简单的图灵机器人
  20. 虚假新闻检测论文阅读(七):A temporal ensembling based semi-supervised ConvNet for the detection of fake news

热门文章

  1. Java中List判空问题白话详解
  2. AD20如何用图片做丝印的图案,丝印层导入logo
  3. Python之pyclipper使用
  4. 【Angular 4】管道
  5. java类装载器原理
  6. 浅析Vue.js 中的条件渲染指令
  7. javascript之BOM对象总结
  8. 作为技术工程师,到底需要怎样的专业能力
  9. Centos-yum软件包安装-yum
  10. sql语句循环截取字符串