作者 | 马超

责编 | Carol

出品| AI科技大本营(ID:rgznai100)

封图 | CSDN 付费下载于东方 IC

近日,国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单,其中腾讯共有30篇论文入选,入选论文数刷新国内企业记录,领跑国内业界AI研究第一梯队。

国际计算语言学协会(The Association for Computational Linguistics),于1962年成立,在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。而且尤其值得一提的是,随着国内企业在AI领域不断取得突破,百度基础技术首席科学家王海峰曾经担任在2013年-2018年担任ACL的主席,也成为该组织历史上第一位华人主席。

而且腾讯最近在AI领域突破不断,先是王者荣耀的“绝悟”吊打了一众玩家,而本次又在自然语言处理方面取得突破,充分展示了其全栈AI的实力。与“绝悟”的强化学习不同,自然语言处理方面主要的AI模型还是神经网络。从目前腾讯ACL入选论文清单来看,有20篇来自腾讯AI Lab团队,7篇来自微信AI团队,CSIG智能平台部和QQ研究团队也分别有论文入选,研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。

如果将数据比作这个数字时代的石油,那么腾讯丰富的业务场景与庞大的用户基数,就为其AI团队提供了世界上最大的原油储存基地,这些都为前沿的AI研究成果提供了令整个业界都非常羡慕的绝佳“训练场”,而拥有了这样高的训练水平,腾讯在AI方面能够取得顶级成果也就不足为奇了。下面笔者就带大家来深度解读一下这30篇论文背后丰富的技术内涵。

多模与对话-腾讯的主战场

正如前文所述腾讯本次的论文主要集中文本生成、机器翻译及对话、多模信息等领域,先带大家来解读一下这个几领域的基本情况:

文本生成:这个领域之所以会抱得大名,主要还是因为《权力的游戏》第八季崩盘,在一片“烂尾结局”的评价声中落下帷幕。而随后,便有极客便用 OpenAI 提出的 GPT-2 文本生成模型进行了实践。模型学习的是《冰与火之歌》原著,最终输出了一个大结局,结果得到很多网友的好评,这也让人们不禁惊呼,原来AI还能写小说。

多模态特征提取与翻译:目前尤其是90后,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就是多模态提取的任务了。

对话系统:其实笔者在经历异地恋的时候也曾经做过一款基于Windows Mobile MSN的对话机器人(https://blog.csdn.net/BEYONDMA/article/details/99690305),不过现在微信基于海量对话信息制作的聊天机器人,已经真假难辩了。而对话系统与文本生成最大的不同之处在于,对话系统一般只生成短句,语义群较少,而文本生成系统则恰恰相反。

腾讯在自然语言处理领域有天量数据的加持,比如微信智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于腾讯内外超过 100 项业务。而且微信AI团队,还提供语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,每项业务的日均使用次数都近十亿的量级,这也造就了腾讯在多模态和对话系统等方面的领先地位。

自回归与自编码-自然语言处理的少林与武当

自然语言处理分为两大门派一个是以OpenAI的GPT为代表自回归(AR)另一个是以谷歌BERT为代表的自编码(AD),在我们正式解读代表论文之前,我们先对这两大流派进行一下介绍。

自回归模型:通俗的讲自回归就是使用自身做回归变量的过程,一般说来记为以下的形式。

也就是说自回归模型假定t时刻的序列(Xt)可以利用前期若干时刻的随机变量的线性组合来描述。

因式分解:我们来说一下什么是自然语言处理中的因式分解,先复习一下贝叶斯公式,它描述随机事件 A 和 B 的条件概率,其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

假设我们I、love、you三个单词分别对应向量:X_1、X_2、X_3,那么如果我们要建模”I love you”这句话,其实就要通过贝叶斯公式解出,在自然数据这个序列出现的联合概率分布 P(X_1,X_2,X_3)。

根据词语之间的相互联系,我们除需要统计P(X_1)、P(X_2)、P(X_3)三个概率是不够的。因为X_1还依赖于其它变量存在条件分布 P(X_2|X_1) 和 P(X_3|X_1)。对于X_2和X_3也是一样,我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

一般来说,变量的每个可能的排序都存在自回归因式分解。在有N个变量的问题中,就存在 N! 个因式分解。在上面提到的三个变量的例子中,我们可以列举出六个自回归因式分解,当然在AR模型中都考虑了顺序信息,不会计算所有的因式分解,读到这里可能读者也就明白了,AR模型其实就是通过贝叶斯因式分解的方式来计算输入序列的概率密度。那么其劣势也就比较明显了,由于输入序列有方向性,所以AR模式只能拉收正向或者反向单向信息。而后面我们后面解读到的论文中也会提到,对这方面的改进,也是腾讯的一个创新点。

自编码模型:自编码思想是利用被人为损坏的输入序列重建原始数据。比如BERT,它利用一个特殊符号[MASK]替换特定部分,并训练模型从损坏的版本中恢复原始的信息,如果以图像处理类比,自编码就是先用计算机为图像打上马赛克,然后再通过训练使计算机掌握去掉马赛克的算法。那么自编码的优势就是他完全可以利用双向的信息,来建构模型,不过劣势也非常明显,就是在真实环境下是不存在MASK部分的,这让自编码模型的训练集与预测数据集存在差异,而且自编码模型也无法计算概率密度。

比如在腾讯微信AI团队的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》论文中,就提出了非自回归神经机器翻译的模型,不但能预测目标句子中的所有词,还能够显著加速预测过程。

正如我们上文介绍的那样,非自回归神经机器翻译模型往往会忽略输出结果中词与词之间的依赖信息,以致存在多峰问题,经常表现出重复词和缺词的情况。

因此腾讯微信AI团队提出一种半自回归模型,该模型将目标句子分成多个段,在进行预测测时,同时生成这些段,而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段,该模型能够从重复词和缺词错误中恢复。实验结果表明,这种方法在取得至少4倍加速效果,为进一步缩小非自回归/半自回归模型与自回归模型的效果差异提供了一种有益的解决方法。

到底是聊天机器人还是男友本尊

大概是今天这篇文章写作时间正值“521”期间,而且是有关聊天机器人的,因此我家领导强烈要求,我在文章结尾,加上如何分辨男友是否正在使用机器人的攻略。

这个问题无独有偶,其实随着多模态和对话系统的发展,互联网上由AI创造的虚拟人物越来越多,比如一位在顶级智库工作的女政治家Katie Jones,她拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系,而且搜索引擎上也能查到相应的新闻报道,不过这位女士其实并不存在,对此美联社已经作出确认,其面部信息是合成的,其相关新闻都是AI捉刀写的,而令人恐怖的是,这样的人造人在脸书上还有几万个。

不过与上述静态的虚拟人物不同,聊天机器人是需要实时互动的,那么在互动中就必然会露出一定的破绽,而且聊天机器人学习了那么多的聊天套路,肯定会比绝大多数男性的嘴更甜,更会照顾他人的情绪,所以当妹子们感觉到程序员老公的话突然不那么直男,变得顺耳了,可能反而要提高警觉了,下面把一些原则分享给大家。

一、求生题:在求生题中比较经典的如“妈妈和女友都跳河里了,先救谁”等等类似的题目,可是根本就难不倒机器人的,或者说机器人长期接受这种求生题的训练,所以这种题就是机器人最擅长的,所以如果男友对于这种题都特别轻松的给出答案,那么其使用机器人的概率恐怕不低于80%。

二、话外音:一般男性的思维方式比较直接,而女性相对比较含蓄,所以绝大多数的男人都不太听得出女友的话外音,不过正如我们前文所述,聊天机器人对于多模信息的提取是吊打绝大多数男性的,可以轻松得从表情图、动态图中提取到说话者的意思,因此如果男友能接得住你的话外音,那么其使用机器人的概念就不低于90%了。

三、事实题:机器人毕竟是机器人,对于一些事实的问题,还是不在机器训练集中的,比如生日、纪念日、工作地点等信息问题,机器还是无法直接告诉你正确答案的,因此在谈到这些有准确答案的事实问题时,如果男友都是回避掉事实答案,转而维护你的情绪,那么基本上可以肯定他是使用了机器人了。 

在AI领域,腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯也开源了大规模、高质量的中文词向量数据,也期待腾讯未来开源更多的AI项目,为整个行业的发展做出更大的贡献!

本文为作者原创投稿,转载请经授权!

推荐阅读

  • 又一年5.20,用Python助力程序员脱单大攻略(视频版)

  • 我佛了!用KNN实现验证码识别,又 Get 到一招!

  • 潘石屹 Python 考试成绩 99 分,网友:还有一分怕你骄傲

  • 平安科技王健宗:所有 AI 前沿技术,都可以在联邦学习中大展身手!

  • 踢翻这碗狗粮:程序员花 7 个月敲出 eBay,只因女票喜欢糖果盒!

  • 在 520 这天,竟然有人把 Docker讲清楚了? | 原力计划

  • 斗地主吗?能学区块链那种! | 原力计划

  • 你点的每个“在看”,我都认真当成了AI

绝悟之后再超神,腾讯30篇论文入选AI顶会ACL相关推荐

  1. AI顶会ACL发榜,腾讯30篇论文入选

    5月21日国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单,其中腾讯共有30篇论文入选,入选论文数刷新国内企业记录,领跑国内业界AI研 ...

  2. 认知智能再突破,阿里 18 篇论文入选 AI 顶会 KDD

    作者 | 马超 责编 | 屠敏 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 近日,国际知识发现与数据挖掘协会KDD在官网(https://www.kdd.org ...

  3. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  4. 腾讯58篇论文入选CVPR 2019,两年增长超200%

    全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开 ...

  5. 医学图像分类_腾讯八篇论文入选顶级医学影像会议MICCAI ,涉及病理癌症图像分类等...

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  6. 三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库

    好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...

  7. 【论文汇总】2020上半年阿里、腾讯、百度入选AI顶会论文(附地址)

    (给机器学习算法与Python学习加星标,提升AI技能) 本文由数据派整理 2020年已过近半,人工智能学术界的顶级会议也举行了不少.在今年已经举行的顶会中,腾讯.百度.阿里等国内科技巨头被收录论文在 ...

  8. 一文看尽2020上半年阿里、腾讯、百度入选AI顶会论文

    2020年已过近半,人工智能学术界的顶级会议也举行了不少.在今年已经举行的顶会中,腾讯.百度.阿里等国内科技巨头被收录论文在数量和质量上均有所突破,涉及机器学习.自然语言处理.计算机视觉等多个领域.下 ...

  9. 一文看尽2020上半年阿里、腾讯、百度入选AI顶会论文(附地址)

    2020年已过3/4,人工智能学术界的顶级会议也举行了不少.在今年已经举行的顶会中,腾讯.百度.阿里等国内科技巨头被收录论文在数量和质量上均有所突破,涉及机器学习.自然语言处理.计算机视觉等多个领域. ...

最新文章

  1. c winform 上传文件到mysql_Winform下如何上传图片并显示出来。同时保存到数据库...
  2. python自然语言处理书籍推荐-python自然语言处理
  3. flannel源码分析--LookupExtIface
  4. 一天搞定CSS:定位position--17
  5. 百度网盘小程序互转工具:wx2正式开源!
  6. 在重复3次的数组中查找
  7. redis 远程主机强迫关闭了一个现有的连接_如何在 Debian 10 上安装和配置 Redis 服务...
  8. node.weiChat
  9. Flink的容错机制
  10. 如何使用Beyond Compare中心窗格
  11. ipad无法充电怎么办_哈尔滨Ipad死机了维修费用价目表_京宏通讯器材维修培训学校...
  12. Keras:基于Python的深度学习库
  13. 自动驾驶(五十八)---------自动驾驶2019年终盘点
  14. 国产操作系统银河麒麟V10桌面系统文件共享配置
  15. 分布式系统学习共性总结:
  16. Ubuntu系统重装Ubuntu系统
  17. 集群qorum数量master-eligible节点掉线解决方法
  18. Vscode 使用 Code Runner 输出乱码,不只中文
  19. maven优先引用本地库_maven默认本地仓库
  20. ZoomIt v6.12 用于在屏幕上缩放和绘图的演示文稿实用工具。

热门文章

  1. 瀚思首发三款产品 推动大数据安全战略布局
  2. MyBatis开发入门二:一对多连表查询
  3. 学习html5系列之比较典型的div滥用
  4. 异步IO一定更好吗?
  5. [ZT]如何取得客户端的Windows登录用户名?
  6. javascript保留字
  7. mysql查看当前实时连接数
  8. axios解决调用后端接口跨域问题
  9. 【leetcode 简单】 第八十九题 赎金信
  10. 如何实现显示超过10个字符就显示省略号?