5月21日国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单,其中腾讯共有30篇论文入选,入选论文数刷新国内企业记录,领跑国内业界AI研究第一梯队。

国际计算语言学协会(The Association for Computational Linguistics),于1962年成立,在AI领域已经发展成为影响力最大、最具活力的国际学术组织之一,其会员遍布世界各地。而且尤其值得一提的是,随着国内企业在AI领域不断取得突破,百度基础技术首席科学家王海峰曾经担任在2013年-2018年担任ACL的主席,也成为该组织历史上第一位华人主席。

而且腾讯最近在AI领域突破不断,先是王者荣耀的“绝悟”吊打了一众玩家,而本次又在自然语言处理方面取得突破,充分展示了其全栈AI的实力。与“绝悟”的强化学习不同,自然语言处理方面主要的AI模型还是神经网络。从目前腾讯ACL入选论文清单来看,有20篇来自腾讯AI Lab团队,7篇来自微信AI团队,CSIG智能平台部和QQ研究团队也分别有论文入选,研究方向涵盖对话及文本生成、机器翻译及对话、多模信息抽取多个自然语言处理的重点领域。

如果将数据比作这个数字时代的石油,那么腾讯丰富的业务场景与庞大的用户基数,就为其AI团队提供了世界上最大的原油储存基地,这些都为前沿的AI研究成果提供了令整个业界都非常羡慕的绝佳“训练场”,而拥有了这样高的训练水平,腾讯在AI方面能够取得顶级成果也就不足为奇了。下面笔者就带大家来深度解读一下这30篇论文背后丰富的技术内涵。

多模与对话-腾讯的主战场

正如前文所述腾讯本次的论文主要集中文本生成、机器翻译及对话、多模信息等领域,先带大家来解读一下这个几领域的基本情况:

文本生成:这个领域之所以会抱得大名,主要还是因为《权力的游戏》第八季崩盘,在一片“烂尾结局”的评价声中落下帷幕。而随后,便有极客便用 OpenAI 提出的 GPT-2 文本生成模型进行了实践。模型学习的是《冰与火之歌》原著,最终输出了一个大结局,结果得到很多网友的好评,这也让人们不禁惊呼,原来AI还能写小说。

多模态特征提取与翻译:目前尤其是90后,在对话当中经常使用表情图、动态图等方式来表达情感,而将这些非语言信息的语义提取并翻译出来,就是多模态提取的任务了。

对话系统:其实笔者在经历异地恋的时候也曾经做过一款基于Windows Mobile MSN的对话机器人(https://blog.csdn.net/BEYONDMA/article/details/99690305),不过现在微信基于海量对话信息制作的聊天机器人,已经真假难辩了。而对话系统与文本生成最大的不同之处在于,对话系统一般只生成短句,语义群较少,而文本生成系统则恰恰相反。

腾讯在自然语言处理领域有天量数据的加持,比如微信智聆每天处理超过 4 亿条语音,识别准确率为 97%,服务于腾讯内外超过 100 项业务。而且微信AI团队,还提供语音输入转文字、扫一扫的扫码 / 封面和翻译、聊天机器人、摇一摇 - 音乐 / 电视、声纹锁等功能,每项业务的日均使用次数都近十亿的量级,这也造就了腾讯在多模态和对话系统等方面的领先地位。

自回归与自编码-自然语言处理的少林与武当

自然语言处理分为两大门派一个是以OpenAI的GPT为代表自回归(AR)另一个是以谷歌BERT为代表的自编码(AD),在我们正式解读代表论文之前,我们先对这两大流派进行一下介绍。

自回归模型:通俗的讲自回归就是使用自身做回归变量的过程,一般说来记为以下的形式。

也就是说自回归模型假定t时刻的序列(Xt)可以利用前期若干时刻的随机变量的线性组合来描述。 

因式分解:我们来说一下什么是自然语言处理中的因式分解,先复习一下贝叶斯公式,它描述随机事件 A 和 B 的条件概率,其中P(A|B)是在 B 发生的情况下 A 发生的可能性。

   假设我们I、love、you三个单词分别对应向量:X_1、X_2、X_3,那么如果我们要建模”I love you”这句话,其实就要通过贝叶斯公式解出,在自然数据这个序列出现的联合概率分布 P(X_1,X_2,X_3)。

根据词语之间的相互联系,我们除需要统计P(X_1)、P(X_2)、P(X_3)三个概率是不够的。因为X_1还依赖于其它变量存在条件分布 P(X_2|X_1) 和 P(X_3|X_1)。对于X_2和X_3也是一样,我们可以将这三个模型组合起来获得期望联合分布 P(X_1,X_2,X_3)=P(X_1)P(X_2|X_1)P(X_3|X_1,X_2)

一般来说,变量的每个可能的排序都存在自回归因式分解。在有N个变量的问题中,就存在 N! 个因式分解。在上面提到的三个变量的例子中,我们可以列举出六个自回归因式分解,当然在AR模型中都考虑了顺序信息,不会计算所有的因式分解,读到这里可能读者也就明白了,AR模型其实就是通过贝叶斯因式分解的方式来计算输入序列的概率密度。那么其劣势也就比较明显了,由于输入序列有方向性,所以AR模式只能拉收正向或者反向单向信息。而后面我们后面解读到的论文中也会提到,对这方面的改进,也是腾讯的一个创新点。

自编码模型:自编码思想是利用被人为损坏的输入序列重建原始数据。比如BERT,它利用一个特殊符号[MASK]替换特定部分,并训练模型从损坏的版本中恢复原始的信息,如果以图像处理类比,自编码就是先用计算机为图像打上马赛克,然后再通过训练使计算机掌握去掉马赛克的算法。那么自编码的优势就是他完全可以利用双向的信息,来建构模型,不过劣势也非常明显,就是在真实环境下是不存在MASK部分的,这让自编码模型的训练集与预测数据集存在差异,而且自编码模型也无法计算概率密度。

比如在腾讯微信AI团队的《Learning to Recover from Multi-Modality Errors for Non-Autoregressive Neural Machine Translation》论文中,就提出了非自回归神经机器翻译的模型,不但能预测目标句子中的所有词,还能够显著加速预测过程。

正如我们上文介绍的那样,非自回归神经机器翻译模型往往会忽略输出结果中词与词之间的依赖信息,以致存在多峰问题,经常表现出重复词和缺词的情况。

因此腾讯微信AI团队提出一种半自回归模型,该模型将目标句子分成多个段,在进行预测测时,同时生成这些段,而每个段则是逐词生成。通过动态控制每个段的长度和删除重复段,该模型能够从重复词和缺词错误中恢复。实验结果表明,这种方法在取得至少4倍加速效果,为进一步缩小非自回归/半自回归模型与自回归模型的效果差异提供了一种有益的解决方法。

到底是聊天机器人还是男友本尊

大概是今天这篇文章写作时间正值“521”期间,而且是有关聊天机器人的,因此我家领导强烈要求,我在文章结尾,加上如何分辨男友是否正在使用机器人的攻略。

这个问题无独有偶,其实随着多模态和对话系统的发展,互联网上由AI创造的虚拟人物越来越多,比如位在顶级智库工作的女政治家Katie Jones她拥有由一批专家和权威人士组成的关系网。她与一名助理国务卿、一名参议员的高级助理以及经济学家 Paul Winfree 都有联系,而且搜索引擎上也能查到相应的新闻报道,不过这位女士其实并不存在,对此美联社已经作出确认,其面部信息是合成的,其相关新闻都是AI捉刀写的,而令人恐怖的是,这样的人造人在脸书上还有几万个。

不过与上述静态的虚拟人物不同,聊天机器人是需要实时互动的,那么在互动中就必然会露出一定的破绽,而且聊天机器人学习了那么多的聊天套路,肯定会比绝大多数男性的嘴更甜,更会照顾他人的情绪,所以当妹子们感觉到程序员老公的话突然不那么直男,变得顺耳了,可能反而要提高警觉了,下面把一些原则分享给大家。

一、求生题:在求生题中比较经典的如“妈妈和女友都跳河里了,先救谁”等等类似的题目,可是根本就难不倒机器人的,或者说机器人长期接受这种求生题的训练,所以这种题就是机器人最擅长的,所以如果男友对于这种题都特别轻松的给出答案,那么其使用机器人的概率恐怕不低于80%。

二、话外音:一般男性的思维方式比较直接,而女性相对比较含蓄,所以绝大多数的男人都不太听得出女友的话外音,不过正如我们前文所述,聊天机器人对于多模信息的提取是吊打绝大多数男性的,可以轻松得从表情图、动态图中提取到说话者的意思,因此如果男友能接得住你的话外音,那么其使用机器人的概念就不低于90%了。

三、事实题:机器人毕竟是机器人,对于一些事实的问题,还是不在机器训练集中的,比如生日、纪念日、工作地点等信息问题,机器还是无法直接告诉你正确答案的,因此在谈到这些有准确答案的事实问题时,如果男友都是回避掉事实答案,转而维护你的情绪,那么基本上可以肯定他是使用了机器人了。

在AI领域,腾讯已开源Angel、NCNN等数十个优质项目。针对业界现有的中文词向量公开数据的稀缺和不足,腾讯也开源了大规模、高质量的中文词向量数据,也期待腾讯未来开源更多的AI项目,为整个行业的发展做出更大的贡献!

AI顶会ACL发榜,腾讯30篇论文入选相关推荐

  1. 绝悟之后再超神,腾讯30篇论文入选AI顶会ACL

    作者 | 马超 责编 | Carol 出品| AI科技大本营(ID:rgznai100) 封图 | CSDN 付费下载于东方 IC 近日,国际计算语言学协会年会ACL在官网(https://www.a ...

  2. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  3. 医学图像分类_腾讯八篇论文入选顶级医学影像会议MICCAI ,涉及病理癌症图像分类等...

    加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动! 同时提供每月大咖直播分享.真实项目需求对接.干货资讯汇总 ...

  4. 腾讯58篇论文入选CVPR 2019,两年增长超200%

    全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开 ...

  5. 认知智能再突破,阿里 18 篇论文入选 AI 顶会 KDD

    作者 | 马超 责编 | 屠敏 头图 | CSDN 下载自东方 IC 出品 | CSDN(ID:CSDNnews) 近日,国际知识发现与数据挖掘协会KDD在官网(https://www.kdd.org ...

  6. 提士气,阿里18篇论文入选AI顶会KDD

    近日,国际知识发现与数据挖掘协会KDD在官网(https://www.kdd.org/kdd2020)公布其2020年度的论文收录结果,笔者看到阿里共有18篇论文入选,这个入选论文数量刷新国内企业记录 ...

  7. 全球计算机视觉顶会CVPR 2019论文出炉:腾讯优图25篇论文入选

    全球计算机视觉顶级会议 IEEE CVPR 2019(Computer Vision and Pattern Recognition,即IEEE国际计算机视觉与模式识别会议) 即将于6月在美国长滩召开 ...

  8. 重磅!京东21篇论文入选AI顶会AAAI 2021

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI科技评论 近日,国际人工智能领域顶级学术会议AAAI 2021(第35届AAA ...

  9. 重磅!腾讯优图29篇论文入选顶会ECCV 2022

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 转载自:腾讯优图实验室 近日,欧洲计算机视觉国际会议ECCV 20 ...

最新文章

  1. SpringBatch批处理框架入门(一)
  2. 计算机移动设备有限公司,使计算机,移动设备更节能
  3. 小程序,修改数组或对象中的值,通过input动态修改数组对象中的值
  4. 绿茶2003服务器系统 新浪,我在用WIN server2003
  5. raspberry pi_如何启动新的Raspberry Pi
  6. 中科院计算机学院研究生招生名额,中科院研究生招生
  7. 人脸识别的三个评测标准
  8. 甲骨文中国确认裁员 900 余人;网易回应邮箱账号遭公开叫卖;我国网民达 8.29 亿 | 极客头条...
  9. ERP项目实施记录09
  10. sqlyog怎么查找表_VBA代码解决方案第58讲:在VBA中查找指定工作表的实用方法
  11. python自动化运维工程师面试题_运维面试题(含答案)
  12. win10 uwp 渲染原理 DirectComposition 渲染
  13. Java毕设项目航空订票系统火车票订购系统(2021最新)
  14. 数学建模——灵敏度分析
  15. cad2020打印样式放在哪个文件夹_CAD图纸管理与打印——布局与图纸集
  16. html 实时统计字数,记一次前端 input、textarea输入框实时 统计字数(真实字数)...
  17. 自动化测试概述/自动化工具
  18. 完美解决Word、Excel、PPT加密解密的方法
  19. ZJNU——1259:幸运数字(找规律题)
  20. cruise软件模型,混动仿真模型,cruise与simulink联合仿真模型,Cruise混动仿真模型

热门文章

  1. 1052 卖个萌(20 分)
  2. Ubuntu Windows双系统切换最简方法!!!
  3. 第4代计算机的应用,在第四代计算机期间内计算机的应用逐步进入到().docx
  4. 机器学习11-聚类,孤立点判别
  5. Android 程序员必须掌握的三种自动化测试方法
  6. 火影忍者手游服务器维护多久,火影忍者手游12月26月维护更新公告 全新职业等级剧情上线...
  7. 【小社交】谁是下一个陌陌?陌生人社交网络大起底!
  8. JavaScript 获取当前日期和三十天以前日期
  9. 【廖雪峰】写一个验证Email地址的正则表达式
  10. DESKTOP.INI