AI一周热闻：12306数据泄露，嫌疑人被捕；BERT提升文档检索性能至1.5-2倍

12306用户数据遭泄露，嫌疑人被捕
华盛顿和Facebook新研究：平面图像秒变3D
Alexa 助力亚马逊公司实现语音购物三倍增长
Facebook推出新物体说明标记系统Nocaps，超越XOCO
谷歌利用BERT语言模型将文档检索性能提升50%至100%
Facebook进一步推动无监督机器翻译，目前可翻译语言已达93种
关于中美人工智能竞赛
计算增长趋势揭示更多关于高级AI的发展动态

12306用户数据遭泄露，嫌疑人被捕

$\"image\"$

据北京市公安局网络安全保卫总队微博消息，北京警方破获一起侵犯公民个人信息案，网上贩卖470余万条疑似12306铁路订票网站用户数据的犯罪嫌疑人陈某，已被刑拘。

12月28日，网传有人利用互联网贩卖470余万条疑似12306铁路订票网站的用户数据，引发社会广泛关注。中国铁路总公司官方微博回应“网传信息不实，12306网站未发生用户信息泄露”。

此后经查，网络用户“deepscorpions”被抓获归案，为北京市西城区某科技有限公司员工陈某(男，25岁，河北省邢台市人)，其供述60余万条用户注册信息是其前期在网上非法购买所得，并非通过对12306官方网站技术入侵获取。其余410余万条铁路乘客信息，系其利用上述用户注册信息，通过第三方网络订票平台非法获取。

华盛顿和Facebook新研究：平面图像秒变3D

$\"image\"$

12月，华盛顿大学和Facebook的研究人员发表了一项最新成果：平面人物秒变3D模式，图片中的人物可以从平面中“跑出来”。如果再结合VR技术，照片中的人物可以动起来。

研究人员称这项技术为“唤醒”照片，并基于此开发了名为Photo Wake-Up的软件。在此项研究中，该团队最关键的贡献就是构建了可动画化3D模型的方法，该模型可匹配单张平面照片中的身体轮廓并处理被遮挡住的身体部位。

Alexa助力亚马逊公司实现语音购物三倍增长

…这一增长亦与电子零售商日益巩固的数据储备关系密切…

零售巨头亚马逊公司在2018年圣诞节期间通过Alexa完成的购物订单总量，相较2017年同期增长达三倍。

重要意义：使用Alexa的使用量越大，亚马逊所获得的数据也就越多，这又将进一步提升这款个人助手的效率——这一点，我们已经在上周的“小冰”聊天机器人讨论中有所提及。这些数据最终可能被用于训练Alexa以进行更长且自由动更高的对话。

了解更多：

Amazon Customers Made This Holiday Season Record-Breaking with More Items Ordered Worldwide Than Ever Before (Amazon.com Press Release)

Facebook推出新物体说明标记系统Nocaps，超越XOCO

$\"image\"$

佐治亚理工学院及Facebook人工智能研究所的研究人员共同开发出Nocaps，这是“第一款严格且规模巨大的新物体说明标记系统，其中包含600多个新的对象类。”新对象说明测试机器当中对象识别系统所包含的对象数据已经大大超越COCO等原始图像—说明数据集的涵盖范围。

Nocaps工作原理：这项基准测试包括一个拥有4500张图片的验证集与一个包含10万6千张图片的测试集，这些图片来自提供来自“Open Images”对象检测数据集，且每张图片都带有10条参考说明。对于训练集，开发人员可以使用来自COCO图像—说明对（其中包括涵盖80个对象类的11万8千张图片）以及Open Images V4训练集（其中包含170万张有边框图像，各边框所框定的对象类别总计600种）。在Open Images当中的600种对象类型中，“有500种是COCO说明中很少甚至从来没有提及过的。”

极高的实现难度： 研究人员写道，“据我们所知，Nocaps是唯一一种最优成绩由人类所创造的先进图像标基准测试。”此外，Nocaps所包含的每张图片明显拥有更多对象类型，多样性程度也更高。“在全部COCO图像当中，只有不到十分之一包含6个以上对象类，而Nocaps符合这一指标的图片比例则高达22%。”

数据管道： 现代AI研究的核心之一，在于将更多精力投入到数据集或计算基础设施的处理当中。Nocaps研究人员在创建数据集时面临的挑战是，他们必须有效引导众包工作人员了解如何对图像内容做出说明性标记。如果不加协助，这些参与者几乎一定不会使用数据集中500个与对象并不显著相关的关键字。

基准结果： 研究人员利用两种基准算法（经过增强的Up-Down与Neural Baby Talk）对Nocaps进行了测试。他们还将数据集拆分成代表多种难度的子集——域内包含那些归属于COCO数据集的对象（从而确保算法可进行图像-说明对训练）；近域范围包含一些COCO所不具备的对象；域外范围则包含与COCO内对象说明标记毫无关联的内容。他们利用多种不同的评估技术（CIDEr与SPICE）对系统效能进行评估，并根据人工说明评估这些系统以建立基准水平。结果表明，Nocaps比COCO更具挑战性，且目前的系统仍难以在域外挑战当中发现评分较高的泛化特征。

测试结果：Constrained Bean Search加持下的Up-Down算法与人类基准（通过CIDEr评估得出）在处理Nocaps验证集时：域内得分为72.3（人类为83.3）；近域得分63.2（人类为85.5）；域外得分41.4（人类为91.4）。

重要意义：人工智能的进步往往源自更强大的基准测试能力，这些基准能够凸显出现有算法的不足之处，并为研究人员开发新系统的工作带来激励与指导。从Nocaps基准研究中得出的结论是，我们还没能真正开发出能够将开放图像内对象表达与COCO说明标记结合起来的系统。研究人员们写道，“我们坚信，这项基准的持续增强将加快未来图像说明标记工作的发展速度。”

了解更多：
nocaps: novel object captioning at scale (Arxiv)

More information about nocaps can be found on its official website (nocaps)

谷歌利用BERT语言模型将文档检索性能提升50%至100%

$\"image\"$

谷歌公司已经展示了如何利用语言建模方面的最新创新显著提升AI系统在搜索查询中的表现，同时为用户生成相关度最高的答案。这项研究对网络经济具有重要意义，同时也表明在未来，基于规则的手写软件有可能被机器自身计算得出的系统所取代。

工作原理： 谷歌的研究结果显示，搜索问题完全可以被转换为适用于分层强化学习系统所能处理的形式——其中由某一RL代理控制多个其它RL代理，这些代理与提供答案及奖励的环境进行交互（例如搜索引擎用户的反馈），从而达成“重新调整问题，最终实现预期返回奖励（即正确答案）最大化”这一目标。此研究的关键部分，在于利用元代理及众多子代理将问题分解为分层问题——其中子代理是指利用数据集内与查询及输出重构相关的子集训练得出的序列到序列模型。子代理得出的候选查询将被发送至元代理，由元代理进行查询聚合并通过RL训练以选择其中评分最高的结果。

BERT的惊人力量：研究人员们利用question ansering基准对这套系统进行了测试，并发现分层BERT系统“在未经任何修改而直接使用”的场景下即能得到最高分数。（奇怪的是，当他们利用自己的多代理方案对BERT进行强化时，却发现无法进一步提升其效能水平。这意味着此类作法是否真正有益于效能提升恐怕还需要深入研究。）

BERT实现50%到100%效能提升：研究人员还针对三项文档检索基准测试进行了系统实验，分别为TREC-CAR、Jeopardy和MSA。研究人员针对BM25、PRF以及Relevance Model（RM3）以及其它两种基于强化学习的方案进行了基准测试，所有具体方法皆给出了喜人的效能表现。其中，当谷歌将其技术或RM3基准与“BERT”语言模式配对时，得到的效能提升最为显著。研究人员们还尝试利用BERT取代其中的元聚合器（BERT是谷歌近期开发的一种功能强大的语言建模技术），他们以句子的形式提交查询内容，并将文档文本作为后续句子；接下来，他们利用经过训练的BERT（Large）模型对正确的查询响应文档进行可能性排序。由此带来的效能表现令人惊喜。研究人员们写道，“通过利用BERT替代聚合器，我们将全部三套数据集（RL-10-Sub+BERT聚合器）的效能提升了50%到100%。这是一项显著的改进。而如果不使用我们重新构建的代理，则效能将下降3%到10%（RM3+BERT聚合器）。”

重要意义：这项研究表明了某一领域（例如BERT在语言理解领域的进步）如何直接服务于另一领域（文档搜索），这进一步凸显出AI系统的泛用性特征。此外，我们还借此了解到大型技术企业如何利用更多全学习方法这些以超大规模模型（例如BERT）作为训练基础的方案越来越多地取代手写系统，从而在更多用途中发挥作用。

了解更多： Learning to Coordinate Multiple Reinforcement Learning Agents for Diverse Query Reformulation (Arxiv)

Facebook进一步推动无监督机器翻译，目前可翻译语言已达93种

$\"image\"$

…Facebook的零样本语言适应性研究表明，涵盖量越大、效果越出色…

近年来，人工智能研究界已经证明神经网络在语言间翻译领域的表现非常出色（特别是谷歌于2016年的神经机器翻译研究工作，https://ai.google/research/pubs/pub45610）。然而，这种翻译主要适用于存在大量可用数据，且其中包含并行语料库（例如将同一法律文本由一种语言翻译成另一种语言）的情况。如今，Facebook在新研究中构建起一套独立系统，能够为93种语言生成联协多语言句子——其中包括“资源缺乏的语言以及少数民族语言。”这意味着通过一次性对多种语言变体进行整体训练，这套系统能够立足单一特征嵌入空间实现类似句子的相近表达——即使各语言之间差别巨大（甚至完全来自不同语系）。

工作原理：“我们在系统当中使用单一编码器与解码器，全部语言都共享同样的编码器与解码器。为此，我们构建起一份包含5万个联合字节对编码（简称BPE）的词汇表，由源自对所有训练语料库的整体学习。这样的编码器不会对输入语言采取明确的信号要求，这意味着解码器将采用语言ID嵌入机制指定需要生成的语言，并在每个时间步进阶段连接输入与句子嵌入。”在训练期间，他们还采取更为具体的优化方式——将所有语言翻译成两种目标语言，即英语与西班牙语。

具备普适性的共享语言理解能力，一直被视为人工智能面临的一大关键挑战Facebook在这一领域做出的可行性证明，有望带来更多后续研究成果。

训练细节： 研究人员们使用16个英伟达V100 GPU进行模型训练，一次性批量处理12万8千个信令，而平均训练时间约为5天。

训练数据： “我们将Europarl、United Nations、Open-Subtitles208、Global Voices、Tanzil以及Tatoeba等语料库中收集到93种输入语言的训练语料库，这些语料库均可在OPUS网站上公开获取。”研究人员所使用的总训练数据包含2.23亿个并行语句。

评估-XNLI：XNLI是一种评估标准，用于评估系统是否能够正确判断不同语言中的两个句子（例如一个前提性句子，一个假设性句子）之间的共通、矛盾或者中立关系。“我们提出的方法为除西班牙语之外的所有语言建立起零样本跨语言转换（即训练出英语数据分类器，并将其应用于所有其它语言）这一新型技术。我们的转换结果显示，其在所有语言当中都表现出强大的同质特性。”

评估-Tatoeba： 研究人员还根据Tatoeba语料库（即「社区支持的英语语句集加300多种语言翻译版本」）构建起新的122种语言相似性搜索测试集。研究人员们指出，“其相似性错误率低于5%，这表明其下游效能很强。”此外，评估工作还对其中37种语言进行了评分，其中某些语言的可用训练数据非常有限。他们写道，“我们相信，这些低资源语言的翻译结果证明了联协训练方法的重大优势。”

重要意义：人工智能研究面临的最大挑战在于研究工作需要大量数据与大量计算机。语言翻译人工智能技术往往需要巨大的文件数据集，而像爱沙尼亚这样一个小国显然拿不出规模可观的数据，也不像其它主要语言那样能够得到全球众多研究者的关注。令人鼓舞的是，Facebook的这套系统已经能够以3.2%这一极低的误差实现从英语到爱沙尼亚语的翻译（从爱沙尼亚语翻译至英语时，系统错误率为3.4%）。

其它重要意义: 翻译一直是一项极具挑战性的认知类任务，Facebook的成果意味着我们已经能够设计出原始系统，从而在多种语言之间进行灵活转换。这体现出一些在弱计算系统（也就是人类大脑）中存在的迁移学习属性——当然，其实现方法仍然完全不同。

了解更多：

Massively Multilingual Sentence Embeddings for Zero-Shot Cross-Lingual Transfer and Beyond (Arxiv)

关于中美人工智能竞赛

$\"image\"$

很长一段时间以来，中国与美国无疑是全球最为重要的人工智能大国，而两国间的竞争也将奠定接下来数十年中人工智能发展的基础。在他的新书中，投资人兼技术专家李开复认为，中国在人工智能的开发与部署方面有望赶上甚至超越美国。

中国的优势：李开复认为，人工智能正在由过去十到十五年中的“发现时代”、“深度学习”时代，正式转向“实施时代”。在下一阶段，我们不太可能迎来能够与深度学习相比肩的新成果，因此后续竞争将主要体现在现实场景下的人工智能部署与推广。中国将在这一新阶段具有重要优势——因为这能够充分体现出创业精神与工程人才这两大最值得称道的中国优势。另外，李开复认为数据将成为制约进步的关键瓶颈——而非专业知识，这同样对中国有利；毕竟中国的互联网巨头能够获得超越美国同行的数据总量。

并不尽然：《外交事务》杂志最近对李开复提出的两项观点做出了审查。目前，尚无法确定人工智能的发展单纯源自罕见的“突破性进展”外加长期实施行为；事实上，似乎还有一系列中小规模的创新（例如AlphaZero）在发挥作用，而这类创新将长期存在。此外，吴恩达等专家也认为数据在人工智能研究领域的意义被“过度夸大”，事实上技术的进步将继续以算法、硬件以及人才作为根本性基础。

人工智能应受到全人类的推动：《外交事务》还评论称，中美竞争背后可能代表着零和游戏这一潜在风险。更重要的是，各国之间的“军备竞赛”思维有可能导致人工智能军事化水平的提升，这只会危及人类安全而非推动技术发展。由此引发的潜在灾难性后果或将导致AI先进性倒退，最终使得AI无法给全人类带来切实利益。虽然李开复也在文章中强调了避免人工智能军事化的必要性，但这本书的论点定位以及对中国统治地位的预测，很难让人不把这一切与军事对抗联系起来。

了解更多：

Beyond the AI Arms Race (Foreign Affairs)

AI Superpowers – Kai-Fu Lee (Amazon)

计算增长趋势揭示更多关于高级AI的发展动态

今年早些时候，OpenAI表明在过去六年当中，成本最高的人工智能实验中使用的计算资源量一直在快速增长——每年增长约10倍。当时OpenAI方面认为，如此快速的发展速度可能代表着人工智能的重大进展或提早到来。但如今，Ryan Carey与Ben Carfinkel却针对同样的事实给出了不同的解读。

可持续性： 近年来，计算成本的下降速度始终跟不上需求，因此最大规模的实验活动的计算成本每1.1到1.4年就会增长10倍。这意味着即使是资本最为雄厚的参与者，也将很快无法承受如此奢侈的研究实验；在未来5到6年内，规模最大的实验将耗费全美GDP的约1%。这表明虽然进展可能很快，但如果不对经济结构进行彻底重组，这类研究工作将失去可持续性。

低回报率：如果说我们之前低估了计算需求量的增长速度，那么我们现在可能还高估了由此带来的投资回报（相较于人工智能的发展速度而言）。将二者相结合，意味着人工智能技术不仅发展速度不如预期（由于计算成本过高）；而且相对于可观的资源需求，其实际效能也远远无法令人满意。

了解更多：

AI and Compute (OpenAI Blog)

Reinterpreting “AI and Compute” (AI Impacts)

Interpreting AI Compute Trends (AI Impacts)。

作者Jack Clark 有话对 AI 前线读者说：我们对中国的无人机研究非常感兴趣，如果你想要在我们的周报里看到更多有趣的内容，请发送邮件至：jack@jack-clark.net。

原文链接：
https://jack-clark.net/2018/12/31/import-ai-127-why-language-ai-advancements-may-make-google-more-competitive-coco-image-captioning-systems-dont-live-up-to-the-hype-and-amazon-sees-3x-growth-in-voice-shopping-via-alexa/