Yoshua Bengio 、吴恩达等预见2022年人工智能趋势

2021年AI技术变革的步伐加快，这一势能势不可挡，2022年将继续加速。

IDC报告预测，2021年～2025年期间，全球人工智能年复合年增长率接近24.5%。

从技术维度看，根据全球知名编程语言社区TIOBE指数，人工智能主编程语言Python在2021年可谓“轰轰烈烈”，它超过Java成为世界上最受欢迎的语言。全球知名数据科学平台Anaconda分析师表示，“Python将继续滑入我们的生活”。

2022年，硬科技时代拉开帷幕，一起看看图领奖获得者Yoshua Bengio、前百度AI研究院院长吴恩达、Meta AI研究中心主任Joelle Pineau等专家们认为人工智能世界接下来会发生什么：

吴恩达看2022年AI趋势：多模态AI起飞、参数破万亿模型会更多

AI专家吴恩达日前在DeepLearning.AI平台分享了2022年AI趋势预测，第一就是多模态AI将起飞。

多模态是指不同类型的数据资料，比如文字、影像、音讯、影片等。在过去，AI模型几乎只能处理单一模态任务，比如只限于文字或视觉。但2021年出现不少多模态AI成果，比如OpenAI发表的CLIP和DALL·E模型，能同时处理文字和影像，靠输入文字就能产生图片；DeepMind的Perceiver IO对文本、图像、视频及点云进行分类；斯坦福大学的ConVIRT尝试为医学X射线影像添加文本标签。

虽然这些新的多模态系统大多处于实验阶段，但也已经在实际应用中取得突破。

例如开源社区将CLIP与生成对抗网络（GAN）相结合，开发出引人注目的数字艺术作品。艺术家Martin O’Leary使用Samuel Coleridge的史诗作品《忽必烈大汗》为输入，生成了充满迷幻色彩的“Sinuous Rills”。

Facebook表示，它的多模态言论检测器能够标记并删除社交网络中97%的辱骂和有害内容，该系统能够根据文本、图像和视频在内的10种数据类型将图像-文本配对分类为良性或有害。

谷歌也表示，将为其搜索引擎添加多模态功能。它的多任务统一模型可以处理文本、音频、图像和视频内容，用户可以通过75种语言中的任何一种语言使用。

在GTC 2021期间，英伟达宣布推出NVIDIA Omniverse Avatar，一个用于生成交互式AI化身的技术平台。Omniverse Avatar集合了英伟达在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术，为创建人工智能助手打开了大门，可以帮助处理数十亿的日常客户服务互动。

多模态研究可追溯至数十年前，1989年约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员开发了一种系统，可以根据人们说话的音频和视觉数据对元音进行分类。在接下来的二十年里，研究团队尝试了多模态应用，例如搜索数字视频库和基于视听数据对人类情感进行分类。

因为图像与文本均非常复杂，研究人员在很长一段时间内只能专注于其中一种。但过去十年中，计算机视觉与自然语言处理已经在神经网络中得到有效融合，这让二者的最终合璧成为可能。

过去一年，我们还见证了大型语言模型的巨大进步，而且这场军备竞赛将在2022年继续进行。

早在2019年，OpenAI的GPT-2成为第一个拥有超过10亿个参数的模型（其15亿个参数在当时看起来大得令人难以置信）。2020年，GPT-3风靡AI社区，它拥有1750亿个参数，让之前的一切相形见绌。但GPT-3作为最大的AI模型的统治并没有持续多久，2021年，谷歌Switch Transformer模型（1.6万亿参数）和北京智源研究院“悟道”（1.75万亿参数）模型打破万亿参数壁垒。

市场预计明年大型语言模型的规模将继续增长。2022年最大的模型很有可能来自 OpenAI：GPT-4。

吴恩达认为，2022年将出现更多参数破万亿的模型，过去一年，模型从大型往更大型发展。单纯增加参数并无好处，但随着算力和数据资源的增长，深度学习发展出“越大越好”的原则。于是，财力雄厚的AI大厂们奋力斥资研发超大模型，特别是NLP领域模型。但是，构建越来越大的模型也带来挑战，开发者必须克服四个巨大的障碍：

数据：大模型需要大量数据，网络或者公开数据集等大型来源缺乏高质量数据。例如，BookCorpus是一个包含11000本电子书的数据集，已被用于训练30多个大型语言模型，但它缺乏讨论基督教和伊斯兰教以外信仰的文本，可能会传播对某些宗教的偏见。行业越来越意识到数据质量至关重要，但尚未就编译大规模、高质量数据集的有效方法达成共识。

速度：今天的硬件难以处理庞大的模型，当Bit反复进出内存时，这些模型可能会陷入困境。为了减少延迟，Switch Transformer背后的Google团队开发了一种方法，可以为每个Token处理选定模型层子集。他们最佳模型预测速度比参数数量只有其1/30的模型快66%。同时，微软开发了DeepSpeed库，它可并行处理数据、单个层和层组，并通过在CPU和GPU之间划分任务来减少冗余处理。

能源：训练如此庞大的网络会消耗大量的电能。2019年的一项研究发现，在8个Nvidia P100 GPU上训练一个2亿参数Transformer模型，几乎和一辆普通汽车跑五年的碳排放量一样多。不过，新一代的AI芯片，如Cerebras的WSE-2和谷歌最新的TPU，可能有助于减少碳排放。

交付：这些庞大的模型太大而无法在C端边缘设备上运行，集中部署可能导致延迟，而小规模部署，能力又较弱。

所以，2022年大语言模型仍然以数量千亿参数模型为主，因为超过万亿的参数模型部署很困难。

吴恩达还提出其他AI趋势预测，包括Transformer单一架构将驾驭更多任务、AI产生音频成主流、各国推出AI法规等。

Meta AI研究中心主任Joelle Pineau：元宇宙亟需小样本学习和持续学习AI技术

Facebook为了元宇宙改名Meta，且承诺砸数百亿美元创建元宇宙。Meta AI实验室负责人Joelle Pineau表示：2022年将带来新的AI数据集、模型、任务与VR/AR“拥抱现实世界的丰富性”的挑战。

“我预见了人工智能工作的全新模式，它使我们能够与世界进行更丰富的感官交互。使用人工智能的创造力，能够增强和放大人类的表达和体验。随着机器感知技术的进步，可以构建更有用的人工智能助手和未来的家用机器人。以及推动部署负责任的人工智能技术新标准的进步，这更符合人类价值观，包括安全性、公平性和透明度。”Pineau说。

多模态AI可以提高用于营销目的生成视频的质量，例如，Synthesia、Soul Machines和STAR Labs等初创公司目前提供的产品线。它们可以用作艺术工具，使电影和游戏设计等行业的用户能够在将其投入生产之前对其进行迭代和完善。

Pineau还预计，人们会更加关注小样本学习和持续学习等技术，因为它将使人工智能能够快速适应新任务，满足快速迭代的新需求。例如来自OpenAI和Meta、WebGPT和BlenderBot 2.0的最新语言模型，它们可以在网上检索对他们提出的问题的最新答案。

目前大多数AI算法仍然专注于被动数据，数据量相对较大、稳定，同质化严重，这种算法可能适用于互联网时代的人工智能模型，但我们希望将人工智能的能力带入元宇宙，就需要支持快速变化社交属性的新算法。

吴恩达在最近的一次采访中说：“虽然AI已经改变了软件互联网产业，但应用于其他行业仍有许多工作要做。在消费互联网中，一个单一的人工智能系统可以为数十亿用户提供服务。但在制造业中，每个制造工厂可能都需要自己的AI模型。小数据的人工智能是一项迅速崛起的技术，它将是实现人工智能普惠化的关键。”

许多专家认为，到2022年，行业重心将从算法建模转向用于开发AI系统的基础数据，例如合成数据——人工智能生成的数据的使用，可以代替现实世界的数据，并已经得到更广泛的使用。近期Synthesis AI调查了100位具有决策权的高级管理人员，89%的技术高管认为，这是保持领先地位的关键。

合成数据（或计算机生成的模拟现实世界的图像数据）可以解决监督学习的耗时和成本过高的问题。在关于合成数据技术的受访者中，50%的人认为合成数据克服了监督学习/人工标注的局限性，82%的人认为合成数据面临安全风险。但超过一半(59%)的决策者认为，他们将在未来五年内独立或结合“现实世界”数据使用合成数据。

Gartner预测，到2024年，合成数据将占AI开发使用的所有数据的60%。

图灵奖得主Yoshua Bengio：人工智能最害怕被滥用，危害堪比“核泄漏”

蒙特利尔大学教授Yoshua Bengio是世界级的AI大牛，也是图灵奖（被认为是计算领域的诺贝尔奖）获得者，他正在研究如何提高AI技术的可靠性以及人机交互方式，探索一条可以解决这两方面问题的途径。

近日，Bengio与外媒Workflow对话，分享了他对人工智能的最新理解。

在过去的几十年里，人工智能取得了惊人的进步，但在对商业至关重要的方面，我们离人类智能还很远。在某些情况下，他们可能会犯人类不会犯的错误，甚至2岁儿童不会犯的错误。“我们需要更好地理解这个差距，这就是我想要做的——设计新一代的人工智能系统来弥补这个差距。”Bengio说。

“我们工作旨在改进人与机器之间的交互。我们希望与人类交互的AI能够以人类容易理解和接受的方式解释他们正在做什么。因此，必须破解机器学习的‘黑匣子’，将其改变为更结构化的东西，类似于人类有意识的方式构思和交流。”

这就像人类的直觉。人类可以做出涉及直觉的决定，它可能是一种高级推理。但是对于当前的机器学习状态，这种能力仍然遥不可及。

谈及人工智能是否会控制世界，Bengio更担心机器可能被人滥用。因为人类可能会发疯或被说服做疯狂的事情。虽然现在能够做一些损害我们社会的事情，但这种损害是有限的，但如果他们能够使用可以成为武器的超级强大的计算机，那就害怕了。

1940年代和1950年代，全球物理学家参与讨论核武器带来的危险。核技术可能非常有用，但也可能很危险。Bengio认为，“人工智能现在是新的物理学。我绝对有道德义务思考这些问题，任何科学家都应该扪心自问，他们的工作最终是否会被用来做坏事。”

当我们使用人工智能系统做出决定时，它可能是完全错误的，因为我们假设输入导致输出，但它可能反过来，或者可能有第三个变量混淆了这些结论，机器学习需要干预并考虑后果。

Bengio也非常关心气候变化，并参与了新电池和碳吸收材料等方面的研究。“如果我们可以以更便宜的方式做到碳吸收，那将是颠覆式的创新。它涉及决策、数据获取和训练的大量迭代。”

另外，Bengio致力于研究气候建模，他表示：气候科学家开始使用机器学习来开发比物理模型更简单、更容易理解且便宜得多的模型。如果我给你一个包含十亿个参数的气候模型，很难说服政府部门投入数十亿美元用于研究。然而，如果可以将气候变化归结为几个方程式，大多数人会更加信任它。

结语

展望2022年，硬科技创新的周期刚刚开始，多模态、通用人工智能、超大模型、AI+元宇宙、AI伦理均是值得关注的热门方向。在这些前沿科技创新赛道上，中国企业已经深度布局。

由中国科学院自动化研究所牵头的多模态人工智能产业联盟在武汉成立，理事单位包括新华社、爱奇艺、福建新大陆、中移系统集成、华为。

上海人工智能实验室联合商汤科技SenseTime、香港中文大学、上海交通大学共同发布新一代通用视觉技术体系“书生”（INTERN）。相较于OpenAI于2021年发布的CLIP这一当前最强开源模型，“书生”在准确率和数据使用效率上均取得大幅提升。“书生”在数据效率方面的提升尤为令人瞩目：只需要1/10的下游数据，就能超过CLIP（openai.com/blog/clip）基于完整下游数据的准确度。

百度与鹏城实验室联合发布共同研发的全球首个知识增强千亿大模型——鹏城-百度·文心（模型版本号：ERNIE 3.0 Titan），该模型参数规模达到2600亿。

腾讯微信AI团队联合Tencent NLP Oteam发布开源项目派大星“PatrickStar”，派大星性能表现优于微软DeepSpeed，在不到5000元价位的个人游戏电脑上，即可训练一个7亿参数的GPT模型。

元宇宙将带我们从互联时代的数字世界走进物理世界，数据洪流（如3D场景、360度渲染场景）必至，而具备越来越强的自主学习与决策功能的人工智能辅以人工去微调，可大幅降低构建元宇宙的周期与人力成本。

昨日，北大发布200页元宇宙报告，解读了国内科技巨头元宇宙布局。

字节跳动在硬件入口（收购Pico）、底层架构（投资代码乾坤、维境视讯）、内容与场景（短视频、游戏、VR社交）这三大方向上均着力布局。

腾讯元宇宙拼图较为完善，通过资本（收购&投资）+流量（社交平台）组合拳，未来将像搭积木一样探索与开发元宇宙。腾讯在底层架构（引擎Unreal Engine）、后端基建（云服务、大数据中心）、内容与场景（各类型内容产品与成熟的社交网络互通生态）这三大方向上均着力布局。

阿里在元宇宙方向的布局可以追溯至2016年在淘宝上线VR购物功能，并投资AR独角兽Magic Leap。2021年阿里在元宇宙方向的布局更加频繁，先后成立新品牌“云镜”、XR实验室，聘请AYAYI成为天猫超级品牌日数字主理人等。

网易基于多样化产品，已在VR、AR、人工智能、引擎、云游戏、区块链等元宇宙相关领域，拥有全球领先的技术储备，完全具备探索与开发元宇宙的技术、能力。

华为布局元宇宙着力于XR核心环节自主权的争夺与5G行业标准的制定。XR方面，华为不仅发布XR专用芯片，游戏控制器与VR头显相关专利，更是围绕“1+8+N”战略集结了5G、云服务、AI/VR/AR等一系列前沿技术，同时通过自研、扶持开发者、与游戏厂商合作等多种形式，不断丰富鸿蒙内容生态。

一百年前，1922年，科学加拿大多伦多综合医院的医生班廷博士首次使用胰岛素治疗糖尿病；第72号元素铪的发现证明了玻尔的理论，玻尔由于对于原子结构理论的贡献获得诺贝尔物理学奖……2022年，科技创新必将书写激动人心的一页，我们共同期待！