感谢阅读腾讯AI Lab微信号第161篇文章。本文将进行2022年度回顾,祝大家新年快乐!

追求「比真实更真」,是贯穿 2022 年的大热点。基于大模型,AI 展现了令人兴奋的生成能力。与此同时,软硬件创新驱动了更真实的虚拟世界,也正加速与现实世界融合,形成新的解决方案、应用场景、产业生态和生活方式。

随着云计算、人工智能、扩展现实等技术的不断突破,「通往全真互联的未来之门正在打开」。通过多种终端和形式,全真互联是实现对真实世界全面感知、连接、交互的一系列技术集合与数实融合创新模式。以数强实,全真互联将持续为个人、企业、组织及社会创造新价值。

腾讯 AI Lab 和腾讯 Robotics X 作为公司的企业级实验室,2022 年持续探索全真互联的关键技术,加强 AI 与机器人基础研究的同时,推进数字内容生成、生命科学、医疗医药、游戏等行业方向落地应用,助力数实融合,提升前沿技术造福用户和各行各业的能力

全真互联助力数实融合

数字人:打造完整技术链条,创新千行百业

2022 年,全真互联概念下的数字人产业,迎来井喷式的发展。在技术与需求都高速增长时,腾讯 AI Lab 也在思考,如何让数字人这一项技术创新的产物,真正成为一个产业,走向大规模应用。我们的答案是,它需要更便捷地使用、更低的成本、更强大的功能、更多的实践。

为了实现上述目标,2022 年,腾讯 AI Lab 利用过去几年的技术积累,搭建了包括建模、驱动、渲染、部署以及动画制作的数字人全栈技术管线,形成了多场景业务方案,让数字人能够更方便、更便宜、更智能地走进千行百业。

其中重点突破包括:

  • 建模:搭建了不同级别数据的分级建模管线,从消费级的照片输入建模,到影视级的相机阵列扫描。

  • 表情驱动:实现业界标杆级别的准确度和生动性。提供了 VISM16+AU20 技术标准,可基于文本或语音自动生成多风格 3D 数字人口型及表情动画,并支持通过精细化的 VHML 标注高自由度、可视化地调整数字人面部动画效果。

  • 身体驱动:提供适应不同类型业务场景需求的身体驱动解决方案,包括传统的光学动捕驱动、简单的动作库细粒度控制和编排、Locomotion、基于单目摄像头的视觉动捕技术等。

  • 动画制作:打造简单易上手的视频工厂,通过配置形象、台本,通过智能表情推荐和动作编排,即可生成生动形象的 3D 数字人音视频动画,极大减少传统数字人视频制作耗时。

全息表演捕捉及人物建模技术

基于单目摄像头的视觉动捕技术

简单易上手的视频工厂

基于以上技术和工具,今年腾讯 AI Lab 数字人技术进一步与公司内部业务结合,已驱动超过 70 个角色,落地于广告、游戏、教育、金融等不同场景,虚拟角色生成效率提升 8 倍。

与王者荣耀团队合作输出《心肺复苏急救课堂》

打造视频工厂自动化生产数字人视频广告素材,制作成本平均降低22%

机器人:走得更远,学会更多

机器人是虚拟世界到真实世界的载体与连接器。今年,腾讯 Robotics X 实验室进入成立后的第四个年头,通过持续深耕研究,实验室在感知能力、灵敏运动、灵巧操控、智能体四大技术方向均有了稳定积累,并发布了多项进展。

在灵敏运动方面,大家熟悉的两个移动机器人 Max 和 Ollie 在今年发布了第二代,除了原有移动能力得到进一步升级,也首次成功融合了其他方向的能力:

  • 8 月,我们发布了多模态四足移动机器人 Max 2.0 技术演示视频。Max 在梅花桩上完成旋转踏步、单桩跳跃、双轮站立等高难度动作,过桩速度达到「前辈」Jamoca 的 4 倍。相比一代,Max 在视觉感知、轨迹规划、运动控制等方面都实现技术创新,并初步尝试了与智能体技术的结合:基于深度强化学习与 sim2real 等技术,Max 在几小时内就初步学会了真实狗自然灵动的步态。

  • 9 月,轮腿式机器人 Ollie 也升级了新技能,展示了稳定的双轮迈步动作,并结合触觉传感器展示触觉交互、顶球平衡等新技能,体现腾讯在机器人前沿技术上的领先布局与持续探索。

在感知方面,我们在今年 12 月集中披露了在触觉传感器与执行器领域的前沿探索,结合实验室在 Nature Communications、Science Advances 和 ACS Nano 等顶尖学术期刊上发表了一系列代表性论文,从原理、设计、制备和控制等多个方面介绍了触觉技术的创新。

基于电刺激触觉重现系统的盲文测试

AI + 游戏:能力持续升级,从虚拟走进现实

近年,AI 收集信息并进行复杂决策的能力,正不断在游戏内得到验证。作为游戏 AI 研究的先行者,腾讯 AI Lab 在游戏环境持续进行研究的同时,也正不断探索促进游戏 AI 学界及应用的全面发展。2022年,从绝艺、绝悟到开悟,我们正让 AI 从虚拟游戏世界走进现实。

今年,腾讯 AI Lab 持续深耕科研,提升游戏 AI 能力。例如在 4 月,棋牌类 AI 绝艺在 1v1 麻将(二人雀神)测试中战胜职业冠军选手,其背后的 ACH 算法登上顶会 ICLR 2022。

同时,我们持续发力推动游戏 AI 学界的发展,开悟 AI 开放研究平台在今年迎来了进一步开放,为学术研究人员和算法开发者提供应用探索平台。

  • 6 月,开悟平台承办第 31 届世界大学生夏季运动会「世界大学生数智竞技邀请赛」,为来自全球各地 12 所高校的大学生打造科研竞技舞台。

  • 8 月,第三届开悟大赛启动,参赛队伍数量扩大到 39 支。本届赛题聚焦于智能体研究领域的热门课题「模型泛化性」,为参赛队伍提供兼具前沿性和实用性的研究课题及相关知识指导。

  • 在赛事之外,「开悟」AI 开放研究平台也在沉淀高校合作成果。已有 19 所高校教师与开悟平台达成合作,基于开悟平台打造多智能体及强化学习创新专业课程,助力青年学生通过更有趣的方式掌握机器学习、强化学习、多智能体决策等关键知识点。

  • 11 月,平台宣布开放「王者荣耀 AI 开放研究环境」申请,迈出全面开放的第一步,提供业界独有的高复杂度 MOBA 训练环境。项目发布后以 264 星登上 Github 9 月热榜,并收录于 NeurIPS 2022 benchmark and dataset track。

值得一提的是,今年我们做了更多帮助游戏 AI 走进现实的工作,让游戏场景中积淀的学术研究成果,能真正为改变现实世界的问题而发挥作用。

  • 4 月,决策智能 AI 绝悟再次亮相 GDC,基于 AI 的人机协作能力和内容生成能力,展示 AI 在游戏行业丰富玩家体验、降低制作成本的案例。至此,我们的游戏 AI 技术更全面地覆盖了游戏制作、运营及周边生态全生命周期,并陆续拓展更多元的游戏品类。

  • 8 月,「绝悟」3D-FPS 解决方案全面应用于 CFM、CODM 等多款 FPS 游戏,攻克复杂 3D 环境决策链条长、多人配合奖励稀疏问题,成功应用有效提升玩家对局体验。

  • 12 月,我们发布了「绝悟」的病理诊断版本「绝悟 RLogist」,成为腾讯 AI Lab 的游戏 AI 技术具备跨领域解决现实世界问题潜力的首个有力证明。受启发于「绝悟」在 3D 游戏环境观测环境并做出决策的过程,研究团队将相关的深度强化学习技术迁移到病理全片扫描图像诊断领域,在性能接近的情况下将传统病理阅片效率提升 400%。相关论文已被 AAAI 2023 接收,代码已开源。

「绝悟 RLogist」提出一种类似医生病理阅片的决策思路

AI + 生命健康:更高效、精准的健康守护

在科学面临历史性机遇的今天,AI 与传统科研结合展现了巨大潜能。在生命健康领域,AI 对科学发现范式的深刻影响,对生物制药领域各环节赋能,帮助行业提升效率与准确度的研究与应用价值,使 AI 的产业化具有良好前景。腾讯 AI Lab 今年也取得了多项进展:

在生命科学领域,单细胞测序技术是一项革命性技术,对于精准医疗具有极高的应用价值。9月,腾讯 AI Lab 创新性地提出 scBERT 算法模型,实现了高解释性、高泛化性、高稳定性的单细胞类型注释技术,对单细胞转录组测序数据分析的未来研究意义深远。该成果被 Nature Machine Intelligence 杂志认可接收,这是计算机科学、人工智能领域期刊中影响因子最高(25.898)的顶级期刊。

空间组学是生命科学领域的另一大前沿课题。它在传统的定量统计层面上更进一步地引入了空间分布及结构的概念,填补组织和器官水平上位置与功能关系研究的空白,对于精准医疗、细胞图谱绘制等领域的研究具有重要意义。

12月,实验室两项空间组学研究成果发表于 Nature Communications,我们后续也将发布更详尽的技术解读:

  • 一种基于迁移学习和空间嵌入的空间转录组细胞类型注释方法 Spatial-ID,该方法提升细胞类型识别的准确性,在四个不同的空间转录组公开数据集上开展基准测试,与现有 8 种 SOTA 方法进行性能对比,均取得显著更优表现。

  • 一种利用空间组学数据进行微环境建模的通用方法 SOTIP,在多种空间转录组、蛋白组和代谢组数据的测试中展现出较好的准确性、稳定性和鲁棒性,助力解析肿瘤微环境分子和空间机理等方向。

在医疗领域,腾讯 AI Lab 与北京协和医院共同发布了具有完全自主知识产权的便携式智能化手术导航系统,实现高精度、便携式、低成本等特点,就像给临床医生的手术配上了 GPS,辅助医生精准定位隐藏在脑组织中的病变。该系统在协和神经外科已成功开展了 50 余例临床试验,涉及脑出血、垂体腺瘤、胶质瘤、脑膜瘤、颅咽管瘤等多种疾病,临床初步应用取得成功。

手术导航系统临床应用

腾讯 AI Lab 还与迈瑞共同研发了全自动外周血细胞形态学分析仪,并完成了创新医疗器械特别审查申请公示,正式进入国家药品监督管理局创新通道,成为国内体外诊断行业首个进入该程序的 AI 类产品。该分析仪通过创新性的形态学检测方案,以优异的指标及效率,实现白血病等高发恶性肿瘤的早期筛查辅助临床诊断。

在药物 AI 领域,腾讯 AI Lab「云深」平台今年 4 月发布了业内首个基于图的药物 AI 分布外研究框架 DrugOOD,以及基准方法。传统机器学习算法存在训练样本与测试样本不一样分布(Out-of-Distribution)的 OOD 问题,这影响了模型在实际应用中的稳定性、可靠性、泛化性等,也成了 AI 辅助药物发现领域的一大挑战。腾讯「云深」DrugOOD 针对药物 AI 研究中最重要的活性预测问题,提供大规模、全面的药物 AI 泛化数据集,覆盖 AI 药物辅助设计任务中发生分布偏移的各类场景,帮助社区更便捷开展 OOD 问题研究。

5月,平台与清华大学团队合作完成了业内首个基于 AI + FEP 的抗体亲和力预测与改造模型,对亲和力不足的苗头抗体进行预测与改造。该方法以针对新冠刺突蛋白受体结合域的抗体为例,利用等变图神经网络预测抗体-抗原结合的亲和力,相关性大幅度提升。通过该模型进行高通量的单点突变改造筛选获得可潜在提升亲和力的突变体,再利用自研的 FEP(自由能微扰)技术对突变体进行结合自由能评估,可将预测与实验值的相关性提升至 0.88。「AI + 计算化学」的结合,缩小了验证范围,提高了实验效率。

11月,平台设计出基于大规模序列预训练模型的结构预测方法,精度超越当前的 SOTA 方法,仅需数秒即可准确预测抗体重轻链复合体的三维结构,并在引入抗原结构预测与特征融合模块后,能进一步预测抗原抗体复合体结构,指导相关抗体药物设计。该成果发表于 NeurIPS 2022 机器学习与结构生物学研讨会(MLSB)。

AI + 内容:提高内容创作效率

腾讯 AI Lab 持续探索 AI 与人协同合作的内容生成技术,此前相继发布了文本理解系统  TexSmart、交互翻译系统 TranSmart 等,并且创新性地探索了 AI 在游戏电竞、直播等领域的应用。今年该领域的进展包括:

智能写作

4月,我们发布智能写作助手「文涌(Effidit)」,用技术助力文思泉涌。初版本融合了知识抽取、文本理解、文本生成、大规模预训练模型、经典语言模型、搜索等多项技术积累,提供多维度文本补全,多样化文本润色等核心功能,及例句推荐、文本纠错、云输入法、学术专业版等完整的辅助写作能力。

12月,文涌 2.0 版本发布,新版本增加了风格化文本续写等众多功能,共包含「文本补全」、「智能纠错」、「文本润色」、「超级网典」四个模块,其中「文本补全」和「超级网典」旨在帮助写作者在创作时开阔思路、提供弹药,而「智能纠错」和「文本润色」则是重在提升创作后的文本水平和质量。部分功能目前已接入搜狗输入法 PC 端(「智能汪仔」)和QQ浏览器移动端。

AI 根据前缀「此事还得从这说起」进行的风格化文本补全结果

交互翻译

腾讯交互翻译 TranSmart 作为新一代翻译工具,区别于输出静态结果的传统机器翻译,通过重构人工翻译过程的人机交互逻辑,让快速定制个性化机器翻译结果成为现实,助力用户又快又好完成高质量严肃译文生产任务。

经过五年技术沉淀与两年商业化探索,TranSmart 已建设了包含公有云、私有化部署等服务形态,以及网页端、客户端、浏览器插件等产品形态,提供的服务包括交互翻译、文档翻译、自动翻译、定制引擎等,并可支持各类计算机辅助翻译软件(CAT)集成。翻译服务受到了各类垂直行业头部客户的青睐和内外合作伙伴的广泛认可,包括但不限于:联合国、新华社、央视、CGTN、Memsource、华泰证券、阅文集团、Denso、富途证券、宝马、腾讯云官网、腾讯会议等。

今年 TranSmart 在技术上继续精耕细作,在已有亮点特色技术的基础上推陈出新:

  • 多任务合一的交互翻译模型:将自动翻译、约束解码、翻译记忆融合三项任务,以端到端的形式合并到同一套模型中,大大减小私有化部署的硬件要求;

  • 多语言合一的自动翻译模型:用一套翻译模型完成多种语言对翻译任务,显著减少因增加语言对而带来的硬件和调度负担;

  • 快速个性化翻译模型:免模型训练过程,在选定语料库后,几分钟内就可生成高质量的个性化翻译模型。

虚拟解说

腾讯 AI Lab 创新性地探索了 AI 与游戏电竞、直播等场景的结合,推出了业界首个 AI 驱动的游戏解说服务,并于王者荣耀游戏电竞场景尝试落地。

该服务可基于玩家实时的游戏局面,通过智能策略理解局面亮点予以导播切镜,并生成符合语境且有趣味性的解说词,实时合成高度拟真、抑扬顿挫的解说语音。今年服务上线后,迅速获得了业界和观众的认可。

  • 3 月,全量落地微信视频号直播,在王者峡谷用 AI 解说陪伴着主播和观众共度欢乐时光,开创了游戏直播领域的新模式。

  • 7 月,AI 解说作为王者赛宝的特色功能正式对外发布,所有的王者玩家均可办一场专属于自己的赛事,与身边的朋友一起体验电竞的魅力。

  • 10 月,第一视角 AI 解说在微信视频号直播、快手、斗鱼、Bilibili 等主流直播平台上线,为王者荣耀职业赛事的观众提供了全新的观赛体验。

该服务融汇了腾讯 AI Lab 在自然语言处理、机器学习、语音合成等前沿AI技术的深厚技术积淀,结合腾讯丰富的游戏工程化经验打造而成。它拥有多个独特的技术亮点特性:

  • 一站式服务:AI 在全程直播中智能实现 OB 导播和解说,大幅降低实况解说门槛,满足普通玩家随时随地一键开赛、观赛需求,提升对局的氛围感与专业性,让每个人的赛场高光都能够被看见。

  • 平台化技术:该技术配备了 PaaS 化的知识运营系统,将知识构建体系、个性化内容创作、基于 RBAC 的权限控制系统合而为一,从而可以高效响应游戏版本内容的更新,并进行个性化解说内容的运营,真正将游戏解说业务实现智能化以及平台化。同时 PaaS 化技术也为 AI 解说落地并赋能更多游戏提供了足够的支持和拓展空间。

AI+伦理:让算法更可信、可解释

随着 AI 应用的普及,AI 伦理问题日益受到重视,AI 系统的可解释性逐渐成为热点。今年 1 月,腾讯 AI Lab 参与了腾讯研究院发起的跨学科研究团队,历时近一年,完成业内首份「可解释 AI 发展报告2022——打开算法黑箱的理念与实践」,全面梳理可解释 AI 的概念、监管政策、发展趋势、行业实践,并提出未来发展建议。

算法在提升生产力的同时,也面临数据滥用造成的隐私泄露风险,数据采样偏差导致的决策歧视,以及数据分布迁移带来的模型决策误判等各种风险隐患。这些问题导致可信 AI 的关注度持续上升,也就是 AI 系统所做出的决策需要让人能够理解、可被信任。今年 4 月,腾讯 AI Lab 分享了团队自 2018 年起持续投入「可信 AI」工作,在对抗鲁棒性分布迁移学习可解释性三大方向取得的成果与 20 余项研究,承诺在未来继续关注 AI 公平性和可解释性,并探索相关技术在医疗、医药、生命科学等领域的应用。

「可信 AI」的当前和未来关注点

前沿学术研究与合作

作为国内领先、世界一流的企业级实验室,腾讯 Robotics X 和腾讯 AI Lab 持续推进前沿科技基础研究,做出业界领先的学术成果。前者今年于 IROS、ICRA 等机器人顶会共发布文章 46 篇,后者 6 年来已累计在AAAI、CVPR、ACL、ICML、NeurIPS 等国际顶级 AI 学术会议或期刊发表超 780 篇文章。

同时,两大实验室秉承开放合作的理念,继续携手学界智脑面向科技创新开展深度合作。其中,「腾讯AI Lab犀牛鸟专项研究计划」完成第 5 年度闭环,共发表高水平论文超过 50 篇,多项成果已应用于智能化手术导航系统、AI 药物发现平台「云深」、智能创作助手 Effidit 和智能语音交互产品等。

下面将分主题简单梳理腾讯 AI Lab 在 2022 年发布的一些重要研究成果,并分享我们对相关领域的发展趋势观察。

机器学习

腾讯 AI Lab 机器学习团队主要研究目标主要是可被广泛应用的机器学习技术,以期促进科学进步和提高应用效率。更具体地,我们一方面正推进探索 AI for Science 的可能性,另一方面深入研究深度图学习,及分布外学习等前沿技术,全年在 AI 顶会和期刊共发表 20 余篇创新研究。

在 AI for Science 领域,我们重点关注 AI 对生命科学及能源领域的助益,重点成果包括:

  • NeurIPS 2022,腾讯 AI Lab 与多家高校联合团队夺得第二届 Open Catalyst Challenge (OCP)竞赛冠军[1],相对于去年的 MSRA 冠军方案,提升达到 27.6%。能源存储的时间和材料成本是一大行业课题,这是我们用机器学习应对这一问题的一次有益探索。

  • ICLR 2022,腾讯 AI Lab 提出基于独立SE(3)等变模型的蛋白-蛋白交互系统 EquiDock[2],首次实现直接预测旋转平移和形变,突破传统对接软件耗时不准的缺点,并将预测速度提升达到 500 倍。该项工作被会议接收为 Spotlight 论文。

  • 挑战几何图上的等变图神经网络在物理多体交互任务的 GMN[3] 模型

  • 挑战蛋白质大分子动态建模预测任务的 EGHN[4] 模型

  • 基于物理中粒子能量分布的启发,我们提出了蛋白质预训练模型[5]和基于 3D 构象扰动小分子预训练模型 3D-EMGP[6],同时结合 Diffusion 扰动提出小分子 3D 生成模型 MDM[7]。

在深度图学习方面,提出首个最优子集下的结合函数学习框架EquiVSet[8],通过可微平均场变分推理引入置换不变性,作为 Oral 在 NeurIPS 2022 上发表。针对 GNN 模型在异质图(heterophilic graph)上表现不好的短板,我们提出基于 p-Laplacian  的图卷积操作以及新的 GNN 架构 PGNN[9]。我们还建立了基于图最优传输的小分子模型微调方法 GTO[10],提升图预训练模型的微调效果。此外,实验室联合多所高校在 AI 顶会 KDD2022 举办了可信图学习的教程[11],全面回顾这一领域的最新进展,帮助开发者为其应用选择合适的技术。

在分布外学习方面,提出基于不变学习的图分布外学习方法 CIGA[12],以及 Umix[13] 方法,这些分布外学习方法有助于提升模型在面对分布外样本的性能,入选 NeurIPS 2022 Spotlight 论文。另外,为解决分布内数据遗忘问题,提出 EATA[14] 方法,通过主动样本选择与 Fisher 正则化,在提高模型的分布外推理精度与效率同时,也避免了对分布内数据的遗忘效应。而为解决分布外数据的主动学习问题,ML团队基于能量模型提出了 MMPQ[15] 算法为主动学习挑选影响最大的分布外数据。

视觉计算

数字经济的快速发展对视觉计算技术提出全新的挑战。首先,视觉内容理解方面,如何高效地利用无标注或弱标注数据提升模型性能成为一个引入注目的课题。其次,图像和视频生成方便,如何快速生成超写实和可控的数字人形象成为工业应用的瓶颈。最后,大规模 3D 场景重建和动态场景的 4D 捕捉和建模成为了构建虚拟世界的支撑技术。

2022年,腾讯 AI Lab 视觉计算团队在 T-PAMI、ICCV、CVPR 和 NeurIPS 等视觉顶级期刊和会议共发表了 25 篇论文,主要涵盖视觉内容理解、图像和视频生成、4D 数字内容生成等。

在视觉内容理解方面,实验室持续对图像和视频理解进行研究。在通用视频自监督表征学习方面,团队提出一种高效的视频自监督预训练范式[16],在视频动作分类和视频时空动作检测任务的榜单上取得 SOTA 效果,成为第一个被 Hugging Face 官方的 transformers 仓库收录的通用视频理解模型。在更精细的视频理解任务中, 如视频时序行为检测和视频文本定位,团队分别提出一种自监督预训练方法[17,18],提升模型对视频更精细的理解能力。

图像和视频自动生成技术极大地提升数字内容创作的效率,比如数字人表情驱动、图像编辑等。面部表情驱动是 2D 数字人的核心点之一,我们提出基于语音视频表情编辑方法[19],突破特定人表情编辑的限制,实现基于任意语音编辑任意视频。此外,我们提出基于视频单图表情迁移框架[20],首次将面部表情驱动分辨率提升至1024x1024,在驱动的同时还可以对面部模型属性进行编辑。在面部模型编辑方面,我们提出高保真的 GAN Inversion技术[21],更好地重建面部特性,并以此为基础进行属性修改。另外,我们也提出基于文本的面部模型编辑方法,实现灵活编辑。

在 4D 数字内容生成方面,实验室持续神经渲染的前沿研究。在场景编辑上,团队提出了一种可从模糊图像中恢复清晰神经辐射场的方法[22],一种从户外图像恢复神经辐射场并实现光影流转的新视点渲染技术[23],及一种从多曝光图像中恢复高动态范围神经辐射场并实现曝光可变的自由视点渲染的方法[24];在面部模型重建上,团队提出了一种用于面部模型重建和表情编辑的神经辐射场技术[25],及一种用于动态面部模型重建、面部换妆及编辑的神经辐射场技术[26]。实验室与香农实验室联合腾讯会议推出了实时裸眼 3D 系统,可实现实时高清高帧率立体视频渲染,为用户带来沉浸式的体验。

语音技术

在全真互联时代,更丰富复杂的场景、设备和环境对语音技术提出了更高要求。如何让语音更真实清晰,实现高质量、低成本、创新的语音交互,腾讯 AI Lab 语音技术团队在 2022 年做了以下主要实践。

在会议场景和游戏场景中,传统语音编解码器在弱网情况下,如传输负载码率低于10kbps 时,语音还原质量和可懂度下降明显,极大影响用户体验。由腾讯 AI Lab 主导的开源协同团队和业务方成立联合项目组推出了业内首个落地移动端的 AI 语音编解码(AI Codec)技术,以基于深度神经网络压缩方式全面替换了传统 Opus 压缩方式,能保证在低码率传输下的高音质体验。技术还根据具体产品特点针对性深度优化,在腾讯会议场景中,6kbps 下AI Codec 的语音质量与现网 12kbps 相当。在和平精英场景中,以 5-12kbps 的 AI Codec 全量替换原来 24kbps 的 Opus,在保证语音通话质量不变或更好时,实现语音带宽成本的显著下降。目前 AI Codec 正在进一步扩展到包括王者荣耀在内的更多游戏业务。

音乐分离技术被广泛用于音乐相关场景,比如全民 K 歌 app 场景中,高质量的伴奏提供了优质点唱体验,而很多音乐 UGC 在作品、歌声和长音频分离上都需要提取干声,再进行音色处理、打分、识别、分类等处理。近些年随着深度神经网络的引入以及在结构设计和训练策略的持续发展,业界音乐分离技术的效果不断提升,但在真实业务场景中的音乐分离主客观性能指标仍不达预期。腾讯 AI Lab 与腾讯音乐天琴实验室联合研发了音乐分离和语音降噪 BSRNN(Band-split RNN)模型系统,在公开数据集上超越业界 SOTA 音乐分离性能[27],在业务场景中的主客观指标实现行业领先,该模型在语音增强任务中流式和非流式的性能也领先业界[28]。

语音自监督预训练广泛用于语音识别系统中,在 low resource 的条件下需充分利用无监督数据来提升语音识别系统性能,从而大幅减少人工标注成本。腾讯 AI Lab 自主研发的 SpeechMoE 动态预训练大模型网络能充分利用大量的无标注数据来提升语音识别性能,目前已经在百万小时无监督数据上训练得到 1B 的预训练大模型,在 low resource 任务上获得了巨大的性能提升。基于动态预训练大模型腾讯 AI Lab 进一步研发了 One stage 的模型压缩方法,实现了模型极限压缩到 1bit,模型压缩比高达 150X,使得 ASR 模型在端侧上运行成为可能。

自然语言处理

腾讯 AI Lab 在自然语言处理方向的目标是开展 NLP 基础研发工作,促进 NLP 技术的发展,提升人类的生活便捷性和工作效率。2022年,腾讯 AI Lab 自然语言处理团队在一流的国际会议和期刊上发表了 40 多篇 NLP 方向的学术论文。在 EMNLP 2022,腾讯 AI Lab 与苏黎世联邦理工学院合作的论文「多语言知识和文本增强建模的适配器(Adapters for Enhanced Modeling of Multilingual Knowledge and Text)」被多语言表示学习研讨会评为最佳论文。

文本理解

在文本理解方面,实验室持续更新文本理解系统 TexSmart,保持对新出现实体和概念的理解能力。TexSmart 除了为公司内部的多项业务提供支持外,还受到了大量外部用户的欢迎,目前其在线 API 和离线 SDK 的外部调用量合计超过 10 亿次每天。实验室在 9 月份发布了大规模高质量的英文词向量数据[29],包含600多万个英文单词或短语。

我们围绕文本理解系统的多个核心难点问题进行了深入研究。在命名实体识别方向,我们使用自适应的负采样算法提升识别准确率,并使用图神经网络模型来增强细粒度实体的分类[30]。我们在 NAACL 2021 最佳论文的基础上,使用大规模弱监督数据持续提升无监督句法分析准确率[31]。在知识推理方面,我们提出了多种新型模型架构,包括一阶逻辑理论推理模型架构 FOLNet[32],知识驱动型半参数化语言模型架构 KiC[33],和多模态知识辅助推理架构 Z-LaVI[34]。我们同时关注公开领域事件关系预测[35],构建并开源了一个大规模生活常识推理数据集 MetaLogic[36]。

文本生成

我们围绕写作助手「文涌(Effidit)」的多个文本生成任务以及开放域文本生成的核心难点问题进行了深入研究。针对文本生成重复的问题,我们提出基于对比搜索的解码算法[37]以增强生成文本的一致性和多样性。为了提升文本改写效果,我们提出 ParaScore 定量评测改写文本的词汇多样性[38],并搭建可控无监督文本改写框架 MCPG[39]。文本摘要方面,我们提出使用柔性的引导以帮助摘要生成[40],并持续探索长文本摘要技术[41]。

对话

对话方面,我们专注于逐个解决对话建模中的痛点难点,进而提升整体对话效果。在理解和知识层面,核心研究了外部知识在对话模型中的内化[42]、对话中的情感抽取和使用[43]以及对话改写[44];另外,针对实际应用中对话数据有限,以及冷启动问题,提出了低资源对话的数据增强方法[45]以及对话预训练模型[46];最后,对话的形式化表达一直是对话核心难题,我们针对 AMR 和 SQL 作为形式化表达进行了一些前瞻研究,包括对多轮对话进行精确的 SQL 语义分析[47],以及针对开放域对话的 AMR 符号化表示[48]。

翻译

在自动机器翻译方面,我们专注于核心翻译问题,致力于改善翻译系统的效果和易用性。我们继续深耕多语言预训练[49],非自回归模型[50],数据增强[51]等机器翻译领域的前沿方向。特别地,我们提出的多语言知识和文本增强建模的适配器获得了 EMNLP2022 多语言表示学习研讨会的最佳论文。受益于此,我们的自动翻译(中英和英中)系统准确度继续保持国内前列,在国际翻译比赛 WMT 2022 的多语言翻译和低资源翻译任务中也取得了三项第一的成绩。在交互翻译方面,我们持续探索交互方法和翻译记忆,提出了基于双语文本填充的交互翻译方法[52]和利用多样性翻译记忆的方法[53]。

总结与展望

新年将至,回顾这一年 AI 与机器人产学界所取得的进步,我们看到 AI 正在接近智能的要义,同时借助解码基础科学,拓宽着人类认知的边界,机器人也正推进多种形态与能力的创新。这些突破,让我们对有创造力和想象力的未来充满期待。

腾讯 AI Lab 和腾讯 Robotics X 实验室也将持续向前,推进 AI 与生命科学、医疗医药、游戏、内容生成到机器人等不同领域的跨界结合与碰撞,期待有更多鼓舞人心的成果产出,攀登 AI 和机器人的「智」高点,用科技让生活变得更美好。

2023,新年快乐!

附录:论文链接

  • 机器学习

[1] GMN-OC: OCP比赛冠军

https://opencatalystproject.org/challenge.html, https://ai.tencent.com/ailab/ml/ocp/index.html

[2] 基于等变模型的刚体蛋白对接(ICRA 2022 Spotlight)

https://openreview.net/pdf?id=GQjaI9mLet

[3] 图动力学网络

https://openreview.net/forum?id=SHbhHHfePhP

[4] 层次动态网络

https://openreview.net/forum?id=ywxtmG1nU_6

[5] 基于3D构象扰动小分子预训练模型3D-EMGP

https://arxiv.org/abs/2207.08824

[6] 基于蛋白质三维结构的自监督预训练

https://ojs.aaai.org/index.php/AAAI/article/view/20636

[7] MDM: 用于3D分子生成的分子扩散模型

https://arxiv.org/abs/2209.05710

[8] 最优子集神经集合函数学习(NeurIPS 2022 Oral Presentation)

https://openreview.net/pdf?id=GXOC0zL0ZI

[9] 基于 p-Laplacian 的 GNN 架构 PGNN

https://proceedings.mlr.press/v162/fu22e.html

[10] 基于最优传输的图神经网络微调.

https://www.ijcai.org/proceedings/2022/0518.pdf

[11] 可信图学习:隐私保护,可靠性以及可解释性(KDD 2022 Tutorial). https://dl.acm.org/doi/abs/10.1145/3534678.3542597

[12] 图学习分布外泛化方法(NeurIPS 2022 Spotlight)

https://openreview.net/forum?id=A6AFK_JwrIW

[13] 不确定性感知的数据分布外拓(NeurIPS 2022 Spotlight)

https://ai.tencent.com/ailab/media/publications/UMIX:_Improving_Importance_Weighting_for_Subpopulation_Shift_via_Uncertainty-Aware_Mixup.pdf

[14] 高效无遗忘的测试时模型自适应

https://arxiv.org/abs/2204.02610

[15] 主动学习对分子特性预测的不确定性和多样性联合建模

https://openreview.net/forum?id=dnRSxTNIvjK

  • 视觉计算

[16] VideoMAE:基于掩码自编码器的视频自监督预训练

https://arxiv.org/abs/2203.12602

[17] LocVTP:用于时序定位的视频文本预训练

https://arxiv.org/abs/2207.10362

[18] 基于无监督预训练的时序动作定位

https://arxiv.org/abs/2203.13609

[19]VideoReTalking: 基于语音驱动嘴型同步的自然场景下说话视频编辑

https://dl.acm.org/doi/pdf/10.1145/3550469.3555399

[20] 基于预训练StyleGAN的单图高清可编辑表情迁移

https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136770086.pdf

[21] 基于GAN Inversion的高保真图像属性编辑

https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_High-Fidelity_GAN_Inversion_for_Image_Attribute_Editing_CVPR_2022_paper.pdf

[22] Deblur-NeRF: 模糊图像中恢复清晰神经辐射场

https://arxiv.org/abs/2111.14292

[23] 神经辐射场的时空光影流转

https://arxiv.org/abs/2111.15246

[24] HDR-NeRF: 高动态范围的神经辐射场

https://arxiv.org/abs/2111.14451

[25] FDNeRF: 用于面部重建和表情编辑的少量样本动态神经辐射场

https://arxiv.org/abs/2208.05751

[26] 动态人头编辑的神经参数化方法

https://arxiv.org/abs/2207.00210

  • 语音技术

[27] BSRNN:音乐源分离

https://arxiv.org/abs/2209.15174

[28] BSRNN:高保真语音增强

https://arxiv.org/abs/2212.00406

  • 自然语言处理

[29] 腾讯AI Lab的中英文词向量数据

https://ai.tencent.com/ailab/nlp/en/embedding.html

[30] 命名实体识别

https://aclanthology.org/2022.acl-long.497/

https://aclanthology.org/2022.acl-long.147/

[31] 无监督句法分析

https://arxiv.org/abs/2210.12309

[32] FOLNet: 基于一阶逻辑理论的自然语言理解和推理模型架构

https://openreview.net/forum?id=rGeZuBRahju

[33] KiC:知识驱动型半参数化语言模型

https://arxiv.org/abs/2210.16433

[34] Z-LaVI:基于视觉想象的零样本自然语言理解模型

https://arxiv.org/pdf/2210.12261.pdf

[35] 公开领域事件知识挖掘

https://proceedings.mlr.press/v162/zhang22am/zhang22am.pdf

https://arxiv.org/pdf/2210.06694.pdf

[36] MetaLogic: 超细粒度推理框架生成数据集

https://arxiv.org/pdf/2210.12487.pdf

[37] 基于对比框架的文本生成

A Contrastive Framework for Neural Text Generation | OpenReview

[38] 文本改写的评测方法

https://preview.aclanthology.org/emnlp-22-ingestion/2022.emnlp-main.208.pdf

[39] MCPG:灵活的多层可控无监督文本改写

MCPG: A Flexible Multi-Level Controllable Framework for Unsupervised Paraphrase Generation - ACL Anthology

[40] 重要性分布为指导的摘要生成

https://arxiv.org/pdf/2210.12330.pdf

[41] 长文本摘要技术

https://arxiv.org/abs/2210.16422

https://aclanthology.org/2022.acl-long.302.pdf

[42] 外部知识引入

https://aclanthology.org/2022.acl-long.547.pdf

[43] 情感抽取和使用

https://www.jair.org/index.php/jair/article/view/12802

[44] 基于上下文的对话改写

https://arxiv.org/abs/2206.11218

[45] 低资源对话数据增强

https://aclanthology.org/2022.acl-long.550.pdf

[46] 对话预训练模型

https://arxiv.org/abs/2210.12461

[47] 对话SQL语义分析

https://arxiv.org/abs/2210.12096

[48] 基于AMR的语义分析和符号化表达

https://arxiv.org/abs/2210.12445

https://aclanthology.org/2022.acl-long.199.pdf

[49] 多语言预训练

https://openreview.net/forum?id=ZkFuUac0Hc0

https://arxiv.org/abs/2210.13617

[50] 非自回归模型

https://openreview.net/forum?id=Zh4kJ4JOcHo

https://aclanthology.org/2022.coling-1.446/

[51] 低资源翻译

https://openreview.net/forum?id=WtlQ4cal2Y-

https://aclanthology.org/2022.findings-acl.35.pdf

[52] 交互方法

https://aclanthology.org/2022.acl-long.138.pdf

[53] 翻译记忆

https://arxiv.org/pdf/2212.03140.pdf

* 欢迎转载,请注明来自腾讯AI Lab微信(tencent_ailab)

腾讯AI Lab与Robotics X 2022年度回顾相关推荐

  1. 2022 ACM Fellow名单出炉,腾讯AI Lab俞栋成功入选

    感谢阅读腾讯 AI Lab 微信号第 162 篇文章.本文介绍腾讯 AI Lab 俞栋入选 2022 ACM Fellow. 1 月 19 日,美国计算机学会(ACM)宣布了 2022 年 ACM F ...

  2. 腾讯 AI Lab 2021 年度回顾

    感谢阅读腾讯AI Lab微信号第136篇文章.本文将进行2021年度回顾,祝大家新年快乐! 2021年,腾讯 AI Lab 迈入第 5 个年头.作为一个尚属「年轻」的实验室,在未知而广袤的科学世界中, ...

  3. 腾讯首位17级杰出科学家诞生:腾讯AI Lab负责人张正友

    2021年1月8日腾讯宣布,腾讯Robotics X实验室及腾讯AI Lab负责人张正友博士成为腾讯首位17级研究员/杰出科学家,17级是腾讯历史上最高的专业职级. 腾讯AI Lab及腾讯Roboti ...

  4. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

  5. 腾讯首位17级杰出科学家正式诞生!腾讯AI Lab负责人张正友博士获此殊荣

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 来源:鹅厂技术派 就在刚刚,鹅厂首位17级研究员/杰出科学家诞生,腾讯AI Lab及腾讯Rob ...

  6. CVPR 2022|处理速度仅用0.2秒!港科大腾讯AI lab开源基于GAN反演的高保真图像编辑算法...

    作者丨Tengfei Wang 来源丨港科大.腾讯 AI Lab 编辑丨极市平台 论文:https://arxiv.org/abs/2109.06590 代码:https://github.com/T ...

  7. 腾讯 AI Lab Robotics X 主任张正友博士:计算机视觉的三生三世 | CCF-GAIR 2019

    今年是中国人工智能四十年,在这四十年间发生了很多事情,听听张正友博士讲一讲计算机视觉的前世.今生和可能的未来. 雷锋网 AI 科技评论按:7 月 12 日-7 月 14 日,2019 第四届全球人工智 ...

  8. 5大AI主题,资助20-30项 | 2022腾讯AI Lab犀牛鸟专项研究计划开放申请中

    关注公众号,发现CV技术之美 本文来自腾讯AI Lab 腾讯犀牛鸟专项研究计划旨在连接产学智脑,搭建面向科技创新的产学研深度合作平台. 腾讯AI Lab犀牛鸟专项研究计划是首个犀牛鸟专项,于2017年 ...

  9. 腾讯AI Lab姚建华博士入选2022 AIMBE会士

    感谢阅读腾讯AI Lab微信号第140篇文章.本文将介绍腾讯AI Lab AI医疗首席科学家姚建华当选 2022 美国医学与生物工程院会士(AIMBE Fellow). 日前,美国医学与生物工程院(A ...

最新文章

  1. EXCEL基础篇(二)
  2. [目标检测] Faster R-CNN 深入理解 改进方法汇总
  3. DBA基础系列SQL Server 2014:2. SQL Server用户数据库初始化配置
  4. OpenMap教程第2部分–使用MapHandler构建基本地图应用程序–第1部分
  5. linux下僵尸进程(Defunct进程)的产生与避免
  6. 3个Gmail 邀请,先进先出!!
  7. 关于JFace中的右键菜单Action类,ActgionGroup类,MenuManager类
  8. 百度Android开发面试题
  9. java反编译之 基础篇(class未加密未混淆)
  10. IDEA构建JDK_1.8源码阅读环境过程详解
  11. seay源代码审计系统的使用方式
  12. efi文件错误服务器崩溃,电脑故障分析:Winload.efi文件丢失导致蓝屏的解决方法...
  13. python实现ftp_python实现ftp(客户端)
  14. 如何将pdf转化成word
  15. 将英文字符串转换为数字
  16. JQuery图片抽奖
  17. c# https请求忽略证书验证_C# httpwebrequest访问HTTPS错误处理方法
  18. 算法初步 计算机程序,算法初步-程序框图
  19. J2EE学习篇之--JQuery技术具体解释
  20. 『Flutter开发实战』一小时掌握Dart语言

热门文章

  1. Microphone回音问题分析
  2. 使用mpaas的iOS客户端如何一包支持任意环境切换(理论篇)
  3. 【vue生成二维码】1.将后端返回的二维码字符串生成二维码;2.下载功能
  4. 数据库面试题:Mysql如何进行死锁检测
  5. Pulsar Summit Asia 2020 | 英文专场:汇聚全球各地 Pulsar 开发者精彩(下)
  6. Java数据结构——邻接矩阵+邻接表
  7. 易百教程人工智能python修正-人工智能监督学习(回归)
  8. 省市区县街道乡镇级geoJson数据
  9. hive 指定字段插入数据_为hive增加列存储
  10. WebJars介绍及使用