来源:腾讯AI实验室  编辑:梓涵

2018 年是颇具意义的一年,以“Make AI Everywhere”为愿景,我们在医疗、农业和公益等 AI 应用领域取得不错进展,也正在通过游戏和机器人等实验平台探索解决 AI 终极难题——通用人工智能——的道路。

展望 2019 年,我们将继续通过前沿研究提升 AI 的认知、决策和创造力,深耕行业,拥抱消费互联网与产业互联网,做好“数字化助手”标配,提供更好的技术、工具与服务,为人们的日常生活和社会发展带来更多美好便利。

以下是我们对腾讯 AI Lab 在 2018 年重点工作的回顾,也预祝大家新春安康吉祥。

行业应用科技向善

我们在 2018 年完成了一些很有意义的项目,如“图片语音即时描述”技术,让机器充分理解图像内容后,将其“翻译”成语句,让视障者使用 QQ 空间时,能听到对图片的描述,实时了解朋友动态。通过提供这一系列信息无障碍技术,腾讯今年获得了联合国教科文组织颁发的“”。

第二个例子是显微镜的进化,我们在这种古老而重要的医疗器械中加入了 AI 与 AR 技术,让机器自动识别、检测、定量计算和生成报告,并将检测结果实时显示到医生所看目镜中,在不打断医生阅片的同时及时提醒,提高医生的诊断效率和准确度。今年我们还会继续通过“腾讯觅影”产品深入探索 AI+ 医疗的应用,目前图像处理技术已用在食管癌、肺癌、糖尿病性视网膜病变等疾病的早期筛查上,语言和语音处理技术也用于智能导诊和辅诊上。

AI 技术落地

腾讯智能显微镜

我们还在“AI+ 农业”迈出了一小步——一个很会“种”黄瓜的 AI。在荷兰举办的国际 AI 温室种植大赛里,我们利用传感器和摄像头自动收集温室气候、作物发育情况等环境和作物数据,再用深度学习模型计算、判断和决策,驱动温室的设备元件,远程控制黄瓜生产,最后获总比分第二、AI 策略第一的成绩,还开心收获了 3496 公斤黄瓜。

在腾讯视频中,我们提供了超分辨率和视频分类的技术。此外,我们还探索了对视频内容的深度理解、编辑与生成。比如,让机器深度分析一个视频,识别其中人物、物体、场景,并分析它们的关系,并在时间顺序识别视频中不同的动作和事件,产生能表达出视频丰富语义信息的语句。

而在视频生成上,我们研究的视频运动信息迁移技术,在给到几张人物A的静止图片后,能让A模仿人物B的舞蹈动作,从静止到“动”起来。

前沿难题深度探索

定义下一代的智能交互 - 3D 虚拟人

我们通过多个部门的共同研究,合作推进了“多模态人机交互”这一前沿课题。我们将计算机视觉、自然语言处理、语音技术有机结合在一起,辅以一定的情绪认知、分析决策能力,赋予虚拟人看、听、想、说的多模态输入和输出能力,以实现更自然、逼真、风格鲜明、千人千面的人机交互体验。我们已经实现了整套技术方案的打通,并有望探索新的产品形式。

以游戏为实验平台,求解“通用人工智能”难题

游戏是 AI 研究的传统实验场,从 2016 年研发围棋 AI“绝艺”起,我们不断利用这块实验沃土,探索迈向通用人工智能的道路。2018 年,我们收获颇丰,而此类探索还将继续下去。

我们与王者荣耀及王者荣耀职业联赛共同探索的前沿研究项目——策略协作型 AI“绝悟”——首次亮相 KPL 决赛,与人类战队(超过 99% 玩家)进行 5V5 水平测试并取得胜利。我们使用了监督学习方法,模拟人类决策方法的算法模型兼具了大局观与微操能力,并在此基础上研发多个有针对性的强化学习训练模型,有效提升了 AI 团队协作能力。

此外,我们的深度强化学习智能体还在《星际争霸 II》战胜了 Level-10 内置 AI,还与清华大学合作拿下了 FPS 射击类游戏 AI 竞赛 VizDoom 赛事历史上首个中国区冠军。

以机器人为载体,让虚拟连接现实

我们还成立了企业级机器人实验室“腾讯 Robotics X”,构建 AI+ 机器人双基础部门,打造虚拟世界到真实世界的载体与连接器。比如,我们从 0 到 1 实现了机械手从虚拟到现实的迁移,通过搭建满足各种物理属性的高逼真模拟器,支持多种强化学习算法,并能和机械臂和灵巧手的实体硬件接口兼容,通过新提出的 DHER 算法训练抓取、搭积木、端茶倒水等虚拟任务。我们还将其成功迁移到了现实世界中。

另外,在新建成的腾讯深圳总部展厅里,我们还完成了“绝艺”围棋机器人、桌上冰球和与浙江大学合作的机械狗等展示项目,体现了机器人的本体、控制、感知、决策方面的能力。

开源协同多方合作

除了发表论文公开研究成果,我们也通过代码和数据开源将腾讯积累的技术能力(尤其是 AI 能力)共享给整个行业,并希望以此促进行业生态的共同发展和繁荣。

2018 年 10 月,我们开源了业内最大规模的多标签图像数据集,其中包含了 1800 万图像和 11000 种常见物体类别。此外我们还提供了从图像下载和图像预处理,到基于 ML-Images 的预训练和基于 ImageNet 的迁移学习,再到基于训练所得模型的图像特征提取整个流程的代码和模型。截至目前已在 GitHub 获 2000 星和 2000+ 次下载。

我们还在 10 月份开源了一个大规模、高质量的中文词向量数据集,其中包含 800 多万中文词汇,在覆盖率、新鲜度及准确性上都优于之前的数据集。

11 月,我们开源了一个自动化深度学习模型压缩与加速框架 PocketFlow,其中整合了多种模型压缩与加速算法,并能利用强化学习自动搜索合适的压缩参数。我们希望该框架能降低模型压缩的技术门槛,赋能移动端 AI 应用开发。

在高校合作方面,我们与麻省理工、牛津、斯坦福、港科大、清华和哈工大等全球知名高校的教授联合研究,并通过专项研究计划、访问学者计划、青年学者基金、联合实验室等多种方式,共探学术前沿领域,并迅速将研究应用到腾讯云、腾讯开放平台等多个业务中。

基础研究推动边界

我们基础研究方向主要为四个:机器学习、计算机视觉、语音处理和自然语言处理。2018 年,我们有超过 150 篇学术论文发表在各大顶级学术会议上,如 NeurIPS、ICML、CVPR、ECCV、ACL、、InterSpeech 和 ICASSP 等,位居国内企业前列。

未来,我们将继续关注前沿领域的研究课题,推进跨学科、多模态、交叉研究课题探索,以开放、合作和共赢的态度,不断探索研究的边界。

机器学习

学习能力,是区分智能机器和普通自动化机器的核心技能之一,也是迈向通用人工智能(AGI)的必备技能。我们的研究涵盖了强化学习、迁移学习、模仿学习、优化算法、弱监督和半监督学习、对抗学习和多任务学习等。

我们探索了自动化机器学习(AutoML)的可能性,这是当前机器学习领域的前沿探索方向之一。比如,我们提出了一种基于数据分布迁移的超参优化算法[1]。该方法利用分布相似度来迁移不同数据对应的超参优化结果,从而能对新数据的超参优化起到热启动的效果。我们还进一步研发了 FastBO 算法,并发现其在医疗和游戏等多个场景上有比人工调参更好的效果。

针对多任务问题,我们提出了一种学习框架 L2MT[2],能自动发掘一个最优的多任务学习模型;我们还提出了一种用学习迁移实现迁移学习的方法 L2T[3],能显著降低迁移学习的计算成本和所需的领域知识。

L2MT 框架

我们也为强化学习提出了一些改进方法,比如提出一种描述如何从环境和任务来组成强化学习策略的元规则部件神经网络,实现了自适应于不同环境、不同任务的合成策略[4]。我们还尝试用演示来提升强化学习的探索效果(POfD)[5]及使用联网智能体的完全去中心化多智能体强化学习[6]。

在计算机安全和社会安全上,我们研发的自动特征学习、群分类和图特征增强方面的算法,能成功识别和对抗黑产用户、涉黑群体和恶意用户(标记覆盖率超 90%),还能精准识别有信贷风险的用户,帮助防控金融风险。

计算机视觉

计算机视觉技术有非常广泛的应用前景,是智能医疗、自动驾驶、增强现实、移动机器人等重要应用的不可或缺的一部分。我们不断寻找赋予机器更强大视觉能力的方法,以实时、稳健和准确地理解世界。

2018 年,我们的探索包括结合相机与其它传感器数据实现 3D 实时定位[1]、结合传统时空建模方法(MRF)与深度学习方法(CNN)来跟踪和分割视频中的物体[2],及一些在视频描述生成任务上的新方法[3]。我们还定义了一种名为视频重定位(Video re-localization)[4]的新任务,可在某段长视频中查找与指定视频语义相关片段。我们也为视频中的运动表征提出了一种端到端的神经网络 TVNet[5]。

除了帮助机器理解世界,我们也在探索视频生成方面的技术,比如我们提出了一种自动生成延时摄影视频的解决方案[6],可以通过预测后续的图像帧来呈现可能发生的动态变化。我们也探索了多阶段动态生成对抗网络(MD-GAN)[7]在这一任务上的应用。

MD-GAN 框架

语音处理

我们的语音解决方案已经在腾讯的听听音箱、极光电视盒子和叮当音箱等产品中得到应用。2018 年,我们又提出了一些新的方法和改进,在语音增强、语音分离、语音识别、语音合成等技术方向都取得了一定进展。

语音唤醒上,我们针对误唤醒、噪声环境中唤醒、快语速唤醒和儿童唤醒等问题,提出了一种新的语音唤醒模型[1],能显著提升关键词检测质量,在有噪声环境下表现突出,还能显著降低前端和关键词检测模块的功耗需求。我们还提出了一种基于 Inception-ResNet 的声纹识别系统框架[2],可学习更加鲁棒且更具有区分性的嵌入特征。

左:基准关键词检测架构右:文本依赖型语音增强架构

语音识别上,我们的解决方案是结合了说话人特征的个性化识别模型,能为每位用户提取并保存个性化声学信息特征。随用户数据积累,个性化特征自动更新,用户识别准确率能显著提升。另外,我们还创新地提出了多类单元集合融合建模方案,这是一种实现了不同程度单元共享、参数共享、多任务的中英混合建模方案。这种方案能在基本不影响汉语识别准确度的情况下提升英语的识别水平。我们仍在噪声环境、多说话人场景[3]、“鸡尾酒会问题”[4]、多语言混杂等方面继续探索。

语音合成是确保机器与人类自然沟通的重要技术。腾讯在语音合成方面有深厚的技术积累,开发了可实现端到端合成和重音语调合成的新技术。腾讯 AI Lab 2018 年在语调韵律变化[5]、说话风格迁移[6]等任务上取得了一些新进展。

自然语言处理

腾讯 AI Lab 在自然语言处理方面有广泛而又有针对性的研究,涉及文本理解、文本生成、人机对话、机器翻译等多个方向。

我们训练的模型在多个阅读理解类数据集上位居前列,如 CMU 大学的 RACE、ARC (Easy/Challenge)及 OpenBookQA 等。

在神经网络机器翻译方面,我们通过改进当前主流翻译模型中的多层多头自注意力机制[1]和提出基于忠实度的训练框架[2],改善其核心的译文忠实度低的问题。我们还针对口语翻译中代词缺省的问题提出了一种联合学习方法[3],以及探索如何将外部的翻译记忆融入神经网络翻译模型[4]。

我们还发布了一款 AI 辅助翻译产品[5],向人工翻译致敬。它采用业内领先的人机交互式机器翻译和辅助翻译输入法技术,配合亿级双语平行数据,为用户提供实时智能翻译辅助,帮助用户更好更快地完成翻译任务。作为笔译工具的未来形态,目前这个产品已经进入了很多高校翻译课堂。

我们研究了文本和对话生成,提了出一种基于强化学习框架的回复生成模型[6],对于同一个输入能够自动生成多个不同的回复;一种跨语言神经网络置信跟踪框架 XL-NBT[7]在实现跨语种对话系统方面有重要的实际应用潜力(比如多语种自动客服)。此外,我们还为自动回复的多样性对条件变分自编码机进行了改进[8]。

基于强化学习的回复生成模型

值得一提的是我们将中国古典文化与现代技术的结合方面的探索。我们在 2018 年春节期间推出了腾讯 AI 春联,可根据用户提供的两个汉字生成一副春联。我们还探索了创造机器诗人的问题,提出一种基于对抗条件变分自编码器的诗歌生成方法(CVAE-D)[9],在主旨一致性和用词的新颖性上取得了不错的进展。

展望未来

近三年时间里,腾讯 AI Lab 相继成立了深圳及美国西雅图实验室,目前团队有 70 多名顶尖 AI 科学家及 300 多位经验丰富的工程师,专注四大研究方向。

产业落地上,AI Lab 将与新成立的“腾讯 Robotics X”机器人实验室担当前沿技术双基础部门,深耕产业,拥抱消费及产业互联网,做好技术标配。

前路漫漫,道阻且长,我们将继续前行,以科技点亮人文之光。

END

听说转发文章

会给你带来好运

腾讯AI Lab全年成绩单:让AI能救命也能种地相关推荐

  1. 腾讯AI Lab:深度解读AI辅助翻译的研究及应用

    11月13日,深圳 - 腾讯AI Lab今日发布了一款AI辅助翻译产品 - "腾讯辅助翻译"(Transmart),可满足用户快速翻译的需求,用AI辅助人工翻译提高效率和质量.该产 ...

  2. 腾讯AI Lab 2020年度回顾:科技向善,迈向通用人工智能

    来源:腾讯AI Lab 刚刚过去的 2020 年算不上是平静的一年.贯穿全年的新冠肺炎疫情仍未平息,各类偶发事件也层出不穷.即便如此,秉承「科技向善」信念和「Make AI Everywhere」愿景 ...

  3. 腾讯首位17级杰出科学家诞生:腾讯AI Lab负责人张正友

    2021年1月8日腾讯宣布,腾讯Robotics X实验室及腾讯AI Lab负责人张正友博士成为腾讯首位17级研究员/杰出科学家,17级是腾讯历史上最高的专业职级. 腾讯AI Lab及腾讯Roboti ...

  4. 腾讯AI Lab刘霁谈机器学习,异步计算和去中心化是两大杀器

    本文转载自「AI科技评论」,搜索「aitechtalk」即可关注. 编者按:并行计算是提高计算机系统计算速度和处理能力的一种有效手段.它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解 ...

  5. 腾讯 AI Lab 2021 年度回顾

    感谢阅读腾讯AI Lab微信号第136篇文章.本文将进行2021年度回顾,祝大家新年快乐! 2021年,腾讯 AI Lab 迈入第 5 个年头.作为一个尚属「年轻」的实验室,在未知而广袤的科学世界中, ...

  6. 腾讯AI Lab与北京协和医院联合发布国产手术导航系统

    感谢阅读腾讯AI Lab微信号第149篇文章.本文介绍腾讯 AI Lab 联合北京协和医院共同发布便携式智能化手术导航系统. 7月5日,腾讯 AI Lab 联合北京协和医院,共同发布了具有有完全自主知 ...

  7. 腾讯AI Lab披露可信AI研究进展,解读20余项原创工作

    感谢阅读腾讯AI Lab微信号第142篇文章.本文将介绍腾讯AI Lab在「可信AI」和科技向善的探索和最新研究成果. 近年来,人工智能算法被广泛地应用到医疗.金融.工业生产等多个重要领域,这些算法在 ...

  8. ICLR 2022 | 绝艺学会打麻将,腾讯AI Lab提出全新策略优化算法ACH

    感谢阅读腾讯AI Lab微信号第144篇文章.本文介绍「绝艺」在二人麻将游戏环境取得的进展,相关算法及benchmark已开源,论文被机器学习国际顶会 ICLR 2022 接收. 「绝艺」是腾讯AI ...

  9. 腾讯首位17级杰出科学家正式诞生!腾讯AI Lab负责人张正友博士获此殊荣

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 来源:鹅厂技术派 就在刚刚,鹅厂首位17级研究员/杰出科学家诞生,腾讯AI Lab及腾讯Rob ...

最新文章

  1. C# 中的委托和事件
  2. 【Java 并发编程】线程池机制 ( ThreadPoolExecutor 线程池构造参数分析 | 核心线程数 | 最大线程数 | 非核心线程存活时间 | 任务阻塞队列 )
  3. 【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )
  4. FZU 1061 矩阵连乘
  5. VINS-Mono关键知识点总结——预积分和后端优化IMU部分
  6. java的问题_Java的问题
  7. 洛谷 P3381 【模板】最小费用最大流
  8. 2018-2019-2 20165209 《网络对抗技术》Exp4:恶意代码分析
  9. Linux 系统版本查询
  10. 隐藏与显现_惠州楼盘冷热不均价格涨跌互现 差异化调控作用显现
  11. 计算机系统三员试题,2013年计算机软考程序员试题及答案3
  12. 【计算机网络自顶向下方法】(哈工大)学习笔记
  13. Kinect_人脸识别
  14. COOC6.2增加同义词合并无意义词删除等功能
  15. JAVA 查找PDF中落款单位所在页码及位置信息
  16. 百度女程序员半夜打车被司机嘲讽:加班到一点,收入不如我,图啥
  17. useragent怎么获取
  18. 计算机作品二等奖——魔幻镜像
  19. 云e办学习笔记(十六)Redis集成菜单
  20. Nginx的简单使用,配置多前端,多端口【微信小程序+前后端分离跨域解决】

热门文章

  1. 搞IT的到底怎么了 . .
  2. dedecms v5.7 整合discuz x3.2 双向同步登录退出(2016年4月2号)
  3. Python之Django实例--sysinfo项目搭建(中文版 Linux 服务器信息查看应用)
  4. 嵌入式linux学习笔记--sysinfo获取linux的开机时间
  5. 富文本编辑器 输出在线html_一个在线实时预览代码编辑器的实现
  6. MySQL之初始化配置
  7. 基于JAVA印染公司信息管理系统计算机毕业设计源码+系统+数据库+lw文档+部署
  8. swust oj 1042: 中缀表达式转换为后缀表达式
  9. Hi,运维,你懂Java吗-No.3:java系统的启动
  10. windows目录下文件详解