2021-03-05 17:52:16

2月28日,人工智能顶级会议CVPR 2021(国际计算机视觉与模式识别会议,Conference on Computer Vision and Pattern Recognition)公布论文录取结果,网易伏羲共有3篇论文入选。

其中,由网易伏羲虚拟人团队发表的一项研究颇为引人关注。该研究提出了一种人类表情编码的创新提取方法,大幅提升了AI感知人类表情的精度。随着该技术的发展,未来,AI感知人类表情的能力甚至有望超越人类感知平均水平。

这一技术的应用场景十分广泛,包括测谎、性格评估、自闭症检测、表演能力评估等众多与人脸表情相关的领域。

过去,学术界对人类表情的识别和描述,一般源于两种传统理论:一种源自150年前的达尔文时期,学者们从心理学出发,基于高兴、惊讶、生气、悲伤等有限的情绪类别描述人类表情;另一种起源于上世纪70年代末,知名心理学家Paul Ekman博士从解剖学角度出发,基于人脸肌肉运动,用27种动作单元来描述人类表情。

从数量上看,传统理论对人类表情的描述极为有限。网易伏羲的人类表情编码提取方法,则以人工智能的方式进一步突破了这一瓶颈。通过学习大量的人脸表情数据,AI可以无穷尽、无上限地感知人类表情。

为了让AI更懂人类的喜怒哀乐,技术人员还需要大量细颗粒度、人工标注的人脸表情数据用于算法参数迭代,进一步提升表情编码的精度。为此,网易伏羲正在开发一个游戏化标注小程序,让普通用户能够在游戏的过程中,轻轻松松地参与表情标注,加速推进人类表情领域的人工智能研究与应用。

网易伏羲成立于2017年,是国内从事游戏与文创AI研究和应用的顶尖机构,研究方向包括强化学习、图像动画、自然语言、虚拟人、用户画像、大数据平台等领域。据了解,此次CVPR中稿论文展示的部分科研成果,已经在网易多个产品中成功落地。未来,网易伏羲将继续以技术落地为导向,用科研成果推动产品创新。

附:网易伏羲三篇入选CVPR2021论文简介

1、《去ID信息的表情编码》

(Learning a Facial Expression Embedding Disentangled from Identity)

论文简介:

本文研究的主要目的,是获取一种紧致的,且与ID信息无关的人脸表情表征。

本研究中,网易伏羲虚拟人团队首次提出,将表情特征建模为从ID身份特征出发的一个差值向量,以这种显式方式去掉ID的影响。为此,本研究设计了一个伪孪生结构的网络去学习这种差值。同时,为了加强网络在深层的学习能力,本研究通过高阶多项式的方法替代一般的全连接层去完成从高维到低维的映射。另外,考虑到不同标注者存在一定标注噪音,本研究增加了众包层学习不同标注者的偏差,使学习到的表情表征更加鲁棒。

定性和定量的实验结果表明,该方法在FEC数据集上超越了前沿水平。同时在情绪识别、图像检索以及人脸表情生成等应以用上都有不错的效果。

下图展示了该工作的表情表征编码的效果,输入一张检索(Query)表情,通过比较表情编码的距离,从一个足够大的人脸数据集中检索出与之最相似的一些表情(Results),下图中展示了TOP5的结果。

由图可知,所检索出来的图像和目标表情非常接近,说明本研究提出的表情表征编码可以感知微妙且精细的表情。

2、《基于稠密运动场的高清说话人脸视频生成》

(Flow-based One-shot Talking Face Genaration with a High-resolution Audio-visual Dataset)

论文简介:

One-shot说话人脸合成的目的,是给定任意一张人脸图像和任意一段语音,合成具有语音口型同步、眉眼头动自然的高清说话人脸视频。之前工作合成的视频分辨率之所以一直受到限制,主要有两个原因:1、目前没有合适的高清视听数据集。2.之前的工作使用人脸特征引导人脸图像合成,而对于高分辨率图像来说特征太稀疏。

为了解决上述问题,本研究首先收集了一个无约束条件下(in-the-wild)的高清人脸音视数据集YAD,该数据集比之前无约束条件下的数据集更加高清,也比之前实验室环境下(in-the-lab)数据集包含有更多的人物ID。

基于高清数据集YAD,本研究借助三维人脸重建(3DMM)将整个方法分成表情参数合成和视频图像合成两个阶段;在表情参数合成阶段中,使用多任务的方法合成嘴唇运动参数、眉眼运动参数和头部运动参数。在视频图像合成阶段,则使用稠密运动场替代人脸关键点引导人脸图像生成。定性和定量结果表明,与之前的工作相比,本研究可以合成更加高清的视频。以下二图分别展示方法的流程图和视频合成效果。

3、《神经风格画笔》

(Stylized Neural Painting)

论文简介:

网易伏羲与密歇根大学合作研究,提出了一种图像到绘画的转换方法。该方法可以生成风格可控、生动逼真的绘画作品。不同于神经风格迁移方法,网易伏羲在参数化的条件下处理这种艺术创作过程,并产生一系列具有物理意义的画笔参数。

由于经典的矢量渲染是不可微的,因此我们设计了一种全新的神经可微渲染器。它可以模仿矢量渲染器的行为,然后将画笔预测转换为参数搜索过程,即最大化输入与渲染输出之间的相似度。

实验表明,通过该方法生成的绘画在整体外观、局部纹理上都具有很高的保真度;该方法也可以与神经风格迁移共同优化,后者可以进一步迁移其他图像的视觉样式。

网易伏羲三项研究入选CVPR:AI感知表情能力将达到人类水平相关推荐

  1. 网易伏羲论文入选 CVPR:AI 感知表情能力或实现巨大突破!

    出品 | AI科技大本营(ID:rgznai100) 2月28日,人工智能顶级会议CVPR 2021(国际计算机视觉与模式识别会议,Conference onComputer Vision and P ...

  2. 厉害了,网易伏羲三篇论文上榜 AI 顶会 ACL

    近日,国际AI顶尖学术会议ACL 2021(Annual Meeting of the Associationfor Computational Linguistics)公布了论文录用结果.网易伏羲共 ...

  3. 斯坦福大学研究人员利用AI生成表情包

    内容来源:ATYUN AI平台 目前,人工智能可以做许多事情,比如从2D图片生成物体的3D模型,击败面部识别系统或识别野生动物,现在它也能生成表情包了. 在"Dank Learning(论文 ...

  4. 人工智能顶会AAAI 2023放榜!网易伏羲7篇论文入选

    近日,第37届国际顶级人工智能学术会议 AAAI Conference on Artificial Intelligence(简称AAAI)揭晓了论文接收结果,网易伏羲实验室共有7篇论文入选.作为人工 ...

  5. 自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 | AI日报

    自然语言处理顶会COLING 2020最佳论文等三项大奖出炉 12月8日至13日,第28届国际计算语言学会议(COLING 2020)在线上正式举行. 计算语言学国际会议COLING 2020(是计算 ...

  6. 论文浅尝 | AI回答小学科学问题达到人类水平(OpenBookQA)

    转载公众号 | 南大Websoft AI能否像人类一样学习掌握科学知识,理解运用常识知识,最终像人类一样参加并通过学科考试?近日,南京大学万维网软件研究组(Websoft)在人工智能评测集OpenBo ...

  7. 用AI实现隔墙“透视”,准确率达97%,这家中国公司研究入选CVPR

    晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 试想一下,自动驾驶汽车行驶到了拐弯处,即使激光雷达再强大,也无法探测到建筑物后的有什么事情发生,如果是突然有行人冲出来,后果不堪设想. 其 ...

  8. 飞步科技三篇论文入选CVPR 2022

    关注公众号,发现CV技术之美 本文转载自飞步无人驾驶 在即将举行的计算机视觉国际顶级会议CVPR 2022中,飞步科技被录用了三篇高水平论文,涉及车道线检测.3D目标检测.少样本分类等与无人驾驶密切相 ...

  9. 香港科大三项研究登榜2020年度香港十大创科新闻

    由京港学术交流中心举办,获得香港八所大学响应支持的"2020年度香港十大创科新闻"近日完成评选.经过院校推选.十余位在港两院院士组成顾问小组协助筛选名单,然后由两千名公众选出&qu ...

最新文章

  1. Android 启动模式简介
  2. DIV+CSS两种盒子模型(W3C盒子与IE盒子)
  3. Netflix 付费用户达2亿、苹果VR眼镜、抖音电子钱包、虚幻引擎用于电影制作等|Decode the Week...
  4. RabbitMQ 安装操作
  5. [css] 如何修改美化radio、checkbox的默认样式?
  6. IOS – OpenGL ES 调节图像单色 GPUImageMonochromeFilter
  7. 在VS2005下搭建和使用CppUnit
  8. Android OpenGL ES 应用(二) 纹理
  9. KOFLive Beta Daily-Scrum 2
  10. 一个项目部署多个节点会导致锁失效么_不为人知的分布式锁实现,全都在这里了
  11. 关于struct和class的知识
  12. php操作sqlserver视频教程,SQLServer数据库基础视频教程下载
  13. 联想键盘F1-F12的切换
  14. maven ojdbc6和ojdbc8 jar包下载地址
  15. Sensor信号输出YUV、RGB、RAW DATA、JPEG 4种方式区别---转
  16. android 获取经纬度的三种方法,Android中如何获取经纬度
  17. avformat_seek_file函数介绍
  18. ElasticSearch高级功能的使用(模版查询、地理位置查询等)
  19. jQuery动画slideUp()不正常位移原因
  20. 文章的DOI号是神马

热门文章

  1. Windows server 2003 DNS 全攻略(一)
  2. 一个在windowsXP启动linux as(grub引导)的简单方法
  3. 用Python解“爬动的蠕虫”题
  4. c++ 窗体上输出文字_C/C++经典面试题
  5. linux安全体系分析与编程pdf下载,linux内核printk调试(摘录《Linux安全体系分析与编程》)...
  6. np.eye()的函数能将一个label数组,大小为(1,m)或者(m,1)的数组,转化成one-hot数组
  7. JTABLE加滚动条
  8. JAVA 文件读写大全
  9. 保存Java程序状态及设置Properties文件
  10. 采用SpringBoot、MyBatis-Plus 、Security框架,开发的一套权限系统,实现前后端分离,完善的代码生成机制