MakeItTalk: 让图像开口说话！

点击上方“机器学习与生成对抗网络”，关注"星标"

获取有趣、好玩的前沿干货！

文自【机器之心】参与魔王

未经授权，不得二次转载

不仅让真人图像开口说话，油画、素描、漫画等都能动起来！

给出一张面部图像和一段音频，能做什么？AI 有办法，比如让图像中的人开口说话！

此前，机器之心报道过三星人工智能研究中心和伦敦帝国理工学院提出的新型端到端系统，仅凭一张人脸照片和一段音频，就可以生成新的讲话或唱歌视频。

最近我们发现了一项类似的研究，马萨诸塞大学阿默斯特分校、Adobe 研究院等机构提出了一种叫做 MakeItTalk 的新方法，不仅能让真人头像说话，还可以让卡通、油画、素描、日漫中的人像说话。

论文链接：https://arxiv.org/pdf/2004.12992v1.pdf

不信就来看看效果吧！

我们首先看一看真人图像的动态化效果。

看起来不错，那么卡通画呢？

给我一个插座，我能让他成精！

还有油画。

如果我想让图像中的人物摇头晃脑高谈阔论，或者保持沉静端庄呢？

答案是也可以实现。

动图 get 不到声画同步效果？请戳下面这个视频：

那么，这是如何做到的呢？

之前的方法往往学习音频和原始像素之间的直接映射进而创建人物的说话动态，而这项研究提出的方法将输入音频信号中的内容和说话人身份信息分离开来：音频内容用来稳健地控制嘴唇及周围区域的运动；说话人信息则决定面部表情的细节和人物的头部动态。

该方法的另一个重要组件是预测能够反映说话人动态的面部特征点。基于该中间表征，该方法能够为真人头部图像合成说话状态视频。此方法还可用于艺术作品、素描、2D 卡通人物、日漫、随手涂鸦等图像。

研究者对该方法进行了定量和定性评估，结果表明与之前的 SOTA 方法相比，该方法能够生成具备更高质量的说话状态头部动画。

图 8：与 SOTA 方法的对比。

研究贡献

该研究的主要贡献如下：

提出一种基于深度学习的新架构，能够仅基于语音信号预测面部特征点，捕捉嘴唇、下巴、眉毛、鼻子和头部的姿势；
基于分离开的语音内容和说话人表征生成包含面部表情和头部动态的动画；
针对矢量风格卡通图像和真实人物面部图像各提出一种图像合成方法。这些方法可以处理训练过程中未出现的新人脸图像和卡通人物图像；
提出一组定量度量指标，并对头部动画方法的评估进行了用户调研。

MakeItTalk 架构

图 2：MakeItTalk 方法概览。

如上图所示，给出一段音频和一张面部图像，MakeItTalk 架构可以生成说话人的头部状态动画，且声画同步。

在训练阶段，研究者使用现成可用的人脸特征点检测器对输入图像进行预处理，提取面部特征点。然后使用输入音频和提取到的特征点直接训练使语音内容动态化的基线模型。为了达到高保真动态效果，研究者尝试将输入音频信号的语音内容和说话人嵌入分离开来，进而实现面部特征点的预测。

具体而言，该研究使用声音转换神经网络将语音内容和说话人身份信息分离开。

语音内容与说话人无关，仅捕捉嘴唇及周围区域的运动（参见图 2「Speech Content Animation」）。说话人的身份信息则决定了动作的细节和说话人的其余头部动态（参加图 2「Speaker-Aware Animation」）。

例如，不管谁说单词「Ha!」嘴唇都会张开，这与说话人无关，仅取决于说话内容。而嘴唇的形状和张开的幅度，以及鼻子、眼睛和头部的动态则取决于说话人的身份。

基于语音内容和说话人身份信息，MakeItTalk 模型为给定音频输出预测特征点序列。

图 3：针对不同说话人身份的特征点预测。左：给定人脸图像的静态特征点；右上：对说话时头部动作较轻的人的预测特征点序列；右下：对说话时头部动作较大的人的预测特征点序列。

为了生成光栅图像，研究者开发了两种特征点-图像合成（landmark-to-image synthesis）算法。

对于非真人图像，如油画或矢量图（图 9），该研究使用基于德劳内三角剖分（Delaunay triangulation）的简单换脸方法。

图 4：通过面部特征点和德劳内三角剖分进行卡通图像换脸。左：给出的卡通图像和面部特征点；中：德劳内三角剖分；右：由预测特征点引导进行换脸后的图像。

对于真人图像（图 8），则使用图像转换网络（类似于 pix2pix）将真人面部图像和底层特征点预测动态化（参见上图 2「Image2Image Translation」）。

之后结合所有图像帧和输入音频，就可以得到最终的说话状态头部动画了。

下图 6 展示了卡通图像和真人图像的动态化结果：

图 6：MakeItTalk 生成的卡通动画和真人面部动画。该方法不仅可以合成面部表情，还可以合成不同的头部姿势。

MakeItTalk 有何实际用途？

合成说话状态头部动画有很多应用场景，比如配音。

下图 7a 中，原始视频使用语言为英语，而配音版使用的是西班牙语，那么问题来了，配音版影片中人物的面部表情和语音对不上号。使用 MakeItTalk 后可以生成语音对应的视频帧，实现声画同步，并保持原版视频中的说话风格。

另一个应用则是目前应用广泛的视频会议。

在有限带宽视频会议中，视频帧无法以高保真度和高帧率进行传输，这时我们就可以利用声音信号带动说话者的头部动态视频。与视觉画面相比，声音信号可以以较低的带宽保存。而且，面部表情（尤其是嘴唇动作）对于沟通交流非常重要。下图 7b 展示了，使用 MakeItTalk 仅基于音频和初始高质量视频帧合成的头部动态视频。

图 7：MakeItTalk 的应用。第一行：用不同语言为视频配音；第二行：有限带宽视频会议。

GAN&CV交流群，无论小白还是大佬，诚挚邀您加入！

一起讨论交流！长按备注【进群】加入：

更多分享、长按关注本公众号：

回复“ 29GAN ”，获取29篇经典GAN的论文！
回复“ GANCV ”，获取关于GAN在计算机视觉的应用导读30讲！
回复“ GAN起来 ”，获取350+篇GAN论文！
回复“ 虚拟换衣 ”，获取虚拟换衣的GAN论文！
回复“ 妆容迁移 ”，获取妆容迁移的GAN论文！
回复“ 超分GAN ”，获取GAN做超分的70篇论文！
回复“ 三把刀 ”，获取Python、PyTorch和DL神经网络电子书！
回复“ 分享1 ”，获取两本TF、PyTorch电子书！

MakeItTalk: 让图像开口说话！相关推荐

试用c51语言采样连续5次异常_学会这些自闭症儿童语言训练技巧，孩子开口说话不再困难...
对于大部分自闭症孩子来说,不会说话是最大的障碍,语言功能的无意识或者退化是他们区别于其他会自主发音孩子的特点. 如果训练自闭症孩子的语言发言,就需要通过对自闭症孩子口型模仿.气流训练.单音节以及长音的 ...
啊哈c语言答案1.3,啊哈C语言编程-第2课-让计算机开口说话
为什么会有计算机的出现呢?我们伟大的人类,发明的每一样东西都是为了帮助我们改善生活.计算机同样是用来帮助我们的工具.想一想,假如你现在希望让计算机帮助你做一件事情,你首先需要做什么?是不是要先与计算机 ...
电脑说话,我家的电脑成精了！它开口说话了
我家的电脑开口说话了!!!开机的时候把小编吓得语无伦次!难道我家的电脑这么多年终于成精了???那是不是以后的工作它都会自己做了不用我动手了???咳咳--自己工作是不太可能啦,不过它真的说话了!这是怎么 ...
职场修炼--你开口说话的境界在第几层？
转载手记----呵呵,这边文章写得很棒!转载以警戒自己. 开口说话,看似简单,实则不容易,会说不会说大不一样.古人云:"一言可以兴邦,一言也可以误国."苏秦凭三寸不烂之舌而身挂六国 ...
c语言让电脑开口,C语言编程之《让计算机开口说话》
为什么会有计算机的出现呢?我们伟大的人类,发明的每一样东西都是为了帮助我们人类,改善人类的生活.计算机同样是用来帮助我们人类的工具.想一想,假如你现在希望让计算机来帮助你做一件事情,首先你需要做什么? ...
华为云EI工业智能体2.0，让工业“Know How”开口说话
毫无疑问,过去几年国内工业互联网迎来了跨越式发展的新周期.数据显示,目前国内工业互联网平台类产品数量已高达269个,超过了国外工业互联网平台总和,在269个平台类产品中由制造企业构建的工业互联网平台占 ...
C语言编程之《让计算机开口说话》
为什么会有计算机的出现呢?我们伟大的人类,发明的每一样东西都是为了帮助我们人类,改善人类的生活.计算机同样是用来帮助我们人类的工具.想一想,假如你现在希望让计算机来帮助你做一件事情,首先你需要做什么? ...
让计算机开口说话教案,生活创客系列教学设计：第十三节利用讯飞语音合成技术让掌控板开口说话 —掌控板与讯飞语音合成...
一.项目内容项目背景:在同学们的作品中,都用到了物联网.同学们又提出了问题:联网后,同伴发来了文字信息,但我们不可能长期看着掌控板的屏幕,咋办?能否让掌控板把文字朗读出来? 可以!今天,我们就一起尝 ...
杜甫在线演唱《奇迹再现》、兵马俑都能开口说话……微博网友用AI技术分分钟打破次元壁...
鱼羊发自凹非寺量子位报道 | 公众号 QbitAI 霍格沃茨的同学们都知道,想要进入格兰芬多休息室,得先过胖夫人这一关. 所以,会说话的照片/画像它科学吗? 其实,在AI时代的麻瓜世界里,这早 ...

MakeItTalk: 让图像开口说话！

MakeItTalk: 让图像开口说话！相关推荐

最新文章

热门文章