点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

转自 | 新智元

来源 | Reddit

编辑 | 好困

除了在顶会或者期刊上发表过的,一般人基本都会把自己的毕业论文「雪藏」起来。然而,有这么一位研究生不仅把自己的论文发了出来,还表示自己用1080Ti训练的比SOTA模型更厉害。

大厂用成千上万张显卡训练的SOTA模型已经看腻了?这次我们来看看「小作坊」训练的模型如何。

慕尼黑大学的研究生做了一个Deep Fake模型,只用了300万个参数和一个1080Ti,搞定!堪比SOTA!

虽然作者是这么说的,但是从他发布的成果上来看,有些一言难尽。

左边是原本的视频,右边是提供声音的素材,中间是生成的Deep Fake视频

由于样本只提供音频素材,所以声音还是样本的声音,听起来违和感简直要溢出屏幕了。好在不会出现像其他一些视频那样把整张脸贴上去那么搞笑。

网友用FakeAPP生成的视频

作者表示,和一些SOTA模型相比,论文的方法除了具有较低的嘴唇同步误差,同时在图像质量方面要优于所有方法。

从左到右依次是:原视频,文章的方法, Neural Voice Puppetry,Wav2Lip和Wav2Lip GAN

全连接网络就够了

模型基于3D可变形人脸模型 (3DMM),并具有 3D 面部的位置编码和从英语语音中提取的音频特征。

对于给定的语音,模型可以预测中性空间的RGB颜色和3D顶点位移。音频特征向量过滤的时间稳定性可以提供平滑的唇音同步。

文章表示,模型可以接受任意音频输入,并生成逼真的面部图像。

模型首先提取梅尔频率倒谱系数(MFCC)特征,音频的嵌入由Wav2Lip编码器生成。

然后,变形(deformation)网络输出人物面部形状的网格,且不受3DMM的限制,并在之后利用恒等函数对3D形状进行优化。

最后,由音频驱动的图像由颜色(color)网络输出。

为了将输出图像嵌入到背景中,需要单独训练另一个基于背景和先前输出的合成网络。

模型每个部分的输出,从左至右:变形网络、颜色网络、合成网络

再来一个例子,从左至右依次是:原始的视频,渲染后的视频,仅用于获取音源的视频。

网友表示:你这个不行啊

对于项目本身,评价基本是负面的。

「那么,这与在奥巴马的静音视频上播放音频的结果有什么不同呢?」

「奥巴马的嘴唇似乎并没有遵循着说话的轨迹」

不仅如此,对于Deep Fake这类的研究,网友普遍对其伦理道德方面表示担忧。

「有时我想到这些技术是如何被滥用的,这让我对未来感到有点难过」

「它不仅会陷害无辜者,也会为有罪者提供合理的推诿」

「所以你决定既要改进deep-fake,又要使用凯文-史派西(有道德污点)。你基本上是每个人工智能伦理学家最糟糕的噩梦。」

这件事从另一个方面告诉我们,不要把自己的毕业论文发出来,难道来自导师的嘲讽还不够么????

论文地址:

https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0

参考资料:

https://zielon.github.io/face-neural-rendering/

点个在看 paper不断!

1080Ti 就搞定最新 SOTA 模型?一个普通研究生勇敢发毕业论文引起热议相关推荐

  1. NER任务最新SOTA模型W2NER

    目录 一.模型简介和思想 二.模型结构 第一部分encoder层 第二部分Convolution Layer卷积层 第三部分Co-Predictor Layer联合预测层 三.模型代码解读 模型输入 ...

  2. 最新SOTA模型和实现代码

    3000+数据集检索,分类工具,外加SOTA代码实现. 前段时间,学术圈的"图片误用",也是给我整蒙了.本来不想表达意见的,这不看到AI领域欣欣向荣的场景,唠唠嗑吧. 知道卷,一直 ...

  3. 开源教程 「nlp-tutorial」!用百行代码搞定各类NLP模型

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 参与:思源.贾伟   来源:机器之心 NLP 的研究,从词嵌入到 CNN ...

  4. lstm代码_贼好理解,这个项目教你如何用百行代码搞定各类NLP模型

    机器之心报道 参与:思源.贾伟 NLP 的研究,从词嵌入到 CNN,再到 RNN,再到 Attention,以及现在正红火的 Transformer,模型已有很多,代码库也成千上万.对于初学者如何把握 ...

  5. 一行代码搞定信用评分模型(python)

    欢迎大家,上一篇博客[信用卡评分模型(R语言)]详细的讲解了如何开发评分卡,这片博客就不再详细介绍,为方便开发评分卡,本人根据自己经验写了一个python包,导入此包后仅需一行代码即可成功制作评分卡, ...

  6. python爬朋友圈数据_第2天|10天搞定Python网络爬虫,爬段子,发朋友圈

    刚刚在朋友圈发了我在糗事百科上爬取的段子,获得了好几十个赞,嘎嘎,给你看一下:"创作一定要保持大脑刺激,才能写出不同的灵魂之光.老婆很赞同,为了让我写出好贴,给我带回来了锥子,锤子,还有龙息 ...

  7. 虚数有物理意义吗?潘建伟范靖云团队最新量子力学研究同日登顶刊,引发基础数理热议...

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 量子力学又成了热点,这次不是量子计算也不是量子加密通讯,而是一个基础理论问题. 相关问题一度登上知乎热榜第二. 事情是这样的. 量子力学很多方程中 ...

  8. 风控必备的评分卡模型,TempoAI 10分钟搞定

    8月20日,央行发布了<2020年第二季度支付体系运行总体情况>,数据显示,截至第二季度末,信用卡逾期半年未偿信贷总额838.84亿元,占信用卡应偿信贷余额的1.17%.与一季度相比,信用 ...

  9. html编辑ko,BootstrapTable+KnockoutJS相结合实现增删改查解决方案(三)两个Viewmodel搞定增删改查...

    前言:之前博主分享过knockoutJS和BootstrapTable的一些基础用法,都是写基础应用,根本谈不上封装,仅仅是避免了html控件的取值和赋值,远远没有将MVVM的精妙展现出来.最近项目打 ...

最新文章

  1. Plotly绘制时间序列图实战:简单时序图、时间范围限制的时序图
  2. //Eclipse 快捷方式
  3. 深入了解java线程池
  4. 第十六届的无线信标-2021-线圈参数测试和仿真
  5. python处理excel大数据-当Excel遇到大数据问题,是时候用Python来拯救了
  6. VMware ESXi导出OVF模板
  7. 为什么8位有符号数的取值范围是-128~+127
  8. java排序算法之选择排序
  9. java 命令 native2ascii_java native2ascii.exe命令
  10. LeetCode(506)——相对名次(JavaScript)
  11. bbs小项目整理(八)(总结、源码分享)
  12. [BUG记录]java.lang.IllegalArgumentException: The observer is null.异常解决方案
  13. python session过期_session的工作原理、django的超时时间设置及session过期判断
  14. vue 基于网易云API实现二维码的登录
  15. 直播系统源码,教您如何搭建直播系统平台
  16. 25 个很棒的 Python 脚本合集(迷你项目) - PDF 下载
  17. 邮件内容安全刻不容缓
  18. Android程序员英文介绍,安卓程序员面试英文自我介绍
  19. pm2和pm2-logrotate 日志管理 初探
  20. 使用anaconda安装pytorch

热门文章

  1. [C#,Java,PHP] - IMAP文件夹名称编码和解码方法
  2. Asp.Net页面执行流程分析
  3. 哈哈,我的博客开通啦,欢迎光临~~~~~~~~~~~~
  4. Wiki为什么会流行
  5. 【组队学习】【34期】零基础学python编程思维
  6. Datawhale组队学习周报(第047周)
  7. 手把手带你打造一款 签名设计 的GUI图形界面!
  8. 11 款可替代 top 命令的工具!
  9. 两个使用 Pandas 读取异常数据结构 Excel 的方法,拿走不谢!
  10. API 大赛决赛名单出炉,速来围观!