1080Ti 就搞定最新 SOTA 模型?一个普通研究生勇敢发毕业论文引起热议
点击上方“视学算法”,选择加"星标"或“置顶”
重磅干货,第一时间送达
转自 | 新智元
来源 | Reddit
编辑 | 好困
除了在顶会或者期刊上发表过的,一般人基本都会把自己的毕业论文「雪藏」起来。然而,有这么一位研究生不仅把自己的论文发了出来,还表示自己用1080Ti训练的比SOTA模型更厉害。
大厂用成千上万张显卡训练的SOTA模型已经看腻了?这次我们来看看「小作坊」训练的模型如何。
慕尼黑大学的研究生做了一个Deep Fake模型,只用了300万个参数和一个1080Ti,搞定!堪比SOTA!
虽然作者是这么说的,但是从他发布的成果上来看,有些一言难尽。
左边是原本的视频,右边是提供声音的素材,中间是生成的Deep Fake视频
由于样本只提供音频素材,所以声音还是样本的声音,听起来违和感简直要溢出屏幕了。好在不会出现像其他一些视频那样把整张脸贴上去那么搞笑。
网友用FakeAPP生成的视频
作者表示,和一些SOTA模型相比,论文的方法除了具有较低的嘴唇同步误差,同时在图像质量方面要优于所有方法。
从左到右依次是:原视频,文章的方法, Neural Voice Puppetry,Wav2Lip和Wav2Lip GAN
全连接网络就够了
模型基于3D可变形人脸模型 (3DMM),并具有 3D 面部的位置编码和从英语语音中提取的音频特征。
对于给定的语音,模型可以预测中性空间的RGB颜色和3D顶点位移。音频特征向量过滤的时间稳定性可以提供平滑的唇音同步。
文章表示,模型可以接受任意音频输入,并生成逼真的面部图像。
模型首先提取梅尔频率倒谱系数(MFCC)特征,音频的嵌入由Wav2Lip编码器生成。
然后,变形(deformation)网络输出人物面部形状的网格,且不受3DMM的限制,并在之后利用恒等函数对3D形状进行优化。
最后,由音频驱动的图像由颜色(color)网络输出。
为了将输出图像嵌入到背景中,需要单独训练另一个基于背景和先前输出的合成网络。
模型每个部分的输出,从左至右:变形网络、颜色网络、合成网络
再来一个例子,从左至右依次是:原始的视频,渲染后的视频,仅用于获取音源的视频。
网友表示:你这个不行啊
对于项目本身,评价基本是负面的。
「那么,这与在奥巴马的静音视频上播放音频的结果有什么不同呢?」
「奥巴马的嘴唇似乎并没有遵循着说话的轨迹」
不仅如此,对于Deep Fake这类的研究,网友普遍对其伦理道德方面表示担忧。
「有时我想到这些技术是如何被滥用的,这让我对未来感到有点难过」
「它不仅会陷害无辜者,也会为有罪者提供合理的推诿」
「所以你决定既要改进deep-fake,又要使用凯文-史派西(有道德污点)。你基本上是每个人工智能伦理学家最糟糕的噩梦。」
这件事从另一个方面告诉我们,不要把自己的毕业论文发出来,难道来自导师的嘲讽还不够么????
论文地址:
https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
参考资料:
https://zielon.github.io/face-neural-rendering/
点个在看 paper不断!
1080Ti 就搞定最新 SOTA 模型?一个普通研究生勇敢发毕业论文引起热议相关推荐
- NER任务最新SOTA模型W2NER
目录 一.模型简介和思想 二.模型结构 第一部分encoder层 第二部分Convolution Layer卷积层 第三部分Co-Predictor Layer联合预测层 三.模型代码解读 模型输入 ...
- 最新SOTA模型和实现代码
3000+数据集检索,分类工具,外加SOTA代码实现. 前段时间,学术圈的"图片误用",也是给我整蒙了.本来不想表达意见的,这不看到AI领域欣欣向荣的场景,唠唠嗑吧. 知道卷,一直 ...
- 开源教程 「nlp-tutorial」!用百行代码搞定各类NLP模型
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 参与:思源.贾伟 来源:机器之心 NLP 的研究,从词嵌入到 CNN ...
- lstm代码_贼好理解,这个项目教你如何用百行代码搞定各类NLP模型
机器之心报道 参与:思源.贾伟 NLP 的研究,从词嵌入到 CNN,再到 RNN,再到 Attention,以及现在正红火的 Transformer,模型已有很多,代码库也成千上万.对于初学者如何把握 ...
- 一行代码搞定信用评分模型(python)
欢迎大家,上一篇博客[信用卡评分模型(R语言)]详细的讲解了如何开发评分卡,这片博客就不再详细介绍,为方便开发评分卡,本人根据自己经验写了一个python包,导入此包后仅需一行代码即可成功制作评分卡, ...
- python爬朋友圈数据_第2天|10天搞定Python网络爬虫,爬段子,发朋友圈
刚刚在朋友圈发了我在糗事百科上爬取的段子,获得了好几十个赞,嘎嘎,给你看一下:"创作一定要保持大脑刺激,才能写出不同的灵魂之光.老婆很赞同,为了让我写出好贴,给我带回来了锥子,锤子,还有龙息 ...
- 虚数有物理意义吗?潘建伟范靖云团队最新量子力学研究同日登顶刊,引发基础数理热议...
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 量子力学又成了热点,这次不是量子计算也不是量子加密通讯,而是一个基础理论问题. 相关问题一度登上知乎热榜第二. 事情是这样的. 量子力学很多方程中 ...
- 风控必备的评分卡模型,TempoAI 10分钟搞定
8月20日,央行发布了<2020年第二季度支付体系运行总体情况>,数据显示,截至第二季度末,信用卡逾期半年未偿信贷总额838.84亿元,占信用卡应偿信贷余额的1.17%.与一季度相比,信用 ...
- html编辑ko,BootstrapTable+KnockoutJS相结合实现增删改查解决方案(三)两个Viewmodel搞定增删改查...
前言:之前博主分享过knockoutJS和BootstrapTable的一些基础用法,都是写基础应用,根本谈不上封装,仅仅是避免了html控件的取值和赋值,远远没有将MVVM的精妙展现出来.最近项目打 ...
最新文章
- Plotly绘制时间序列图实战:简单时序图、时间范围限制的时序图
- //Eclipse 快捷方式
- 深入了解java线程池
- 第十六届的无线信标-2021-线圈参数测试和仿真
- python处理excel大数据-当Excel遇到大数据问题,是时候用Python来拯救了
- VMware ESXi导出OVF模板
- 为什么8位有符号数的取值范围是-128~+127
- java排序算法之选择排序
- java 命令 native2ascii_java native2ascii.exe命令
- LeetCode(506)——相对名次(JavaScript)
- bbs小项目整理(八)(总结、源码分享)
- [BUG记录]java.lang.IllegalArgumentException: The observer is null.异常解决方案
- python session过期_session的工作原理、django的超时时间设置及session过期判断
- vue 基于网易云API实现二维码的登录
- 直播系统源码,教您如何搭建直播系统平台
- 25 个很棒的 Python 脚本合集(迷你项目) - PDF 下载
- 邮件内容安全刻不容缓
- Android程序员英文介绍,安卓程序员面试英文自我介绍
- pm2和pm2-logrotate 日志管理 初探
- 使用anaconda安装pytorch