吃了这些数据集和模型，跟 AI 学跳舞，做 TensorFlowBoys

利用深度学习算法 GAN 可实现动作追踪与迁移，将某人物动作复制到其他人，应用到舞蹈领域，人人皆可成舞王。

最近，《这！就是街舞》第二季开播，又一次燃起了全民热舞的风潮。

刚开播没多久，这个全程高能的节目，就在豆瓣上就得到了 9.6 的高分。舞者们在比赛中精彩的表演，让屏幕前的吃瓜群众直呼「太燃了！」「惊艳！」，甚至情不自禁跟着音乐抖起来了。

然而，真要自己跳起来，实际与想象之间，估计差了若干个罗志祥。想象中，自己是这样的：

但实际上却是这样的：

对于舞者来说，他们的动作叫做 Hiphop，Breaking，Locking 等等，而对于吃瓜群众来说，就是抖来抖去，滚来滚去，指来指去……

可能这辈子和街舞无缘？还是去跳跳广场舞吧……

等等！先别急着放弃，加州大学伯克利分校的几位大佬，为各位研究了一个 AI「秘密武器」，让你瞬间舞技爆发，成为下一代舞王。

人人都能当舞王

去年 8 月，加州大学伯克利分校的研究人员推出一篇题目为《Everybody dance now》的论文，使用深度学习算法 GAN（Generative Adversarial Networks，生成式对抗网络），可以复制专业表演者的动作，并将动作迁移到任何人身上，从而实现「Do as I do」（舞我所舞）。

先来看复制舞蹈的结果展示，感受一下：

左上角为专业舞者，左下为检测到的姿势，中间和右边是复制到目标人物的生成视频

之前 Deepfake 换脸技术大火，现在竟然整个人都可以「Deepfake」了！我们看一下这个神操作是怎么实现的。

论文中介绍道，迁移动作方法总的分为以下步骤：

给定两个视频，一个是动作源视频，另一个是目标人物视频；
然后使用一种算法，从源视频中检测专业舞者的舞姿，并创建相应运动的火柴人框架；
接着，使用训练的两种生成对抗网络（GAN）的深度学习算法，创建目标人物的全部图像，并为其生成更清晰、更逼真的视频图像。

最终结果是，该系统可以把专业舞者的身体动作映射到业余舞者的身上。除了模仿动作之外，它还能够完美地虚构人的声音和脸部表情。

黑科技背后原理揭秘

这项黑科技具体原理是这样的，将动作迁移管道一共分为三个部分：

1. 姿态检测：

团队使用现有的姿势检测模型 OpenPose（CMU 开源项目），从源视频中提取身体、面部和手部的姿势关键点。这一步的本质是对身体姿势进行编码，忽略掉身体外形等信息。

对舞者进行姿态检测，并编码为火柴人图形

2. 全局姿态标准化：

计算给定帧内源和目标人物身体形状、位置之间的差异，将源姿态图形转换到符合目标人物身体形状和位置的姿态图形。

3. 从标准化后的姿态图形，推断目标人物的图像：

使用一个生成式对抗网络模型，训练模型学习从标准化后的姿态图形映射到目标人物图像。

训练过程（上）与迁移过程（下）示意图

在开发系统过程中，团队使用了 NVIDIA TITAN Xp 中的 GeForce GTX 1080 Ti GPU，和由 PyTorch 加速的 cuDNN 来训练和推理。

在图像转换阶段，采用了 NVIDIA 开发的对抗训练的图像翻译 pix2pixHD 架构。通过 pix2pixHD 的全局生成器来预测面部残差。他们对面部使用单个 70×70 PatchGAN 判别器。

训练过程中，源视频和目标视频数据的收集方式略有不同。为确保目标视频质量，使用手机相机，以每秒 120 帧的速度拍摄目标主体的实时镜头，每个视频时长至少 20 分钟。

对于源视频，只需要得到合适的姿势检测结果，所以用网上表演舞蹈的高质量视频即可。

系统映射结果展示

对于系统的结果，研究人员表示还不完美。尽管它产生的视频大多还是非常逼真的，但是偶尔也会露出马脚，比如出现身体某部位消失，就像「融化」了之类的异常现象。

此外，由于算法不对衣服编码，无法产生衣服随动作飘舞的视频，目标者必须穿紧身衣服才行。

如果暂且不计较这些缺点的话，这个技术的确令人兴奋。

有了这个 AI 工具，即使你是个舞蹈方面的小白，或者四肢僵硬不协调，也能像郭富城，罗志祥，或者任何你喜欢的舞者那样成为「舞林高手」。即使是杰克逊的太空步，对你来说也都只是小菜一碟了。

不过，拥有一个舞蹈梦的，不止伯克利分校这一个团队。谷歌在 AI 和跳舞的结合上也花了心思。

谷歌 AI 编出舞蹈新花样

去年年底，谷歌艺术与文化部技术项目经理 Damien Henry 与英国编舞家 Wayne McGregor 合作，共同研发了一种能够自动生成特定风格的舞蹈编排工具。

拥有普利茅斯大学名誉科学博士学位的 McGregor ，对科学和技术素来感兴趣。当他回顾自己 25 年来的舞蹈视频时，想到能否通过技术来使表演保持新鲜感。于是他去向 Henry 请教，如何借助技术不断创作出新的舞蹈内容？

而 Henry 从一个科学网站的帖子获得了灵感。这个帖子介绍了使用神经网络，能够用根据前一个字母中的笔迹预测下一个字母。

于是，他提出了一种类似算法，能够对给定运动进行预测。通过视频捕获舞者姿势，然后生成接下来最有可能进行的舞蹈动作，并在屏幕上实时显示。

AI 编舞过程展示

这个算法也同样忽略了人的衣着，只是捕捉演员特定姿势的关键点，从而得出火柴人模型。

当他们录入 McGregor 和他的舞蹈演员的舞蹈视频后，AI 学会了如何跳舞，而且生成的舞蹈风格和 McGregor 的很相似。

虽然在舞蹈创造力上，人工智能还是有一定的局限性。这款谷歌 AI 工具并不能发明出它从未「见过」的动作。它只是预测在它学过的动作中，最有可能发生的动作。

此外，这个技术还可以提供混合风格的舞蹈编排，比如在 McGregor 的录像中插入巴西桑巴舞的录像，AI 可能会给出一个全新的混合舞。Henry 并不担心它会给出一个四不像的舞蹈，因为学习的源头还是由人去输入的。

AI 姿态追踪，不止「舞蹈梦」

看了这么多帮你「跳舞」的技术，是不是已经跃跃欲试了呢？

舞蹈 AI 能让不敢动不想动的人，更自在更轻松地动起来，体验舞蹈和运动的乐趣。但这背后的技术可不仅仅只是博人一乐。

支撑起舞蹈 AI 的姿态估计，背后潜藏着巨大的能量，它能够帮助我们更准确地完成形体动作，比如 3D 健身学习、体育项目姿势矫正，病人康复训练，甚至是虚拟试衣，拍照姿势矫正上，都会带来新的突破。

姿态估计的用途广泛

按照这样的发展，机器会越来越了解我们，越来越熟悉我们的体态特征和行为方式，从而帮我们更好地认识自己。

好了，先不说了，我要去跟 AI 学跳舞了。你要不要一起来？

转载于:https://juejin.im/post/5ce4fcc35188252db55ce331