AD-NeRF 由音频和人脸图像合成人脸视频并表现出自然的说话风格

flyfish

合成高保真音频驱动的面部视频序列在数字人类、聊天机器人和虚拟视频会议等许多应用中是一个重要而具有挑战性的问题。
将语音头部的生成过程视为从音频到视觉人脸的跨模态映射，期望合成的人脸图像表现出自然的说话风格，同时同步与原始视频相同的照片真实感的流媒体结果。

环境：

Ubuntu 18.04
NVIDIA Driver Version: 440.33.01
CUDA Version: 10.2 cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64
libcudnn8_8.0.3.33-1+cuda10.2_amd64
Python: 3.7
PyTorch: torch-1.8.2+cu102-cp37-cp37m-linux_x86_64
PyTorch3D: pytorch3d-0.6.0-py37_cu102_pyt181

代码在以上环境能够正确处理数据和训练模型

本文的运行方案与官网有稍微不同

论文：https://arxiv.org/abs/2103.11078
代码：https://github.com/YudongGuo/AD-NeRF
论文题目《AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis》

本文AD-NeRF运行环境，模型和代码下载地址

链接：https://pan.baidu.com/s/1tvZOwFM8XAnJONPXNvkGYg
提取码：1l53

本文执行方案如下
先下载已经提供的AD-NeRF运行环境包括cuda，cudnn，pytorch，pytorch3d，全部是匹配的版本，本地化安装不容易出现问题
内容包括

cuda-repo-ubuntu1804-10-2-local-10.2.89-440.33.01_1.0-1_amd64.deb
libcudnn8_8.0.3.33-1+cuda10.2_amd64.deb
libcudnn8-dev_8.0.3.33-1+cuda10.2_amd64.deb
pytorch3d-0.6.0-py37_cu102_pyt181.tar.bz2
torch-1.8.2+cu102-cp37-cp37m-linux_x86_64.whl

执行步骤

1 cuda和cudnn的安装

在 NVIDIA驱动是440版本的环境下安装上面已经下载的cuda和cudnn，其他驱动版本未测试
如果下载其他版本看这里

2 创建 anaconda虚拟环境，名字叫adnerf

conda env create -f environment.yml
conda activate adnerf

3 本地安装GPU版的PyTorch

pip install torch-1.8.2+cu102-cp37-cp37m-linux_x86_64.whl

4 本地安装PyTorch3D

conda install --use-local pytorch3d-0.6.0-py37_cu102_pyt181.tar.bz2

5 第三方模型位置

将"01_MorphableModel.mat" 放到 data_util/face_tracking/3DMM/
运行

cd data_util/face_tracking
python convert_BFM.py

文本已提供该模型

6 制作数据集

bash process_data.sh Obama

该数据集是通过 dataset/vids/Obama.mp4生成的数据集,网盘已包含生成的数据集

7 剩下的事情就可以按照官网提供的命令进行训练了

训练分两部
（1）训练Head-NeRF
如果遇到与我相同的显存不足的问题，可以跳到8

python NeRFs/HeadNeRF/run_nerf.py --config dataset/Obama/HeadNeRF_config.txt

（2）训练TorsoNeRF

从AD-NeRF/dataset/Obama/logs/Obama_head找到最新的模型，例如030000_head.tar重命名为head.tar
将head.tar放到AD-NeRF/dataset/Obama/logs/Obama_com中
执行名

python NeRFs/TorsoNeRF/run_nerf.py --config dataset/Obama/TorsoNeRF_config.txt

训练过程

8 显存不够的解决

（1）训练源码在12G显存下不够，所以改了下样本大小由64改到了32可以运行

AD-NeRF/NeRFs/HeadNeRF/run_nerf.py
AD-NeRF/NeRFs/TorsoNeRF/run_nerf.py
parser.add_argument("--N_samples", type=int, default=32,
...

（2）制作数据集时显存不够
AD-NeRF/data_util/face_tracking/face_tracker.py
搜索代码 batch_size
原来是50，这里改成10

batch_size = 10 #50