简介

目前，依赖人工方法的视频译制流程繁琐，通常制作周期长、成本高。未来借助人工智能技术，视频译制有望自动完成。近日，微软亚洲研究院和微软 Azure 认知服务团队联合中国人民大学高瓴人工智能学院提出了自动视频译制技术 VideoDubber，研究成果发表在 AAAI 2023 上。VideoDubber 在保证翻译质量的同时，提升了视频译制的同步性，大大简化了视频译制流程，降低了制作成本。

视频译制（video dubbing）一般指将视频中语音由原始语言翻译为目标语言，并保证翻译后语音与画面的一致性。通常视频译制可通过级联的多个系统组成，包括语音识别，机器翻译和语音合成。为保证翻译后的语音与原始视频对应，通常先在机器翻译阶段控制文本长度，再在语音合成阶段调整合成语音的长度（如图 1 所示）。

▲ 图1：英文→中文的视频译制示例。在翻译原文“A painting is much more than the simple sum of its parts”。在机器翻译阶段，其对应的原始语音时长为3.01s。以往的方法仅在翻译阶段控制字数，可能会导致生成的语音与原始语音时长相差很大。VideoDubber直接考虑语音长度，从而生成时长非常接近原始语音的翻译结果。在此基础上，语音合成模型只需要稍作调整就能得到理想的语音翻译结果。

以往的工作通常只在机器翻译阶段控制翻译后的单词/字母的数量，而不考虑在不同语言中单词/字符发音持续时间的不同。在这篇工作中，研究团队提出了一个为视频配音任务量身定制的机器翻译方法 VideoDubber，它直接考虑翻译中每个 token 的语音时长（duration），以匹配目标语音的长度。

具体来说，研究团队通过使用时长信息来引导每个单词的预测，从而控制生成句子的语音长度。实验结果表明，VideoDubber 在四个语言方向（德语→英语、西班牙语→英语、汉语↔英语）上的视频译制同步性方面优于基线模型。此外，由于真实视频译制数据集的不足，研究团队还构建了一个从电影中收集的真实场景测试集，对视频译制任务进行综合评价。

论文标题：

VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing, AAAI 2023

论文作者：

Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian

论文链接：

https://arxiv.org/abs/2211.16934

Demo链接：

https://speechresearch.github.io/videodubbing

代码链接：

https://github.com/microsoft/NeuralSpeech/tree/master/VideoDubber

模型架构

VideoDubber 的模型架构如图 2 所示。为了保证翻译结果的自然性和同步性，VideoDubber 期望在机器翻译阶段引入语音时长控制，进而减少语音合成阶段时长的过分调整影响自然度。因此，本工作重点研究如何在保持高翻译质量的同时，实现机器翻译的语音时长控制。具体来说，研究团队设计了两种时长相关的位置编码来在机器翻译过程中集成时长信息：绝对时长位置编码和相对时长位置编码。

绝对时长位置编码（absolute duration position embedding, abs PE）：表示当前时间步长的累计语音时长信息；

相对时长位置编码（relative duration position embedding, rel PE），计算为绝对持续时间与总持续时间的比值，表示还剩多少持续时间供后续翻译使用。

通过这种方式，训练模型在进行预测时联合考虑语义和语音时长信息。为了获得每个目标词的语音持续时间，研究团队在 Transformer 的基础上引入了一个持续时间预测器，它是一个由卷积层组成的神经网络组件，被插入到解码器的顶部，利用解码器输出预测每个 token 的时长。在生成阶段，给定语音的总长度（即原始语音的长度），解码器将根据语义表示和每一步的持续时间信息以自回归方式确定适当的翻译结果。

此外，研究团队还考虑了引入 pause token。具体来说，VideoDubber 使用特殊的 pause token 来显式地模拟语音中的停顿，pause token 被插入源句和目标句中的每个单词（而不是子词）之间，其持续时长通过 Montreal forced alignment（MFA）获得，在不同的上下文中有所不同。

通过这种方式，VideoDubber 根据上下文在每个单词后预测适当持续时间的 pause token，为语音长度控制提供了更灵活的方法。同时，pause token 也可以增强韵律建模的能力。

▲ 图2：VideoDubber的整体架构

实验评估

研究团队在四个语言方向：中文→英语（Zh-En），英语→中文（En-Zh），德语→英语（De-En），西班牙语→英语（Es-En）对 VideoDubber 进行了验证。由于缺乏真实的视频配音数据集，研究团队在语音翻译数据集上训练和测试 VideoDubber。

对于其他语言→英语的翻译，使用公开的语音翻译数据集 CVSS。对于英语到中文的翻译，使用来源于英语 TED 演讲的数据集 MuSTC 的 En-Zh 子集。由于 MustC 数据集在目标语言中没有相应的语音，研究团队使用一个训练好的中文语音合成模型 FastSpeech 2 来生成中文语音翻译的文本。

3.1 翻译质量与同步性

表 1 中展示了四个语言方向上不同模型的机器翻译质量和长度控制能力。同时还列出了直接使用标准目标语音的时长控制翻译的结果，以显示 VideoDubber 的性能上限。使用 BLEU 衡量翻译质量，Speech Length Compliant（SLC）衡量翻译后语音与原始语音的等时性。

指时长比例（ratio）在内的句子比例。其中，，，分别代表原始语音和翻译后语音第，个 token 的语音时长。

表 1 中的显示 VideoDubber 的语音时长控制能力始终优于的基线方法，这表明 VideoDubber 的语音相关的长度控制比直接控制单词/字符数量实现了更好的语音时长等时性和同步性。

▲ 表1：VideoDubber 与其他基线方法在四个语言方向的 BLEU 和得分比较，这里我们分别设置 p=0.4, 0.2。VideoDubber （Source）, VideoDubber（Target）分别指使用原始语音长度和正确的目标语音长度进行长度控制。

3.2 消融对比实验

为了验证语音时长相关的位置编码的有效性，研究团队在四个语言方向上对三种 position embedding 进行了消融研究。如表 2 所示，绝对时长位置编码（abs PE）和相对时长位置编码（rel PE）对于实现更好的翻译语音长度控制效果都是至关重要的。

▲ 表2：消融实验

3.3 真实场景视频译制测试集

考虑到现实世界视频译制数据集（即同时具有跨语言源语音和目标语音的电影）的稀缺，研究团队构建了一个从译制电影中收集的测试集，以提供对视频配音系统的全面评估。研究团队选择了 9 部热门的高质量英译中电影，包含爱情、动作、科幻等丰富的类型。他们从中截取了 42 段对话片段，提取原始语音文本及人工译制后的语音文本作为测试集。

为了比较相关方法在真实视频配音场景下的性能，研究团队在自己构建的真实测试集上进行了实验。结果如表 3 所示，在客观评价中，VideoDubber 的 BLEU 和 SLCp 得分均高于基线方法。实验证明，在考虑语音等时性的真实测试集中，本文提出的具有语音感知长度控制的 NMT 模型能够获得较好的等时性控制能力和翻译质量。

此外，主观评价从翻译质量、与原始电影片段的同步性，以及合成语音的整体质量对译制后的电影片段打分。结合主观评价和客观评价，我们观察到 VideoDubber 实现了更高的翻译质量和语音等时性。此外，VideoDubber 在自然度评分方面取得了显著的提高，这反映了自动配音视频的整体质量有显著提升。

▲ 表3：在真实视频译制场景数据集下VideoDubber的表现

▲ 视频译制Demo

总结

本文提出了一种基于语音长度控制的机器翻译模型 VideoDubber。为了确保翻译后的语音与原始视频保持良好的一致性，VideoDubber 直接考虑翻译中每个 token 的语音时长。

首先，VideoDubber 使用语音时长信息来指导翻译过程中每个单词的预测，将其表示为两种位置编码。其次，VideoDubber 引入了一个特殊的 pause token，并将其插入到每个单词之间，以增强韵律建模的能力，更灵活地控制语音长度。第三，研究团队构建了一个从译制电影中收集的真实场景测试集，为视频配音系统提供更准确的评估。实验结果表明，VideoDubber 在测试集，尤其是真实场景测试集上表现出了更好的翻译质量和等时控制能力。

更多语音方面的研究工作，请关注该研究团队的语音研究主页：

https://speechresearch.github.io

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

AI赋能视频译制，微软和人大提出自动视频译制技术VideoDubber相关推荐

“AI+”赋能元宇宙，一文探讨智能交互的技术支撑
人工智能的发展经历了2016年的AlphaGo打败人类后的狂热.2018年实际落地困难带来的失望.2019年Deepfake假视频引发的对科技向善的思考之后,过去2年开始步入稳步落地阶段.立足当下,人 ...
AI赋能音乐创作，人人都是音视频创作者
华为HMS Core音频编辑服务(Audio Editor Kit)依托自身AI技术的研发优势,上线全新的歌声合成音色及伴奏,给音视频创作者提供更多的创作可能.在短视频场景中,用户自定义歌词的歌声结合 ...
据调查95%以上的AI从业者不具备修改模型或者提出新模型的技术能力
AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因.在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过.为什么?机器学习就像物理学中的数学,如果 ...
AI从业几年还不具备提出新模型的技术能力？看这个就够了！
AI是一门入门简单,但想深入却很难的学科,这也是为什么AI高端人才一直非常紧缺的重要原因.在AI领域技术领域,我们可以说机器学习功底决定了一个人的上限也不为过.为什么?机器学习就像物理学中的数学,如果 ...
AI赋能，TSINGSEE青犀视频上云网关获得中国声谷专项资金支持
为贯彻落实五大发展行动计划和<中国制造2025安徽篇>,加快"中国声谷"(合肥高新区智能语音产业集聚发展基地)建设,促进智能语音及人工智能产业发展,省政府印发<中 ...
百度向海龙：AI赋能，全面拥抱视频时代
5月22日,在主题为"新生态,联未来"的2018百度联盟生态峰会上,百度高级副总裁.百度搜索公司总裁向海龙以"新'视'代"为题发表了主题演讲.向海龙表示,技术的 ...
10分钟用英特尔®DevKit搭建RTMP流媒体服务器并基于OpenVINO™ AI赋能视频处理
作者:周兆靖文章指导:方亮, 郭叶军 1. 本文目的本文将会介绍如何使用英特尔®认证的DevKit--艾克斯开发板快速搭建RTMP流媒体服务器,并利用FFmpeg*实现视频推流的功能.由于FFmp ...
电子科大（申恒涛团队）京东AI（梅涛团队）提出用于视频问答的结构化双流注意网络，性能SOTA！优于基于双视频表示的方法！...
本文分享论文『Structured Two-stream Attention Network for Video Question Answering』,由电子科大(申恒涛团队)&京东AI(梅 ...
马维英坐镇，共话AI赋能生命健康与生物医药
2021年6月1日-3日,第三届北京智源大会将隆重举办.现正式开放大会线上和线下报名渠道.地点:中关村国家自主创新示范区会议中心 2021年北京智源大会召开在即,6月1日至6月3日,持续三天,13场主 ...

AI赋能视频译制，微软和人大提出自动视频译制技术VideoDubber

模型架构

实验评估

总结

AI赋能视频译制，微软和人大提出自动视频译制技术VideoDubber相关推荐

最新文章

热门文章