机器之心报道

编辑:陈萍

「我听见雨滴落在青青草地,我听见远方下课钟声响起……」多么浪漫的场景,但你有想过雨滴声和下课钟声是 AI 自动合成的吗?近日,一个叫做 AutoFoley 的机器学习程序横空出世,给电影拟音似乎没有那么麻烦了呢。

想象一下你正在看一部恐怖电影:女主角正高度警惕地穿过黑暗的地下室,背景音乐令人毛骨悚然,而一些看不见的生物在阴影中爬行…… 然后——砰!它打翻了一个物体。

倘若没有强烈而恰到好处的音效,这样的场景恐怕很难有那么迷人和恐怖。

通常,这些音效由拟音师录制,他们使用大量物体来产生声音。例如:录制玻璃破碎的声音可能需要反复打碎玻璃,直到声音与视频片段非常匹配。但这增加了电影制作的成本和时间。

拟音师的拟音现场

在最近的一项研究中,研究人员创建了一个名为 AutoFoley 的自动化程序,它可以分析视频帧中的运动,并自主创建与场景相匹配的音效。在一项调查中,大多数参与者表示他们没有发现这些音效是程序制作的。相关论文已于今年 6 月发表在 IEEE Transactions on Multimedia 上。

「自 20 世纪 30 年代以来,在后期制作中利用拟音技术添加音效一直是电影和电视配乐的一个复杂部分,」参与创建 AutoFoley 的德克萨斯大学圣安东尼奥分校教授 Jeff Prevost 解释道。「如果没有拟音师逼真的配音,电影会变得空洞、遥远。然而,拟音声音合成的过程为电影创作增加了大量的时间和成本」。

Prevost 和他的博士生 Sanchita Ghose 对自动拟音系统产生极大兴趣,并着手创建多层机器学习程序 AutoFoley。他们使用 AutoFoley 为 1000 个短片制作音效,这些短片捕捉了许多常见的动作,比如下雨、骑马和滴答作响的时钟。

那么他们是怎么做到的呢?看完论文可能就会明白。

论文简介

论文链接:https://ieeexplore.ieee.org/document/9126216/metrics#metrics

这项研究提出了一个全自动深度学习工具 AutoFoley,可用于合成视频的代表性音轨。与现有的声音预测和生成架构不同,该算法结合了插值技术和时间关系网络(TRN),能够精确识别快速移动视频片段中的动作和帧间关系。该研究将稳健的多尺度循环神经网络(RNN)与卷积神经网络(CNN)相结合,以更好地理解时间尺度上错综复杂的输入 - 输出关联。

首先,该研究创建了两个不同的模型,用于识别视频中的动作并确定合适的声音。

第一个机器学习模型从快速移动的动作片段帧中提取图像特征(如颜色和移动),以确定合适的音效。

第二个模型分析对象在不同帧中的时间关系。通过使用关系推理来比较不同时间的不同帧,进而预测视频中即将发生的动作。

最后一步,合成与其中一个模型预测的活动或移动相匹配的音效。

研究贡献

该研究的贡献如下:

  • 首次利用深度神经网络为无声视频片段自动生成拟音音效,而「电影音效」需要的声音变化很大,并且具有明显的时间起始性。

  • 提出了一个新的数据集,有助于未来的拟音合成应用。

  • 提出了一种高效的预测架构,可基于视觉场景进行逼真、同步的声音合成。

  • 证明时间关系网络(TRN)可用于视频 - 声音预测任务。

  • 为了对生成的声音进行性能分析,该研究进行了定性、数值实验,并对生成的声音进行了问卷调查。

AutoFoley 实现过程

AutoFoley 的实现包含三个主要步骤:1)声音特征提取;2)基于视频帧预测声音类别;3)声音合成。下图展示了 AutoFoley 基于视觉输入自动生成拟音音轨的过程:

声音特征提取

首先用频谱图分析来计算所有音频文件的特征,将音频信号转换成频谱图来提取音频特征。该研究使用的频谱图包括原始音频的强度和相位信息。

在如下频谱图中,颜色的强度代表每个频率中存在的能量。颜色越亮,说明该频率的音频能量越多。

基于视频的声音预测

该研究提出了两种不同的方法来预测输入视频帧的声音类别:i)帧序列网络(使用内插技术,然后将卷积神经网络(CNN)和 Fast-Slow LSTM(FS LSTM)网络组合使用);ii)帧关系网络(CNN 和时间关系网络的结合)。

声音合成

该研究将相同的声音合成方法应用于上述两种声音类别预测方法。取训练集中每类声音所有频谱图的平均值,然后将其与根据帧序列和帧关系网络分别计算得到的预测声音类别矩阵 sc 相结合。

该研究提出的自动拟音生成模型的算法如下所示:

AutoFoley 效果如何?

该研究创建了一个电影拟音音轨数据集——Automatic Foley Dataset(AFD)。它包含 12 个不同类别的 1000 个视频,每个视频的平均时长为 5 秒。下面两幅图分别展示了 12 个视频类及其相关的数据统计:

定性评估

波形和频谱图分析:为了进行定性评估,该研究展示了 AutoFoley 方法合成声音和原始音轨的波形与频谱图,如下图所示:

分析显示,AutoFoley 最擅长在时间无需与视频完全一致的情况下(如倾盆大雨、噼啪作响的大火)进行配音。但是,当视觉场景包含随时间变化的随机动作(如打字、雷雨)时,AutoFoley 的合成音效可能与视频不同步。

音质矩阵分析:一般来说,声音的质量是根据声音与用户期望的符合程度进行评估的。该论文给出了模型的相关性值(参见表 1)。除了对时间最敏感的动作类别(如打断、切割、脚步声、枪声),与方法 2 相比,模型 1 提供了更高的相关性值(correlation value)。

声音检索实验:此定性任务旨在评估合成声音中是否存在声音类别的语义信息。完整的声音检索实验模型如图 13 所示:

表 2 和表 3 分别给出了最相关的声音生成模型和该研究提出的模型在相同检索任务中的预测准确率结果。实验结果表明,分类器对 AutoFoley 模型生成声音的预测准确率均在 63% 以上。

定量评估

研究者还提供了模型训练和测试过程中的计算损失和准确率详情。

1) 声音类别预测:为了将基于视频帧预测声音类别的准确率进行可视化展示,研究人员在图 14 中给出了模型 1 和模型 2 的归一化混淆矩阵:

2)损失和准确率计算:下表展示了该研究提出的模型在训练和测试阶段的平均 log 损失和准确率。

人类评估结果

论文作者调查了 57 名当地大学生,让他们辨认 AutoFoley 的配音。在评估第一个模型生成的音频时,73% 的被调查学生选择了 AutoFoley 为原声片段,而不是合成片段。在评估第二个模型时,66% 的受访者选择了 AutoFoley 为原声片段。

「我们方法的一个局限性是要求分类主体出现在整个视频帧序列中,」Prevost 表示,同时他还指出 AutoFoley 目前依赖于一个有限拟音类别的数据集。目前 AutoFoley 的研究仍处于早期阶段,Prevost 认为这些限制将在未来研究中得到解决。

参考链接:https://spectrum.ieee.org/tech-talk/artificial-intelligence/machine-learning/new-ai-dupes-humans-into-believing-synthesized-sound-effects-are-real

© THE END

转载请联系 机器之心 公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

AI拟音师出击,轻松骗过人类观众:你听到的电影音效可能来自它们相关推荐

  1. 输入监听_更适合混音师的声卡 精准控制 多设备监听真的方便

    随着声音越来越被大家重视,想要提升音质,同时又不想太累赘,便携式声卡的春天再一次到来,Audient 也借此势头,升级了ID14 MK2,对比上一代,ID14 MK2没有很大的变化,体积大小都保持一致 ...

  2. 数字化转型太太太难?AI、IoT 重拳出击!

    记者|伍杏玲 出品|CSDN(ID:CSDNnews) 据IDC预测,2021年全球会有5.5万亿美元投资在数字化转型.企业数字化转型正成为许多中国企业的核心战略,据IDC与浪潮联合发布的<20 ...

  3. 混音师的混音之道|公开我学习混音的方法,真正的捷径|MZD Studios

    大家好,我是Jerome.这是2019年的第一篇干货文章.正如题目所说的,我从不当标题党. 我建议,关注MZD studios的朋友们认真看完. 感谢,昨晚你们的回复,我都看到了.很感谢你们提供我的一 ...

  4. 清华AI画虾师,想当现代齐白石

    安妮 发自 凹非寺 量子位 出品 | 公众号 QbitAI 这只AI不简单啊. 就是它,让撒贝宁面露难色,难做决断,在节目现场纠结得抓耳挠腮. 听说这个名叫"道子"的清华AI,能汇 ...

  5. linux 微信不能发图片,微信回应发原图泄露位置信息​;元旦起 AI 造假音视频不得随意发布...

    原标题:微信回应发原图泄露位置信息​:元旦起 AI 造假音视频不得随意发布 参考:开源中国.solidot.cnBeta.腾讯科技.快科技等 0.网信办等三部门联合发布新规:明年起,AI 造假音视频不 ...

  6. 百万调音师—Audition降噪

    百万调音师-Audition降噪 自适应降噪 降噪处理 去除某个循环杂音 动态处理 降噪,顾名思义就是减少噪音对人的影响.在AU中可以把声音中的噪音(不想要的声音去掉) 自适应降噪 软件帮你自动调节. ...

  7. 百万调音师—Audition多轨编辑

    百万调音师-Audition多轨编辑 多轨编辑 打开多轨 多轨功能介绍 轨道操作 多轨功能 输入与输出 混音器 读取: 写入/触动/闭锁 FX效果 发送 EQ 节拍器 单轨OK了,下面挑战一下多轨吧 ...

  8. 百万调音师—Audition初识

    百万调音师-Audition初识 界面介绍 导入导出 工具介绍 Adobe Audition是一个专业音频编辑和混合环境软件,原名为Cool Edit Pro. 被Adobe 公司收购后,改名为Ado ...

  9. 百万调音师—音频基础知识

    百万调音师-音频基础知识 音频基本属性 1).音频理论 2).音频格式 3).音频声道 声音如何传输到电脑? 模拟信号 数字信号 脉冲编码调制 1).滤波 2).采样 3).量化 4).编码 分贝 音 ...

最新文章

  1. 看得“深”、看得“清” —— 深度学习在图像超清化的应用
  2. Joomla!网站扫描工具joomscan
  3. java求婚代码_屌丝程序员的求婚道具--内含视频
  4. poj 2528 Mayor's posters (线段树+离散化)
  5. mysql实例化_mysql多实例实例化数据库
  6. 深入react技术栈(2):JSX语法
  7. jsp过时了吗_知乎高赞:Spring MVC 过时了吗?网友:你连V和C都还没搞明白~
  8. 图解Http学习第一章
  9. 未能加载文件或程序集“Enyim.Caching”或它的某一个依赖项。未能验证强名称签名...
  10. 在create-react-app的脚手架里面使用scss
  11. 转 Java笔记:Java内存模型
  12. SQL server 数据迁移到mysql
  13. Python shapefile转GeoJson的两种方式
  14. 克鲁斯卡尔算法、并查集
  15. 羡慕别人表格做的快?6个Excel小技巧+25个Excel快捷键!收藏没错
  16. 【先锋】永洪科技何春涛:不忘初心,砥砺前行
  17. 算法竞赛入门【码蹄集新手村600题】(MT1101-1150)
  18. 天嵌科技TQ2440的uboot启动流程分析学习笔记
  19. Rpgmakermv(38)MOG_Theatrhythm
  20. 什么是深拷贝和浅拷贝,如何进行浅拷贝?

热门文章

  1. Visual C#访问接口
  2. 【怎样写代码】工厂三兄弟之抽象工厂模式(一):问题案例
  3. 【Matlab与线性代数】Matlab中对数组元素引用方法总结
  4. Matlab与线性代数 -- 全1矩阵
  5. 【Codeforces】913C Party Lemonade (贪...)。
  6. 【MATLAB】符号数学计算(七):符号微积分、符号微分方程求解、符号代数方程求解
  7. qtdll在linux系统运行,在QT下编写带DLL的程序
  8. Meta 发布 Bean Machine 帮助衡量 AI 模型的不确定性
  9. Python 极简实现 IoU
  10. CSDN插件限时内测,新用户抢永久免费去广告特权!