正文字数:1165  阅读时长:2分钟

音乐AI技术正在快速发展。

作者 / Kyle Wiggers

原文链接 / https://venturebeat.com/2020/07/22/researchers-ai-aligns-sheet-music-with-midi-audio/

在预印平台Arxiv.org上发布的一项研究中,约翰内斯·开普勒大学林茨计算感知研究所和奥地利人工智能研究所的研究人员介绍了一个可以预测活页乐谱中和目标录音匹配度最高的的位置的AI系统。表面上,其对齐精度高于当前基于图像的最新乐谱追踪器。

乐谱追踪技术是很多应用程序的基础。这些应用包括自动伴奏、翻页以及将现场表演与可视化图像同步等等。现有的系统要么依赖于固定长短的小片段乐谱图像,要么需要光学音乐识别技术所提取出的计算机可读的乐谱。但是这些研究人员的AI系统可以以独特的方式观察整页乐谱,从而从头到尾地追踪任意长度的音乐表演。

这个研究团队将乐谱追踪当作一种图像分割任务。根据特定时间的某个音乐表演,他们的系统针对当前正在播放的音乐相对应的乐谱预测分段蒙版(即小片段)。研究人员说,仅仅利用固定大小音频输入的乐谱追踪器无法在超过特定环境的情况下区分重复的音符,然而他们提出的AI系统在处理较长时间的乐谱时都不会有问题。

在实验过程中,研究人员们从多模型乐谱数据集(MSMD)中获取了一些复音钢琴样本,其中包括巴赫、莫扎特、贝多芬等多个作曲家的作品。在手动识别并且纠正一些对齐上的错误后,他们通过353对乐谱和MIDI音频信息训练了AI系统。

该AI系统的另一位作者说,除了最高的门槛以外(没搞懂highest threshold是啥),他们的系统拥有比基准线更高的性能,并能在时间差方面得出更精确的结果(即对于更严格的容错率,百分比更高)。它偶尔也会产生一些错误,研究人员将其归因于系统可能会在图像纸上 “大幅跳跃”。但是他们断言,种种试验结果都表明这个AI系统在大多数情况下都是“非常精确的”。

“未来的工作会需要对扫描图像或照片进行测试,以评估该AI系统在视觉领域的泛化能力。”研究人员写道,“成就功能更强大的系统的下一步是显式或隐式地结合某种机制来处理乐谱和演奏中重复的音符。尽管我们也怀疑其性能会很大程度上取决于迄今为止音频的隐式编码。举例来说,循环网络中能够存储多大的听觉环境将成为很重要的一个因素,但我们相信,我们所提出的方法能够从合适的(经受过训练的)的数据中很自然地获得这种功能。”

音乐AI技术正在快速发展。OpenAI最近发布了一款叫做Jukebox的机器学习框架,它可以生成包括基本歌曲在内的音乐作为各种音乐类型和音乐风格的原始音频。在2018年末,Google Brain的“Project Magenta”项目致力于“探索机器学习在创作过程中的作用”,提出了一个叫做“Musical Transformer”的模型。该模型能够生成可识别的重复性歌曲。不仅如此,去年三月,谷歌发布了一种算法“Google Doodle”,让用户能够创造向巴赫致敬的旋律。

LiveVideoStackCon 2020 SFO(线上峰会)日程发布

无需漂洋过海,我们在线上等您!

LiveVideoStackCon 2020 美国旧金山站

北京时间:2020年12月11日-12月13日

点击【阅读原文】了解更多日程信息

研究人员的AI技术能够实时匹配活页乐谱与MIDI音频相关推荐

  1. 告别艺术品造假—国外研究人员用AI进行名画鉴定

    来源:ATYUN AI平台 众所周知,艺术品造假非常普遍,并且鉴定难度很大.有时专业的鉴定人员甚至要把可疑的作品带进实验室进行红外线光谱,碳十四断代等检测才能辨别成功.而随着人工智能的发展,可能我们不 ...

  2. 斯坦福研究人员让AI看了100部好莱坞大片,培养出了一个“吻戏识别大师”

    编辑:大明 [导读]斯坦福大学研究人员给AI模型看了100部好莱坞电影,让AI看懂了什么是接吻,并从视频片段中分割识别出接吻的镜头场景,而且把接吻和性爱场景区分开来.嗯,想开车的朋友可能要等等,但想看 ...

  3. 斯坦福大学研究人员利用AI生成表情包

    内容来源:ATYUN AI平台 目前,人工智能可以做许多事情,比如从2D图片生成物体的3D模型,击败面部识别系统或识别野生动物,现在它也能生成表情包了. 在"Dank Learning(论文 ...

  4. NVIDIA研究人员利用AI将标准视频转换为高质量慢动作镜头

    内容来源:ATYUN AI平台 来自NVIDIA的研究人员开发了一个基于深度学习的系统,该系统可以用每秒30帧的视频制作高质量的慢动作视频,超过了旨在实现相同效果的各种方法.研究人员将在本周CVPR会 ...

  5. 科学效法自然:微软研究人员测试AI控制的滑翔机

    编者按:正如一颗苹果砸出了万有引力,自然界所有存在的事物和现象都有其科学合理的一面,小小的鸟儿也能够给科学带来丰富的灵感和启示. 最近,微软研究人员从自然出发,研究鸟类能够自由停留在空中的科学原理,并 ...

  6. 研究人员开发实时歌词生成技术以激发歌曲创作灵感

    音乐艺术家可以通过滑铁卢研究人员开发的技术为他们的歌曲创作找到灵感和新的创意方向. LyricJam是一个实时系统,使用人工智能(AI)为现场器乐生成歌词,由该大学的自然语言处理实验室成员创建. 该实 ...

  7. 五位工程师亲述:AI技术人才如何快速成长?

    来源:AI前线 本文长度为12000字,建议阅读10分钟 本文与你分享AI技术人才的真实成长经历. 标签:人工智能 前言 参考塞缪尔. 约翰逊(18 世纪英国文学评论家.诗人,著有<英语大辞典& ...

  8. Neuron期刊 | 研究人员首次实现利用脑机接口控制多指运动

    现代脑机接口可以使瘫痪患者恢复功能,但目前的上肢脑机接口无法再现对个体手指运动的控制.密歇根大学的研究人员首次在非人类灵长类动物中展示了一种实时.高速的脑机接口,它利用皮层内神经信号来弥合这一差距. ...

  9. 微软对OpenAI投资10亿美元欲开发AI技术;华晨宝马宣布建成全球首个5G汽车生产基地;传苹果将收购英特尔调制解调器芯片业务...

    关注并标星星CSDN云计算 极客头条:速递.最新.绝对有料.这里有企业新动.这里有业界要闻,打起十二分精神,紧跟fashion你可以的! 每周三次,打卡即read 更快.更全了解泛云圈精彩news g ...

最新文章

  1. USTC English Club Note20211223
  2. OpenGL Assimp模型加载库
  3. 【机器视觉】 import算子
  4. android math类,GitHub - Zihin/MathModeling-Android
  5. 由Actvity启动模式之SingleInstance引起的坑的反思
  6. linux 命令行看图片,骚操作:用终端打开图片
  7. 【Unity】关于屏幕自适应的思路
  8. 涉众分析与硬数据采样(第六章)
  9. 北邮2017计算机考研题,北邮通信考研2017年801真题.pdf
  10. 【Vivado那些事儿】Vivado介绍
  11. java邮件发送 qq与163邮箱互发和qq和163邮箱发送其他邮箱实例
  12. 通俗易懂,什么是.NET?什么是.NET Framework?什么是.NET Core?
  13. Redis 3种集群方式,别傻傻分不清!
  14. 文档扫描OCR识别_积累
  15. 网络协会评出十大流氓软件,3721位列榜首
  16. java 异或 排序_Java的位运算符详解实例——与()、非(~)、或(|)、异或(^)...
  17. 2019最新spark面试题,看了它,你还怕找不到工作吗?
  18. 产品基础学习笔记---传智教育
  19. wordcloud的常用函数
  20. 使用frp内网穿透,用windows远程桌面连接

热门文章

  1. 第六章:系统困境之 你的努力与时代进程相逆
  2. make: Nothing to be done for `first'
  3. [转载]:合并两个已排序好的int数组,并排序返回c#实现
  4. everyday words
  5. 游戏的乐趣和任务设计
  6. c语言判断出多位各位数
  7. Javascript与服务器同步时间
  8. UVA12325Zombie's Treasure Chest 宝箱
  9. python入门与实践在线阅读_Python编程:从入门到实践(第2版)
  10. HDU3183(RMQ问题,ST算法)