MIT发表称为PixelPlayer的人工智能系统,以影片的视觉元素代替人为卷标,让系统达到自我监督学习的目的,自动辨识声音与乐器间的关联,不只可用于音乐的编辑与后制,还能用于机器人研究领域,帮助其理解环境声音的来源。

MIT发展出名为PixelPlayer的人工智能系统,由算法自我监督观看60小时的音乐表演影片后,不需要人类介入训练,便可以自动辨识出20种乐器的声音,并且理解声音与画面中乐器的对应关系,提供使用者独立编辑声音的能力,对于旧音乐再制有很大的帮助。

MIT的计算机科学与人工智能实验室(CSAIL)发展出以深度学习辨识乐器表演影片,除了能分离出特定乐器声音外,还能对这些声音进行个别编辑的系统。这个称为PixelPlayer的系统,经过60小时的音乐会影片训练,可以辨识超过20种乐器,论文第一作者Hang Zhao提到,尽管该系统现在还无法细腻的处理类似声音之间的细微差异,像是PixelPlayer现在还分不出中音萨克斯风与男高音的差别,但只要有越多的训练数据,系统就能辨识越多种类的乐器。

PixelPlayer使用深度学习的方法,以类神经网络在影片里寻找数据的模式,系统包含3个类神经网络,其中一个用于影片的视觉分析,第二个用于影片的声音分析,第三个合成器能将特定的像素与声音关联,并独立分离出来。系统会先定位出影片中发出声音的区域,再将声音分离出来,并与这些像素关联。

研究团队提到,这个方法使用自我监督(Self-supervised)的深度学习,人工智能在没有人类介入告知声音与乐器的关联,就能自动理解之间的关系。过去分离声源的研究通常专注在声音上,而这也需要大量的人为标签,但PixelPlayer则是额外加入的视觉要素,以视觉元素取代人为卷标,以达到人工智能自我接督学习的目的。

Hang Zhao表示,他们原本预期系统的最佳案例,就只是让系统分辨不同乐器的独特声音,而现在却可以额外在空间中,以像素等级定位出乐器,这样的能力开启了更多可能,使用者可以直接透过点击影片中的乐器,进行声音编辑。

这项研究的贡献在于,有助于工程师提高旧音乐的录制音质,制作人甚至可以分开聆听不同乐器演奏的声音,除了可以单独调整个别音量外,还可以于后制阶段,更换演奏的乐器,另外,这项研究也能被应用在机器人开发上,使其能更好的理解环境物体所产生的声音,像是正在吠叫的狗或是发出引擎声的车辆。
文章出自:利博APP手机 http://jumbotex.com.tw/

转载于:https://my.oschina.net/u/3906919/blog/1844532

能自我学习的AI 能辨识20种乐器声音相关推荐

  1. MIT又出新玩法,利用AI可轻松分离视频中的乐器声音

    本文由人工智能观察编译 译者:Sandy 均衡器是大概是被用来在音乐中加入低音的一种常用方式,但近日,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员研发了一个更好的解决方案.他们的深度 ...

  2. 李开复:迎战ChatGPT,这20种“金饭碗”工作最能打!

    作者:李开复老师 我的上一篇文章"ChatGPT引发失业恐慌?这20种工作要避开!"谈到了或被AI取代的20种工作,包括了电话销售.客户服务.仓库搬运.电话接线等简单重复的流程性工 ...

  3. AI:一个20年程序猿的学习资料大全—结构分析软件/办公软件/电气制造控制/高级语言编程/平面三维设计/视频编辑/FQ格式转换软件——只有你不想要的,没有你找不到的

    AI:一个20年程序猿的学习资料大全-结构分析软件/办公软件/电气制造控制/高级语言编程/平面三维设计/视频编辑/FQ格式转换软件--只有你不想要的,没有你找不到的 目录 (有偿提供,替朋友转载,扫描 ...

  4. AI:一个20年程序猿的学习资料大全—BAT等面试资料/NECCS大赛资料/一二级建造师/网络编程爬虫等/公务员——只有你不想要的,没有你找不到的

    AI:一个20年程序猿的学习资料大全--前端/后端/架构师/运维各种很多教程资料--只有你不想要的,没有你找不到的 AI:一个20年程序猿的学习资料大全-结构分析软件/办公软件/电气制造控制/高级语言 ...

  5. AI:一个20年程序猿的学习资料大全—人工智能之AI/机器学习/深度学习/计算机视觉/Matlab大赛——只有你不想要的,没有你找不到的

    AI:一个20年程序猿的学习资料大全-人工智能之AI/机器学习/深度学习/计算机视觉/Matlab大赛--只有你不想要的,没有你找不到的 目录 (有偿提供,替朋友转载,扫描下方二维码提问,或者向博主扫 ...

  6. AI:一个20年程序猿的学习资料大全—区块链/大数据/数据集/云计算/前沿大会资料——只有你不想要的,没有你找不到的

    AI:一个20年程序猿的学习资料大全-区块链/大数据/数据集/云计算/前沿大会资料--只有你不想要的,没有你找不到的 目录 区块链 ​​​大数据资料 数据集 云计算资料 前沿大会资料报告​ 相关文章 ...

  7. 甲小姐对话稚晖君:深度学习并非AI的终点

    "人类不应该只存在在地球上,对于这么浩瀚的宇宙来说太浪费了." 作者 | 甲小姐 助理 | 沁云 近日,华为"天才少年".B站UP主稚晖君的新作自动驾驶自行车在 ...

  8. AI 脸部辨识情绪市场庞大 人类的情绪如何用机器解读?

    愤怒.厌恶.恐惧.快乐.悲伤.惊讶--你脸上的表情,现在正变成「情绪经济」. 当你疲劳驾驶,失神或焦躁情绪将被车子辨识警告:用平板学习时有困难,平板会读取你「困惑」的情绪,并放慢教学速度:当卖出一个商 ...

  9. Rust 升级成微软第一梯队语言;“熊孩子”乱敲键盘攻破 Linux 桌面;500 个值得学习的 AI 开源项目| 开发者周刊...

    整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) CSDN开发者周刊:只为传递"有趣/有用"的开发者内容! 本周热门项目 0.Rust 升级成为微软一级项目 2015 ...

最新文章

  1. MIT研究发现:十大最常用数据集标签错误率达3.4%
  2. 嵌入式Linux USB驱动开发之教你一步步编写USB驱动程序
  3. python处理数据的优势-python处理excel的优势是什么
  4. mongoose c++封装
  5. linux内核 端口,Linux内核中IO端口资源管理
  6. ubuntu 12.04 ubuntu System program problem detected 解决方法
  7. php转义还原,PHP中addslashes()和stripslashes()实现字符串转义和还原用法实例_PHP
  8. 高中计算机excelppt,高一信息技术 4.2利用Excel表格处理个人财务教案.doc
  9. java中 Object转换成 int 类型。
  10. JAVA 使用 pdfbox实现打印 PDF 文件 (横版,竖版)
  11. 系统漏洞利用与提权攻击机场景
  12. jy-10-SPRINGMYBATIS01——MyBatis-程祖红/刘苍松
  13. 如何在 HTML 网站上创建其他网页
  14. 工作站和微型计算机的区别,轻松了解工作站和台式机的区别,用Precision 3551挥洒创意...
  15. webpack——JS模块化说明视频-张晓飞-专题视频课程
  16. F#match的强大和List.tail方法的真实含义
  17. 《计算机组成原理》— 计算机组成原理试卷二(期末复习备用)
  18. 调和分析笔记3:卡尔德隆-济格蒙德分解
  19. Solidworks2016nbsp;SP4nbsp;下载
  20. 不卖广告,不卖教程VIP,网站盈利呢?

热门文章

  1. usaco-5.1-fc-passed
  2. MySQL基础架构:一条SQL“查询语句”是如何执行的
  3. python生成exe启动很慢_python生成exe启动很慢|Win7电脑启动慢如何解决?Win7使用Msconfig.exe解决电脑启动慢的方法...
  4. BurnInTest测试固态硬盘详解
  5. 哪款蓝牙耳机的音质好?四款音质最好的蓝牙耳机测评
  6. 【linux】记一次linux(centos)被暴力破解事件,从修改linux默认登录端口为普通账号授权到linux基础操作命令
  7. SAP方丈-SAP常见问题与解决办法(转)
  8. 脚本引流的震撼效果是真的么?脚本引流的话术真的重要?
  9. dec在oracle中,在SQL – Oracle中查找匹配的间隔
  10. UnityShader图形学中的数学之Normal融合