不止视觉，CMU研究员让机器人学会了听音辨物

2020-08-18 01:10:41

作者 | 蒋宝尚

编辑 | 陈大鑫

在机器人技术中，虽然我们已经在视觉和触觉方面取得了巨大的进步，但是对声音的研究一直稍有欠缺。

近日，来自卡内基梅隆大学的研究员们，首次对声音和机器人动作之间的相互作用进行了大规模研究。

具体而言，他们开发了一款名为 Tilt-Bot的机器人，能够通过倾斜托盘研究物体运动和声音之间关系，准确率接近80。另外，研究成果以论文的形式发表在《机器人学：科学与系统》（Robotics: Science and Systems）上。

https://arxiv.org/pdf/2007.01851.pdf

项目github地址：

https://github.com/Dhiraj100892/swoosh

Tilt-Bot本质上是个托盘机器人，由多个关节的机械臂、托盘和固定装置组成，托盘四周有边框，上面贴着用于记录物体撞击的声波捕捉装置。

图注：运动中的物体和声音数据收集

如上图所示，托盘的正上方还固定了一个摄像头，用于捕捉物体运动轨迹，后期再与声音变化相匹配。

实验时，研究人员会把不同的物体放到托盘中，机械臂随后开始向前后左右倾斜，托盘中的物体也随之移动。

如果倾斜过大，物体就会撞到边框并发出响声，撞击力度越大，捕捉到的声波波峰也就越高。

因此，受过训练的机器人只需要分析物体滑动和撞击的声音记录，就可以区分不同物体。另外，作者在论文中提到，即使同是金属质地的螺丝刀和扳手也可以成功分辨，总体成功率接近 80%。

值得一提的是，作者在实验过程中，根据收集的信息还创建了包含60个物体，15,000个交互（碰撞等）的声音-动作-视觉数据集。数据收集过程如下动图所示：

另外，在论文中作者也给出了在实验中得到的三个观察：1、声音是完成细粒度物体检测任务的神器；2、声音是行动的指示器；3、从声音可以推断出物体的物理属性。

其中，第一个观察意味着：仅仅根据一个物体发出的声音，一个AI学习模型就可以从60个物体中以79.2%的准确率识别该物体；第二个观察意味着，通过声音，AI学习模型就可以预测外力对该物体施加了什么动作；第三个观察意味着，通过声音可以测试物体隐含的物理特性。

以上三个观察，作者用了三种研究方法进行证明。

1 研究方法

为了理解和研究声音与动作的协同作用，卡内基梅陇大学的研究人员重点研究了三大类学习任务：1、细粒度分类(或实例识别)；2、逆向模型学习；3、下游正向模型学习（downstream forward-model learnin）。

其中，在细粒度识别任务中，一般是用视觉图像作为输入来完成的。在作者的论文中，主要是以音频作为输入研究“声音”中包含什么样的信息。

具体而言，对于作者TiltBot数据集中的60个物体，作者先创建一个包含80%数据的训练集和一个包含20%数据的测试集。

然后，作者训练一个简单的CNN，只把音频信息作为输入，并输出产生声音的对象的实例标签。这个架构类似于下图☟

经过测试，模型能够达到76.1%的分类准确率。另外，为了进一步了解声音给能够提供哪些信息，作者研究了“声音”模型的常见分类错误，总的来说有两种情况：第一，同一物体的颜色无法识别；第二，当声音很小，例如物体只是稍动一下，物体的信息就会被掩盖掉，也会造成分类失败。如下图所示：

图注：两类分类错误

在逆学习模型的任务中，主要解决“物体动作识别”任务。另外，此模型研究的是声音是否包含有关行为、动作的因果信息。

在问题设置中，模型将物体交互（物体碰撞等动作）之前和之后的观测作为输入，具体而言交互之前物体的图像，以及交互期间产生的声音，模型输出的是交互期间的动作。由于逆模型学习可以在以前未见过的物体上进行测试，因此作者在论文中提到，此模型不仅可以在训练中测试音频特征的泛化，而且还可以在新对象上测试音频特征的泛化。

在前面两个问题中，我们已经看到声音确实包含细粒度实例和动作的因果关系的信息。但是用什么样的损失函数训练适用于多个下游任务的音频嵌入呢？

一种方法是在Tilt-Bot数据上训练实例识别任务上的嵌入，而另一种选择是在逆模型任务上进行训练。这两个任务都编码不同形式的信息，其中分类编码对象的可识别属性，反向模型编码对象的物理属性。

但是，作者从多任务学习的工作中得到了启发，训练了一种联合嵌入，可以同时对分类和动作信息进行编码。

另外，作者在论文中还提到，理解音频嵌入中包含的信息还有一种方法，即给定输入对象实例的前三个最近（最相似）的对象实例。例如，将长螺丝刀与长蝴蝶刀相匹配；将黄色物体与其他颜色物体相匹配。如下图的TSN特征图所示，进一步证明了相似的物体是如何接近的，而物理上不同的物体是如何相距较远的。

在下游正向模型学习任务中，主要研究是否可以在与对象进行物理交互之前使用声音来提取该对象的物理属性。此灵感来自于最近关于环境探测交互的工作：实现真正的策略之前，需要使用探测交互来理解潜在的因素。

而在卡内基梅隆大学的这项工作中，具体是通过把探测交互产生的声音，用作表示对象的潜在参数。

2 总结

卡内基梅隆大学的“听音辨物”工作主要有三个贡献：

第一，创建了最大的声音-动作-视觉机器人数据集；

第二，证明了可以使用声音进行细粒度的物体识别；

第三，证明了声音是动作的指示器。

不止视觉，CMU研究员让机器人学会了听音辨物相关推荐

人工智能学会“听音辨声”
美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音. 人们可以借助均衡器对歌曲旋律中的低音进行调节,但麻省理工学院计算机科学与人工智能实验室(Comput ...
听声辨物，这是AI视觉该干的？？？｜ECCV 2022
转自:量子位听到"唔哩--唔哩--"的警笛声,你可以迅速判断出声音来自路过的一辆急救车. 能不能让AI根据音频信号得到发声物完整的.精细化的掩码图呢? 来自合肥工业大学.商汤.澳 ...
25分钟训练机器人学会6个动作，伯克利开发高效机器人操纵框架
蕾师师发自凹非寺量子位报道 | 公众号 QbitAI 这个机械臂正在完成够.拿.移.推.点.开等6个动作. 而且动作娴熟,还不存在失误. 更令人意外的是,训练这个机械臂,只花了短短25分钟. ...
萨默尔机器人_助力产业发展西安市人工智能机器人学会正式成立
8月23日,西安市人工智能机器人学会在西咸新区沣东新城协同创新港正式成立.西安报业全媒体记者冯炜摄 8月23日,西安市人工智能机器人学会正式成立.学会将通过市场化机制.社会化服务等方式,整合科技创 ...
ccd视觉定位教程_什么是CCD视觉定位自动焊锡机器人？
全方位CCD视觉定位自动焊锡机器人,可迅速自动找到焊点,节省单点定位编程时间. 全景视觉焊锡机系统,可监控整个焊接过程. 支持三色光源自动调节,能够满足各种类型PCB板焊接. 激光光斑大小可自动调节, ...
Kinect再次立功帮助机器人学会“读心术”！
自从微软的Kinect发布以来,人们就一直试图挑战它能完成的事情的极限,例如帮助医生做手术等等.随着新主机Xbox One登场的Kinect 2.0也让人充满期待,这也是微软次世代的杀手锏之一. 这次 ...
波斯顿翻跟头机器人_颤抖吧！波士顿动力机器人学会360度翻跟头，酷炫炸天……...
原标题:颤抖吧!波士顿动力机器人学会360度翻跟头,酷炫炸天-- " 在波士顿动力释放出来的影片中我们可以看到,波士顿动力机器人已经学会翻跟头,以及360度旋转等等,较之此前又有了巨大进步. ...
跨越障碍又跑上台阶！波士顿动力机器人学会跑酷
文章来源:ATYUN AI平台去年年底,经过一段平静的时期后,波士顿动力公司发布了令所有人惊讶的视频,Atlas在盒子上下跳跃,甚至做后空翻,今年早些时候,一段新视频显示Atlas在公园跑步并跳过障 ...
php听牌算法,打麻将要学会的听牌算法
原标题:打麻将要学会的听牌算法麻将实战听牌与弃牌及转换技巧麻将实战听牌是指13张牌已组妥,只要再进一张,就最后完成和牌所要求的四副加一对的组合.这时就可称作"听牌",亦称&qu ...

不止视觉，CMU研究员让机器人学会了听音辨物

不止视觉，CMU研究员让机器人学会了听音辨物相关推荐

最新文章

热门文章