机器有了综合感官？新研究结合视觉和听觉进行情感预测

大数据文摘专栏作品

作者：Christopher Dossman

编译：conrad、笪洁琼、云舟

呜啦啦啦啦啦啦啦大家好，本周的AI Scholar Weekly栏目又和大家见面啦！

AI Scholar Weekly是AI领域的学术专栏，致力于为你带来最新潮、最全面、最深度的AI学术概览，一网打尽每周AI学术的前沿资讯。

每周更新，做AI科研，每周从这一篇开始就够啦！

本周关键词：说话人识别、病理图像搜索、推荐系统

本周最佳研究

吱一声就知道你是谁，深度学习识别短片段说话人

UtterIdNet是一种新型的具有短语音片段识别能力的深度神经网络。该模型的灵感来自于两个成功且非常流行的深度神经网络架构：ResNet和DeepID3。据该模型背后的研究人员称，该模型采用了一种新的体系结构，通过在短语音片段中有效地增加信息的使用，使其适合于短片段说话人的识别。

他们在VoxCeleb数据集上对UtterIdNet进行了训练和测试，这是说话人识别的最新基准，并证明UtterIdNet在短片段上的表现优于最先进的技术。对不同分段持续时间的评估显示，短分段的性能一致且稳定，对于2秒、1秒、特别是微秒的分段，与之前的模型相比有显著改进。

随着智能虚拟助手的不断发展，它们对增强语音识别算法的要求也越来越高。与传统的先进模型相比，该模型显示了更好的结果。虽然在完整的语音片段中表现出了微弱的优势，这也是研究人员打算在未来的工作中进行研究的，但是UtterIdNet在增强短片段语音识别方面有很大的潜力。

原文：

https://arxiv.org/abs/1907.10420

SMILY：一个以人为中心，相似图像的病理搜索工具

谷歌AI最近分享了两篇研究论文，描述了在医疗保健领域类似图像搜索的人机交互研究进展。在第一篇题为《SMILY: 组织病理学的相似图像搜索》的论文中，他们描述了一个基于ML的工具，用于病理学中的反向图像搜索。第二篇论文《医疗决策过程中，以人为中心处理不完美算法的工具》探索了基于图像搜索的不同细化模式，并评估了它们对医生与SMILY交互的影响。

SMILY实现了一个深度学习模型，使用50亿个自然的、非病理图像进行训练。该模型学会了通过计算和比较图像的嵌入来区分相似的图像和不同的图像，然后使用癌症基因组图谱中未识别图像的语料库创建图像补丁及其相关嵌入的数据库。当在SMILY工具中选择一个查询图像补丁时，将以类似的方式计算查询补丁的嵌入，并与数据库进行比较，以检索嵌入最相似的图像补丁。

SMILY在协助搜索大型数据库的数字化病理图像上有很大的潜力。它可以帮助编制带有描述性说明的病理图像教材的索引，使受训的医科学生或病理学家能够使用视觉搜索对这些教材进行检索，加快教学进程。

此外，它还可以应用于癌症研究人员感兴趣的研究——肿瘤形态学与患者预后的相关性。研究结果还表明，复杂的ML算法需要与以人为中心的设计和交互工具相结合，这是最有意义的。

原文:

https://ai.googleblog.com/2019/07/building-smily-human-centric-similar.html

谷歌AI：学习更好的偏微分方程仿真方法

研究人员已经开始探索使用ML在高性能计算方面提供持续改进的可能，以解决偏微分方程和科学计算中的困难计算问题。他们发现，ML可以用来学习在更粗的网格上更好地表示PDEs。

他们能够改进现有的方案，用基于机器学习的优化规则取代基于人类深刻洞察力的启发式。根据他们的说法，他们在ML模型中发现的规则是复杂的，他们并不完全理解这些规则，但是他们集成了复杂的物理原理，比如“上卷”的概念。为了精确地模拟流体中向你吹来的东西，你应该顺着风吹来的方向向上看。下面是他们在一个简单的流体动力学模型上的结果的一个例子。

本研究的重点是提高技术，以解决更大规模的模拟现实世界的科学计算问题，如天气和气候预测。

研究人员还展示了一种将机器学习和物理有效结合起来的方法。神经网络可以与传统模拟方法中的组件相结合，从而在复杂的高维空间中学习插值的最优规则，而不是从零开始学习物理。

通过这样的研究，我们可以期待更多的增强工程系统、自然现象仿真、知识发现、可视化数据处理以及更好的优化手段。

原文：

https://ai.googleblog.com/2019/07/learning-better-simulation-methods-for.html

视听结合进行持续的情感预测

阿斯隆理工学院计算机与软件工程系的研究人员致力于寻找合适的特征，并展示基于头部和眼睛的线索在情绪预测上的有效性。

这个项目研究了基于头部和眼睛的特征与语音的结合，用来进行持续的情感预测。从这些模式中手工自动产生和卷积神经网络学习的特征将用于持续的情感预测。该工作采用的方法包括从视频中收集LLDs（low level descriptors），然后根据提出的特征和特征组合输入创建和评估BLSTM-RNN模型。作为特征工程过程的一部分，一些LLDs可以从基于头部姿态、眼睛或视觉特征中获取，而另一些LLD则根据原始数据测量的差异计算。

最近人们对人类情感的机器识别产生了浓厚的兴趣。该方法采用开源软件对通信环境的视听效果进行实时预测。结果表明，与单独使用语音相比，语音和眼神的结合提高了3.5%的唤醒预测和19.5%的效价预测准确率。

原文：

https://arxiv.org/abs/1907.09919

推荐系统中候选生成和冷启动挑战的研究

本研究针对推荐系统冷启动和候选生成两方面的问题，提出了一种基于深度学习的分类方法。研究人员提出了一种分类的深度学习技术，来解决推荐系统中的冷启动和候选生成问题。

冷启动是通过附加功能(用于音频、图像、文本)和学习隐藏的用户与对象表示来解决的。候选生成则通过分离的网络、RNNs、自动编码器和混合方法解决。该研究还总结了这些技术的优点和局限性，同时展望了未来研究的方向。

推荐系统为企业和客户提供了许多便利。它们使消费者的搜索过程变得非常简单，并帮助企业实现更高的销量、更高的网络使用率、更高的客户保留率和更高的利润率。

Netflix上80%的电影都有推荐系统。在YouTube上，60%的视频点击来自推荐。本文描述的工作是为未来开发稳定的推荐系统进行的有益尝试。

原文：

https://arxiv.org/abs/1907.08674

其他爆款论文

研究人员发现，经过深思熟虑的视觉数据能够改善推理，并更有效地识别有意义的模式：

https://arxiv.org/abs/1907.09567v1

文本描述VS人声仿声搜索的主观性研究：

https://arxiv.org/abs/1907.08661

一个通用的re-id深度学习模型：

https://arxiv.org/abs/1907.09511v1

社交机器人目前和未来设计方向的框架：

https://arxiv.org/abs/1907.09873

一种使用高阶函数表示三维物体的新方法：

https://arxiv.org/abs/1907.10388

AI新闻

企业AI使用情况:25%使用AI的公司拥有高达50%的失败率：

https://www.forbes.com/sites/gilpress/2019/07/19/this-week-in-ai-stats-up-to-50-failure-rate-in-25-of-enterprises-deploying-ai/#58437db372ce

亚马逊是如何基于AI重建的：

https://www.forbes.com/sites/cognitiveworld/2019/07/19/the-twenty-year-history-of-ai-at-amazon/#1865c9ec68d0

谷歌改进了呼叫中心的语音识别效率：

https://www.zdnet.com/article/google-improves-speech-recognition-for-contact-center-tools/

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家，在北京生活5年。他是深度学习系统部署方面的专家，在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验，他还教授了1000名学生了解深度学习基础。

LinkedIn：

https：//www.linkedin.com/in/christopherdossman/