大数据文摘专栏作品

作者:Christopher Dossman

编译:conrad、笪洁琼、云舟

呜啦啦啦啦啦啦啦大家好,本周的AI Scholar Weekly栏目又和大家见面啦!

AI Scholar Weekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:说话人识别、病理图像搜索、推荐系统

本周最佳研究

吱一声就知道你是谁,深度学习识别短片段说话人

UtterIdNet是一种新型的具有短语音片段识别能力的深度神经网络。该模型的灵感来自于两个成功且非常流行的深度神经网络架构:ResNet和DeepID3。据该模型背后的研究人员称,该模型采用了一种新的体系结构,通过在短语音片段中有效地增加信息的使用,使其适合于短片段说话人的识别。

他们在VoxCeleb数据集上对UtterIdNet进行了训练和测试,这是说话人识别的最新基准,并证明UtterIdNet在短片段上的表现优于最先进的技术。对不同分段持续时间的评估显示,短分段的性能一致且稳定,对于2秒、1秒、特别是微秒的分段,与之前的模型相比有显著改进。

随着智能虚拟助手的不断发展,它们对增强语音识别算法的要求也越来越高。与传统的先进模型相比,该模型显示了更好的结果。虽然在完整的语音片段中表现出了微弱的优势,这也是研究人员打算在未来的工作中进行研究的,但是UtterIdNet在增强短片段语音识别方面有很大的潜力。

原文:

https://arxiv.org/abs/1907.10420

SMILY:一个以人为中心,相似图像的病理搜索工具

谷歌AI最近分享了两篇研究论文,描述了在医疗保健领域类似图像搜索的人机交互研究进展。在第一篇题为《SMILY: 组织病理学的相似图像搜索》的论文中,他们描述了一个基于ML的工具,用于病理学中的反向图像搜索。第二篇论文《医疗决策过程中,以人为中心处理不完美算法的工具》探索了基于图像搜索的不同细化模式,并评估了它们对医生与SMILY交互的影响。

SMILY实现了一个深度学习模型,使用50亿个自然的、非病理图像进行训练。该模型学会了通过计算和比较图像的嵌入来区分相似的图像和不同的图像,然后使用癌症基因组图谱中未识别图像的语料库创建图像补丁及其相关嵌入的数据库。当在SMILY工具中选择一个查询图像补丁时,将以类似的方式计算查询补丁的嵌入,并与数据库进行比较,以检索嵌入最相似的图像补丁。

SMILY在协助搜索大型数据库的数字化病理图像上有很大的潜力。它可以帮助编制带有描述性说明的病理图像教材的索引,使受训的医科学生或病理学家能够使用视觉搜索对这些教材进行检索,加快教学进程。

此外,它还可以应用于癌症研究人员感兴趣的研究——肿瘤形态学与患者预后的相关性。研究结果还表明,复杂的ML算法需要与以人为中心的设计和交互工具相结合,这是最有意义的。

原文:

https://ai.googleblog.com/2019/07/building-smily-human-centric-similar.html

谷歌AI:学习更好的偏微分方程仿真方法

研究人员已经开始探索使用ML在高性能计算方面提供持续改进的可能,以解决偏微分方程和科学计算中的困难计算问题。他们发现,ML可以用来学习在更粗的网格上更好地表示PDEs。

他们能够改进现有的方案,用基于机器学习的优化规则取代基于人类深刻洞察力的启发式。根据他们的说法,他们在ML模型中发现的规则是复杂的,他们并不完全理解这些规则,但是他们集成了复杂的物理原理,比如“上卷”的概念。为了精确地模拟流体中向你吹来的东西,你应该顺着风吹来的方向向上看。下面是他们在一个简单的流体动力学模型上的结果的一个例子。

本研究的重点是提高技术,以解决更大规模的模拟现实世界的科学计算问题,如天气和气候预测。

研究人员还展示了一种将机器学习和物理有效结合起来的方法。神经网络可以与传统模拟方法中的组件相结合,从而在复杂的高维空间中学习插值的最优规则,而不是从零开始学习物理。

通过这样的研究,我们可以期待更多的增强工程系统、自然现象仿真、知识发现、可视化数据处理以及更好的优化手段。

原文:

https://ai.googleblog.com/2019/07/learning-better-simulation-methods-for.html

视听结合进行持续的情感预测

阿斯隆理工学院计算机与软件工程系的研究人员致力于寻找合适的特征,并展示基于头部和眼睛的线索在情绪预测上的有效性。

这个项目研究了基于头部和眼睛的特征与语音的结合,用来进行持续的情感预测。从这些模式中手工自动产生和卷积神经网络学习的特征将用于持续的情感预测。该工作采用的方法包括从视频中收集LLDs(low level descriptors),然后根据提出的特征和特征组合输入创建和评估BLSTM-RNN模型。作为特征工程过程的一部分,一些LLDs可以从基于头部姿态、眼睛或视觉特征中获取,而另一些LLD则根据原始数据测量的差异计算。

最近人们对人类情感的机器识别产生了浓厚的兴趣。该方法采用开源软件对通信环境的视听效果进行实时预测。结果表明,与单独使用语音相比,语音和眼神的结合提高了3.5%的唤醒预测和19.5%的效价预测准确率。

原文:

https://arxiv.org/abs/1907.09919

推荐系统中候选生成和冷启动挑战的研究

本研究针对推荐系统冷启动和候选生成两方面的问题,提出了一种基于深度学习的分类方法。研究人员提出了一种分类的深度学习技术,来解决推荐系统中的冷启动和候选生成问题。

冷启动是通过附加功能(用于音频、图像、文本)和学习隐藏的用户与对象表示来解决的。候选生成则通过分离的网络、RNNs、自动编码器和混合方法解决。该研究还总结了这些技术的优点和局限性,同时展望了未来研究的方向。

推荐系统为企业和客户提供了许多便利。它们使消费者的搜索过程变得非常简单,并帮助企业实现更高的销量、更高的网络使用率、更高的客户保留率和更高的利润率。

Netflix上80%的电影都有推荐系统。在YouTube上,60%的视频点击来自推荐。本文描述的工作是为未来开发稳定的推荐系统进行的有益尝试。

原文:

https://arxiv.org/abs/1907.08674

其他爆款论文

研究人员发现,经过深思熟虑的视觉数据能够改善推理,并更有效地识别有意义的模式:

https://arxiv.org/abs/1907.09567v1

文本描述VS人声仿声搜索的主观性研究:

https://arxiv.org/abs/1907.08661

一个通用的re-id深度学习模型:

https://arxiv.org/abs/1907.09511v1

社交机器人目前和未来设计方向的框架:

https://arxiv.org/abs/1907.09873

一种使用高阶函数表示三维物体的新方法:

https://arxiv.org/abs/1907.10388

AI新闻

企业AI使用情况:25%使用AI的公司拥有高达50%的失败率:

https://www.forbes.com/sites/gilpress/2019/07/19/this-week-in-ai-stats-up-to-50-failure-rate-in-25-of-enterprises-deploying-ai/#58437db372ce

亚马逊是如何基于AI重建的:

https://www.forbes.com/sites/cognitiveworld/2019/07/19/the-twenty-year-history-of-ai-at-amazon/#1865c9ec68d0

谷歌改进了呼叫中心的语音识别效率:

https://www.zdnet.com/article/google-improves-speech-recognition-for-contact-center-tools/

专栏作者介绍

Christopher Dossman是Wonder Technologies的首席数据科学家,在北京生活5年。他是深度学习系统部署方面的专家,在开发新的AI产品方面拥有丰富的经验。除了卓越的工程经验,他还教授了1000名学生了解深度学习基础。

LinkedIn:

https://www.linkedin.com/in/christopherdossman/

机器有了综合感官?新研究结合视觉和听觉进行情感预测 | 一周AI最火论文相关推荐

  1. 新研究起底人类和机器注意力机制的区别|一周AI最火论文

    大数据文摘专栏作品 作者:Christopher Dossman 编译:笪洁琼.conrad.云舟 呜啦啦啦啦啦啦啦大家好,拖更的AIScholar Weekly栏目又和大家见面啦! AI Schol ...

  2. 阿里安全新研究:给图片打“马赛克”就能骗过 AI 视觉系统

    阿里安全人工智能 AAIG 实验室等机构的研究者提出了一个新的机制来生成对抗样本,即与增加对抗扰动相反,他们通过扔掉一些不可察觉的图像细节来生成对抗样本.这项研究成果已被 AI 顶会 ICCV 202 ...

  3. 预测机器剩余使用寿命的可解释回归框架;基于磁场诱导Skyrmion动力学的神经形态计算模式识别;宽截面纳米带连续体内外的束缚态:一种新的递归S矩阵方法;脑-机接口:研究从视觉诱发电位到纯粹想象稳态电位

    可解释的机器学习 1)中文标题:预测机器剩余使用寿命的可解释回归框架 英文标题:An Explainable Regression Framework for Predicting Remaining ...

  4. 计算机多媒体就业难点,【计算机专业论文】信息技术在计算机教学中的新研究(共3002字)...

    摘要:随着时代的发展和科学技术的进步,多媒体资源在课堂中的运用范围越来越广,多媒体信息技术也因其生动直观的特点广受教师的青睐.因此,本文从中职计算机课程学习中,运用多媒体信息技术的必要性出发,探讨如何 ...

  5. 烟草物流信息综合管理平台研究与应用——以H市卷烟厂烟草物流配送中心为例

    烟草物流信息综合管理平台研究与应用 --以H市卷烟厂烟草物流配送中心 摘 要 自我国正式加入世界贸易组织(WTO)以来,我国卷烟与外国卷烟之间对零售终端市场的竞争日益激烈,中国烟草目前正面临前所未有的 ...

  6. 方向对了?MIT新研究:GPT-3和人类大脑处理语言的方式惊人相似

    来源:机器之心 本文约2700字,建议阅读6分钟 人和机器都是这样组织语言的. 「人工智能网络并没有试图直接模仿大脑,然而最终看起来像大脑一样,这在某种意义上表明,人工智能和自然之间发生了某种趋同演化 ...

  7. 2015年的ResNet潜力都挖掘出来了吗?新研究:不用蒸馏、无额外数据,性能还能涨一波...

    来源:机器之心 基线:我要是用上最新的训练流程,性能还能涨一波. 在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network,深度残差网络)一直被视为经 ...

  8. 苏黎世大学 AI 新研究:仅用少量样本生成高质量光声图像

    近日,苏黎世联邦理工学院和苏黎世大学的科学家宣布,可以利用机器学习方法来改善光声成像,成果发表在Nature Machine Intelligence上(点击查看论文链接) "光声成像&qu ...

  9. 李飞飞新研究:基于深度学习和视觉化语言来了解不同物体间的关系

    来源:凤凰科技 概要:最近她所在的实验室正在做一项新研究,基于深度学习和视觉化语言模式了解不同物体之间的关系. 2017未来科学大奖颁奖典礼暨未来论坛年会28.29日在京举办,斯坦福大学终身教授.谷歌 ...

最新文章

  1. rac_安装软件时报版本号过高问题
  2. 如何处理高并发写入mysql_如何处理高并发情况下的DB插入
  3. Ajax跨域提交JSON和JSONP
  4. PLSQL 安装+配置( Oracle数据库连接工具 )
  5. Python基础项目实践之:面向对象方法实现模拟银行管理系统
  6. 轻松获得网通、电信、铁通IP地址分配段
  7. 栈的应用1——超级计算器(中缀与后缀表达式)C语言
  8. 80G倾斜正射多光谱数据、谷歌影像、各种遥感数据下载
  9. 联想Y450电源管理无法调节屏幕亮度的解决办法
  10. 方格取数问题(网络流24题之一)
  11. [Jetson TX2] NVIDIA Jetson TX2 参数介绍
  12. 转载——天才与锻炼(华罗庚)
  13. Cython入门到放弃(一)
  14. 可扩展的分布式数据库架构 vs 传统关系数据库
  15. 志愿填报在即,店宝宝告诉你,高薪的专业有哪些?
  16. [零刻]EQ12EQ12Po安装Esxi后提示TPM无法建立连接,彻底关闭提示教程
  17. 应急管理指挥中心大数据信息化管控平台建设方案
  18. java完成九宫格数独_数独(简易九宫格) - 小黑202的个人空间 - OSCHINA - 中文开源技术交流社区...
  19. 远控免杀从入门到实践(6)-代码篇-Powershell
  20. 树莓派通过网线连接笔记本屏幕

热门文章

  1. 逍遥模拟器使用指南(四、逍遥安卓模拟器电脑版xposed框架教程)
  2. (24)STM32——待机唤醒(低功耗)笔记
  3. 思齐什么意思_思齐的寓意
  4. 六、线性方程组求解--Jacobi和Gauss-Seidel迭代求解
  5. java集成kettle 9.2.0开发
  6. poj 2152 Fire - 经典树形dp
  7. js如何实现侧边广告_如何用稳定器轻松实现低成本的商业级广告片制作?
  8. apm软件仿真+QGC地面站 环境搭建
  9. 星巴克招人!要技术大拿。
  10. 后渗透之关闭防火墙、杀毒软件并开启远程桌面