人工智能目前有哪些突破？

作者：微软亚洲研究院
链接：https://www.zhihu.com/question/401469738/answer/1328852412
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

人工智能在助力人类未来、实现可持续发展上的突破是目前最大的突破之一，微软人工智能在永久存储、降低能耗、保护生态、医学研究方面都取得了显著成果。

环境可持续发展

面向可持续发展的存储、网络和计算技术

近年来，人类产生的数据量正在以指数级增长，而对于大多数行业来说，关键数据的丢失更可能造成不可承受的损失。与此同时，目前人们依赖的网络和存储技术也耗费了大量的能源资源。

这一愿景促使微软在存储、网络和计算这三个关键领域上重新思考和发明全新的颠覆性技术。2019年，微软与华纳兄弟首次将电影《超人》存储在了一块能容纳 75.6GB 数据的石英玻璃中，它不仅防水、耐磨、耐高温，更无需用高功耗的方式保存和维护，可以稳定地将数据存储上万年。由于海量的数据在网络传输中会耗费大量的能量，微软还研发了一种能够大大降低网络传输能耗的光学网络。

微软和华纳兄弟成功在一块杯垫大小的石英玻璃上对电影《超人》进行了存储和读取

此外，微软也始终致力于研究最新的人工智能算法，来减少计算资源的消耗以及在计算过程中产生的碳排放。比如，微软亚洲研究院研发了一系列轻量级机器学习模型，通过算法创新来完成复杂模型的轻量而高效的实现，能够在计算资源少几个数量级的情况下训练出高精度的机器学习模型。

AI for Earth，延续我们生存的家园

微软“地球人工智能计划” (AI for Earth) 是一个致力于为解决环境和可持续发展问题的个人和组织提供云计算、开源工具和 AI 技术支持的平台，利用 AI 技术助力农业、水、生物多样性和气候问题的解决。

例如，非营利组织切萨皮克湾保护协会（Chesapeake Bay Conservancy）的使命是保护这片美国面积最大的河口湾。他们斥资百万制作了这片流域的高分辨率地图，但由于花费时间较长，流域内的信息变化导致地图已经过时了。而在 AI for Earth 平台的支持下，该保护协会得以在极短的时间内低成本地重建了方圆64000平方英里的地图，并使用深度学习技术精确地更新了数据。

切萨皮克湾保护协会与微软合作建立的切萨皮克湾流域地图的一部分

公共健康可持续发展

积极对抗新冠疫情

随着疫情在全球发展，微软正在加速推进 AI for Health 项目，为处于新冠疫情研究一线的科研人员提供支持。多项抗击新冠疫情的合作与行动正在有条不紊地开展，包括为 “抗击新冠肺炎高性能计算联盟”组织提供强大的计算资源，助力华盛顿大学健康测量及评价研究所发布的新冠肺炎数据可视化内容和预测等等。

微软亚洲研究院的研究人员基于在计算生物学、数据分析等领域的专业知识和研究经验，构建了新冠数据分析网站 COVID Insights (http://covid.msra.cn)，希望透过数字表面，更深入、多角度地分析新冠疫情的相关数据。

弱监督学习助力医学影像

通过深度学习，AI 可以辅助医生进行病理筛查，帮助他们提高诊断效率。微软亚洲研究院的研究人员希望通过端到端的深度学习方法训练这个系统，在标注数据有限的情况下进行医学影像的处理、分类和切割。这种方法可以应用在大肠癌、肺癌、宫颈癌等许多领域，通过减少对标注数据的依赖，让更多的数据能够得到快速的分析。

本账号为微软亚洲研究院的官方知乎账号。本账号立足于计算机领域，特别是人工智能相关的前沿研究，旨在为人工智能的相关研究提供范例，从专业的角度促进公众对人工智能的理解，并为研究人员提供讨论和参与的开放平台，从而共建计算机领域的未来。

微软亚洲研究院的每一位专家都是我们的智囊团，你在这个账号可以阅读到来自计算机科学领域各个不同方向的专家们的见解。请大家不要吝惜手里的“邀请”，让我们在分享中共同进步。

也欢迎大家关注我们的微博和微信 (ID:MSRAsia) 账号，了解更多我们的研究。

发布于 07-09

作者：梅小梅
链接：https://www.zhihu.com/question/401469738/answer/1283929051
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1.新型三维电路结构与螺旋记忆提高人工智能效率

来自东京大学工业科学研究所的研究人员设计并制造了专门的计算机硬件，这些硬件由一排排排列在3d螺旋中的存储模块组成，用于人工智能(AI)应用。这项研究可能为下一代节能型人工智能设备开辟道路。

机器学习是一种人工智能，允许计算机通过示例数据进行培训，以便对新实例进行预测。例如，像Alexa这样的智能语音算法可以学习理解您的语音命令，因此即使您第一次要求某事，它也能理解你。然而，人工智能往往需要大量的电能来训练，这就引起了人们对增加气候变化的担忧。

对于这些应用程序，每一层的输出通常连接到下一层的输入。我们的架构大大减少了互联布线的需要。通过实现二值化神经网络系统，该团队能够使该设备更加节能。参数被限制为+1或-1，而不是允许任意数目。这不仅极大地简化了所使用的硬件，而且压缩了必须存储的数据量。他们使用人工智能中的一项常见任务来测试该设备，即解读一个手写数字数据库。科学家们表示，增加每个电路层的尺寸可以提高算法的精度，最高可达90%左右。

2.新算法利用人工智能帮助控制1型糖尿病

俄勒冈健康与科学大学的研究人员和内科医生利用人工智能和自动化监测，设计了一种帮助1型糖尿病患者更好地控制血糖水平的方法。

“我们的系统设计是独特的，”OHSU医学院博士生Nichole Tyler说。“我们设计人工智能算法时完全使用一种数学模拟器，但是当这个算法在OHSU111型糖尿病人的真实数据中得到验证时，它产生的建议与内分泌学家的建议非常相似。”

这一点很重要，因为糖尿病患者通常要在与内分泌学家约会之前3至6个月。

在那时，如果血液中葡萄糖水平过高，或降得太低，他们可能面临危险的并发症。1型糖尿病患者不能生产自己的胰岛素，所以他们必须坚持每天使用胰岛素泵或通过每天多次注射。由OHSU科学家开发的算法使用从连续血糖监测仪和无线胰岛素笔收集的数据，为调整提供指导。

这项新研究涉及在四周内对16位1型糖尿病患者进行监测，表明该模型有助于降低低血糖或低血糖。如果不予治疗，低血糖会导致昏迷或死亡。

3.人工智能将模糊像素的照片变成超现实的肖像

这种人工智能可以将最模糊的照片转换成电脑生成的高清人脸。

杜克大学(Duke University)的研究人员开发了一种人工智能工具，可以将模糊的、无法识别的人脸图像转换成计算机生成的肖像，其细节比以往任何时候都更加精细，令人信服。以前的方法可以将人脸图像缩放到原始分辨率的8倍。但是杜克大学的团队已经想出了一种方法，用少量的像素创造出分辨率高达64倍的真实面孔，“想象”出一些特征，比如细纹、睫毛和胡茬，这些都是最初不存在的。

合著者Sachit Menon '20岁，刚从杜克大学毕业，主修数学和计算机科学，他说，虽然研究人员把重点放在人脸上作为概念的证明，但理论上同样的技术可以拍摄几乎任何东西的低分辨率照片，并创造出清晰、逼真的图像，应用范围从医学和显微镜到天文学和卫星图像。

研究人员将在2020年计算机视觉和模式识别会议(CVPR)上展示他们的方法，该会议将于6月14日至6月19日虚拟举行。

该系统可以在几秒钟内将一张1616像素的人脸图像转换为1024 x 1024像素，增加100多万像素，相当于高清分辨率。在低分辨率照片中难以察觉的细节，如毛孔、皱纹和头发，在电脑生成的版本中变得清晰清晰。

研究人员让40个人对通过PULSE和其他五种评分方法生成的1440张图片进行评分，评分范围从1到5,PULSE的评分最高，几乎和真人的高质量照片一样高。

4.科学家利用人工智能和计算机视觉来研究锂离子电池

新的机器学习方法揭示了锂离子电池的降解过程，并表明它比许多人想象的要复杂得多。

随着时间的推移，锂离子电池会失去动力，这使得科学家和工程师们努力研究这个过程的细节。现在，美国能源部SLAC国家加速器实验室的科学家们已经将复杂的机器学习算法与x射线断层扫描数据结合起来，生成了一幅详细的图像，展示了电池的一个组成部分，即阴极，是如何随着使用而退化的。

本月发表在《自然通讯》(Nature Communications)杂志上的这项新研究，重点在于如何更好地观察镍锰钴阴极的变化。在这些阴极中，NMC粒子由导电碳基体结合在一起，研究人员推测性能下降的一个原因可能是粒子脱离了该基体。该团队的目标是将斯坦福大学的斯坦福同步加速器辐射光源(SSRL)和欧洲同步加速器辐射设施(ESRF)的尖端能力结合起来，全面了解NMC粒子是如何分裂并脱离母体的，以及这可能如何导致性能损失。

当然,它对人类是一个艰巨的任务:找出发生了什么NMC阴极的通过看图片,所以团队转向计算机视觉、机器学习算法的一个分支,它最初设计扫描图像或视频和识别和跟踪对象像狗或汽车。

为了解决这个问题，团队使用了一种用于处理分层对象的算法，例如，拼图，我们认为它是一个完整的实体，尽管它是由许多单独的部分组成的。通过研究人员自己的输入和判断，他们训练了这个算法来区分不同种类的粒子，从而开发出NMC粒子，无论大小，是否断裂，如何从阴极脱离的三维图像。

第二，虽然大的NMC粒子更有可能被破坏并脱离，但也有相当多的小粒子会脱离，总的来说，小粒子的行为方式有更多的变化，SLAC的科学家、这篇新论文的资深作者刘益金说。刘说，这一点很重要，因为研究人员通常认为，通过制造更小的电池颗粒，他们可以制造更持久的电池。

5.物理学家利用人工智能识别光源

一种智能量子技术,用于识别测量较少的光源.

识别光源在诸如LIDAR、遥感和显微镜等许多光子技术的发展中起着重要作用。传统上，识别像日光、激光辐射或分子荧光这样的不同光源，需要数百万次测量，特别是在低光环境中，这限制了量子光子技术的实际应用。

由于测量量较少，研究人员可以更快地识别光源，在某些应用（如显微镜）中，他们可以限制光损伤，因为他们在开展测量时不必给样品做多少照明。

Magana-Loaiza博士表示，密码学是另一个有价值的应用。他说：“为了生成加密电子邮件或信息的密钥，你需要进行数百万次的测量。”“我们可以加快产生量子密钥，用于使用类似的神经元进行加密。”

“鉴于激光对遥感所起的重要作用，我们的工作有助于开发新一代智能LIDAR系统，能够识别从远程物体中反映的被截获或修改的信息，”博士说。你LIDAR是一种遥感方法，通过用激光照射靶子，用传感器测量反射光，测量靶的距离。

“利用我们的技术，智能量子LIDAR系统的干扰概率将大大降低。此外，将LIDAR光子从环境光（例如阳光）中区分的可能性，也将对低光级的遥感产生重要影响。

作者：优必选科技
链接：https://www.zhihu.com/question/401469738/answer/1326231110
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

1. AI识别：守住口罩佩戴“健康防线”

企业复工潮来临，公共场所人流持续升高，佩戴口罩、全员测温、全面消毒成为全民出行的标配模式。针对口罩这道“健康防线”，我们根据不同情况训练出了三类AI算法：佩戴口罩、未佩戴口罩、口罩没戴好。

与一般的“口罩识别”不同，“口罩佩戴识别”除了可以检测到人员“是否佩戴口罩”，还能针对“是否戴好口罩”（比如：口罩仅遮挡嘴部、口罩仅遮挡下巴、口罩未遮挡面部），作出准确识别。并且准确率超过99%，支持15人同时进行检测，对防护识别效率有极大的帮助。

口罩佩戴识别的三类AI算法

最小人脸像素

AI算法支持检测的最小人脸像素是40*40人脸的像素，能够保证在进行实时检测的同时，尽量检测到更小面积的人脸。

本地端解决方案

为了在执行检测任务时不依赖于网络传输，口罩佩戴识别采用了本地端的解决方案，避免因为WIFI信号弱或者没有网络造成的检测失效。

AIMBOT（智巡士）机器人的口罩佩戴识别画面

2. AI检测：零接触筛查体温异常

防疫工作需要高精度的测温热成像设备，通过利用深度学习方案的人脸检测方案，以及可见光通道和热成像通道的图像配准技术，实现了非接触式的多人并发精准测温，比如有以下几点优势：

2.5-3.5米远距离大范围测温
支持15人同时测量
测量效率200人/分钟
相较人工测温，效率提升20倍

零接触全画面筛查

当防疫机器人加入新的算法后，通过红外和可见光双目摄像，可以自动识别来访人员的口罩佩戴情况和体温信息，即使多人一起，也能结合AI分析，实现瞬间全画面多人识别。

人体测温双光筒机

防疫机器人采用了人体测温双光筒机，通过可见光照片与红外照片共同锁定，测量体温的同时可以拍照记录，能够识别并追踪体温异常人员，进一步提升工作效率。

ATRIS（安巡士）机器人的体温检测画面

3. AI上路：精准执行消杀任务

针对需要消毒杀菌的公共服务区域，室内测温巡检机器人AIMBOT（智巡士）和室外智能防疫机器人ATRIS（安巡士）利用消杀喷雾组件，可以执行定时自动巡回消杀任务。

U-SLAM立体导航技术

基于自研的U-SLAM立体导航技术，防疫机器人在巡检、巡逻和消毒灭菌时可以自主设定线路、地点和时间，进行实时定位与地图构建，实现厘米级的精准定位导航。

多传感器融合

通过激光雷达、GPS和多种传感器融合，防疫机器人能自主识别环境和障碍物，实现多方位立体导航避障。

AIMBOT（智巡士）机器人在深圳三院发热门诊进行消毒喷杀工作

与传统人工方式相比，AI和机器人技术的加入，成为防疫工作的有力保障，无论是重症医疗监护，还是协助一线防控，都在发挥“7*24小时、非接触、智能”的积极作用，降低人类在疫情的危险系数，满足前线不同场景的需求。

想知道视觉技术如何应用在防疫机器人上？请戳下面链接：

有没有将深度学习融入机器人领域的尝试？有哪些难点？www.zhihu.com

编辑于 07-09

作者：观远数据
链接：https://www.zhihu.com/question/401469738/answer/1286488612
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

机器学习

当年Alpha Go Master击败最强的人类围棋选手之一李世石已经让人不可思议，感受到了人工智能强大的地方。后来出现了AlphaGo Zero，居然经过3天的训练，就击败了Master版本。

为什么AlphaGo Zero可以那么迅速地战胜Alpha Go Master，根本原因就是机器学习的伟大。因为Alpha Go Master是通过学习人类棋谱，来评估下一步的可能性。而AlphaGo Zero版本，除了围棋规则外，没有任何背景知识，并且只使用一个神经网络，它完全不依赖人类棋手的经验，随着训练的不断进行，网络对于胜率的下法概率的估算将越来越准确。

而这种机器学习的应用在近几年也逐步商业化，例如通过机器学习实现的需求预测。

需求预测是很多零售消费企业比较关心的场景，而这个场景最大的难度就在于预测的精准性。我们对一个事件进行预测一般是基于历史的情况进行推演出一个规律，通过这个规律来进行推演到未来。它的特点就是我的短期的预测的精度要远远高于长期的预测的精度，即，未来一周的预测要比未来三个月的精度要高。

而机器学习，首先将数据集划分为训练集和测试集，其次，对于训练集做特征筛选，提取有信息量的特征变量，而筛除掉无信息等干扰特征变量，再次，应用算法建立模型，最后，结合测试集对算法模型的输出参数进行优化。可以不断提高预测的精准性。

目前，观远数据在机器学习领域就有深度的研究，通过将现金的算法算力进行融合，在多家500强企业中落地了需求预测模型。有兴趣了解的朋友评论区讨论。

发布于 06-16

作者：华来知识
链接：https://www.zhihu.com/question/401469738/answer/1287631545
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

人工智能在中国的蓬勃发展令全球瞩目。

人工智能行业协会发布的《2019人工智能产业发展白皮书》指出，中国人工智能产业市场规模逐年攀升，2015年至2018年复合平均增长率为54.6%，增速高于全球平均水平36%。中国人工智能市场规模预计到2020年达到约990亿元。

目前中国的人工智能企业数量居全球第二，是全球人工智能投融资规模最大的国家。从国际比较来看，中国人工智能发展已经进入国际领先集团。

人工智能是产业发展的趋势，在产业推动下AI在多个应用领域有了重要突破。

一、图像识别为防疫助力！

人工智能结合应用场景，通过图像识别，可以对采集到的来自不同视觉源的数据进行处理和分析。例如，检测车牌、诊断疾病以及刷脸支付。

2020年这场冲击全球的疫情下，图像识别一跃成为最被人们熟知的AI应用。发热是最常见的症状之一，无论是社区，园区，还是地铁站、高铁站等我们可见众多摄像头+AI识别的体温监测系统。它着实的解决了传统测温导致的人员接触传染、测温效率低不准确、无数据记录等问题。

·远距多人场景：针对远距离多人并发通行的轨道交通、办公楼宇、小区等场景，通过AI图像识别技术+远距离测温方式，提供非接触式人脸识别摄像机+热成像摄像机方案，实现疑似发热、未戴口罩异常事件实时告警，同时防疫数据实时上报给云端，实时管控辖区域疫情防控进展，提升城市、社区安全性。

·通道场景：针对安全等级要求高，例如工业园区、建筑工地、校园等需要门禁通道式场景，通过闸机/人脸识别终端/红外测温仪整体解决，即使在戴口罩场景下，也能够快速识别身份，识别率超过90%，提升上下班通行和考勤效率；

·人脸识别温感门禁机：实现人脸识别、无感测温、无感通行于一体，快速识别人员信息并进行实时体温检测，支持戴口罩识别、未戴口罩预警、体温异常预警。识别精度高，通行速度快。

二、供应链物流中AI高效应用

在商业供应链和物流领域中，通过利用人工智能、区块链和机器人技术等新兴技术，供应链将有更好的机会来改进，并取得进展。

在618、双十一等令人疯狂的购物节，购物消费量和快递包裹数更是年年屡创新高，同时顾客收到包裹的时间缺是越来越短，这背后就是淘宝、京东、顺丰等企业在物流领域布局投产AI后的亮眼效果。

例如“双11”，京东物流在北京、青岛、上海、广州、武汉等13个“亚洲一号”智慧物流中心及全球首个全流程无人仓、昆山无人分拣中心以及全自主研发的武汉无人仓等全面投入使用。

菜鸟网络人工智能部负责人表示，在“双11”来临前，通过人工智能算法精准地预测热卖商品和热卖地区，让商家提前将“双11”货品下沉存放在不同的城市分仓。“智慧仓配网络让货还没买，就到了，这样订单就可以就近运输。”

Amazon在2012年收购了Kiva Systems机器人项目后，在25个配送中心中引进了80,000个机器人。人工智能机器人在很大程度上提高了工作效率，降低了成本。随着机器人技术的应用，亚马逊公司已经将运营成本降低了20%，每年可节省约2200万美元。

三、更加自然的人工智能客服

随着时间的推移，越来越多的企业和零售商将使用虚拟代理和对话聊天机器人，以联系消费者，并通过服务解决他们的问题，而无需将这些问题转给工作人员。

目前我们日常能接触到的AI客服越来越多，12345电话回访、京东/天猫的官方客服、400客服电话、银行客服电话等，都已经成熟的应用了人工智能客服，作为大批量访问的预处理。

例如，Autodesk公司开发了名为Ava的虚拟代理。这个虚拟代理看起来就像人类一样，可以帮助人们完成结账过程，回答他们的问题，引导他们了解内容，并根据情感信号与用户进行交互。

将会变得更好。人们能够看到聊天机器人变得比以前更先进，更像人类。而使用自然语言处理技术，与机器人的对话就像与在线客服人员交谈一样，人们可以轻松地与聊天机器人交谈。还有一些企业将聊天机器人设置成为动画虚拟坐席，可以改善客户体验，并更好地为人工智能聊天机器人提供支持。

三、更高级的人工智能助理

亚马逊的Alexa、苹果的Siri、小度、小爱同学等人工智能助手可以用来获取天气预报、播放歌曲、关掉室内照明，以及在线进行问答搜索，这个新兴的人机交互技术正在被消费者所接受。

根据Adobe Analytics公司的研究，据说大约71%的智能音箱用户每天至少使用一次智能音箱，而大约44%的智能音箱用户表示一天使用多次。因此，在2019年，人们将能够看到更多先进的人工智能助理在家庭和工作场所提供帮助，并影响其他生活领域。

在未来几年，随着人工智能助理可以完成更复杂的任务，这些变化将会很大。而只需识别用户的声音，他们就能够为用户提供个性化的体验。

四、对话式人工智能搜索

随着越来越多的人开始使用人工智能助理，未来的趋势将是使用高级对话人工智能搜索技术。随着语音搜索的引入，消费者在网上搜索信息和获得答案的方式发生了很大的变化。用户不必在搜索栏中输入单词，只需要向人工智能设备说出搜索查询的事物，就可以构建正常的会话。这显然意味着用户从搜索结果中获得答案的方式也将发生改变。

可以说，用户将得到的不仅仅是来自人工智能搜索的答案，还有更多的对话。它将回答一些问题以确定用户实际需要什么内容。因此，通过回答这些问题，用户可以通过搜索结果轻松地找到他们正在寻找的内容。随着人们正在改变搜索网络的方式，他们将会得到更高质量的答案。人工智能将有助于在这方面发挥更大的作用。

五、人工智能提供支持的招聘工具

根据招聘网站Indeed的调查，42%的企业并不确定能否找到合适的人才。对于企业而言，招聘过程是一项费时费力的任务。人工智能可以改变这一切。这意味着在2020年，企业将更多地采用人工智能技术的招聘工具。

例如，像Mya这样的聊天机器人招聘代理可以通过短信、电子邮件或Skype与应聘者进行交流。该应用可以帮助完成初级任务，并为企业限定应聘者的条件和资格。

通过使用基于人工智能的应聘者通信和筛选工具，将有助于企业和组织在选择应聘者的过程中节省更多时间。

六、商业沟通赋能

人工智能在工作场所的引入将极大地帮助那些积极与客户进行持续沟通和互动的企业。可以使用人工智能应用程序和工具来记录企业工作人员与客户之间的对话，并将其用于今后的分析和反馈，以供参考。根据客户的观点，企业高管可以轻松做出更好的决策。

例如，一个名为Chorus.Ai的基于人工智能的工具有助于自动记录和存储会话，并以此衡量销售人员的表现。这有助于他们更好地改变销售流程，并进行有效的对话。

发布于 06-17

作者：amaze2
链接：https://www.zhihu.com/question/401469738/answer/1319124636
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

人工智能领域近年来的突破比较少，但是组合创新还是挺多的。这里推荐一种比较新的深度学习方法：深度残差收缩网络。

深度残差收缩网络是ResNet的一个改进，其实是ResNet、注意力机制和软阈值化的集成。

在某种程度上，深度残差收缩网络的算法原理，可以解释为：通过注意力机制注意到不重要的特征，通过软阈值化将它们置为零；或者说，通过注意力机制注意到重要的特征，将它们保留下来，从而加强从强噪声信号中提取有用特征的能力。

1.为什么要提出深度残差收缩网络呢？

首先，在对样本进行分类的时候，样本中不可避免地会有一些噪声，就像椒盐噪声、高斯噪声、拉普拉斯噪声等。更广义地，样本中很可能包含着与当前分类任务无关的信息，这些信息也可以理解成噪声。这些噪声可能会对分类效果产生不利的影响。（软阈值化是许多信号降噪算法中的一个关键步骤）

举例来说，我们在马路边聊天的时候，聊天的声音里就可能会混杂车轮声、车辆的鸣笛声和绿化带的树叶声等。当对这些声音信号进行语音识别的时候，识别效果不可避免地会受到影响。从深度学习的角度来讲，这些鸣笛声、车轮声、树叶声所对应的特征，就应该在深度神经网络内部被删除掉，以免对语音识别效果造成不利影响。

其次，即使是同一个样本集，各个样本的噪声量也往往是不同的。（这和注意力机制有共通之处；以一个图像数据集为例，各张图片中目标物体所在的位置可能是不同的；注意力机制可以针对每一张图片，注意到目标物体所在的位置）

例如，当训练猫狗分类器的时候，对于标签为“狗”的5张图片，第1张可能同时包含着狗和老鼠，第2张可能同时包含着狗和鹅，第3张可能同时包含着狗和鸡，第4张可能同时包含着狗和驴，第5张可能同时包含着狗和鸭子。我们在训练猫狗分类器的时候，就不可避免地会受到老鼠、鹅、鸡、驴和鸭子等无关物体的干扰，造成分类准确率下降。如果我们能够注意到这些无关的老鼠、鹅、鸡、驴和鸭子，将它们所对应的特征删除掉，就有可能提高猫狗分类器的准确率。

2.软阈值化是很多信号降噪算法的核心步骤

软阈值化，是很多信号降噪算法的核心步骤，将绝对值小于某个阈值的特征删除，将绝对值大于这个阈值的特征朝着0的方向进行收缩。它是通过以下公式实现的：

软阈值化的输出对于输入的导数为

由上可知，软阈值化的导数要么为1，要么为0。这个性质和ReLU激活函数是一样的。因此，软阈值化也能够减小深度学习算法遭遇梯度弥散和梯度爆炸的风险。

在软阈值化函数中，阈值的设置必须符合两个的条件：第1，阈值是正数；第2，阈值不能大于输入信号的最大值，否则输出会全部为零。

同时，阈值最好还能符合第3个条件：每个样本能够根据自身的噪声含量，有着自己独立的阈值。

这是因为，很多样本的噪声含量经常是不同的。例如经常会有这种情况，在同一个样本集里面，样本A所含噪声较少，样本B所含噪声较多。那么，如果是在降噪算法里进行软阈值化的时候，样本A就应该采用较大的阈值，样本B就应该采用较小的阈值。在深度神经网络中，虽然这些特征和阈值失去了明确的物理意义，但是基本的道理还是相通的。也就是说，每个样本应该根据自身的噪声含量，有着自己独立的阈值。

3.注意力机制

注意力机制在计算机视觉领域是较易理解的。人类的视觉系统可以快速扫描全部区域，发现目标物体，进而将注意力集中在目标物体上，以提取更多的细节，同时抑制无关信息。具体请参照注意力机制方面的文章。

Squeeze-and-Excitation Network（SENet）是一种较新的注意力算法。在不同的样本中，不同的特征通道，在分类任务中的贡献大小，往往是不同的。SENet采用一个小型的子网络，获得一组权重，进而将这组权重与各个通道的特征分别相乘，以调整各个通道特征的大小。这个过程，就可以认为是在施加不同大小的注意力在各个特征通道上。

在这种方式下，每一个样本，都会有自己独立的一组权重。换言之，任意的两个样本，它们的权重，都是不一样的。在SENet中，获得权重的具体路径是，“全局池化→全连接层→ReLU函数→全连接层→Sigmoid函数”。

4.深度注意力机制下的软阈值化

深度残差收缩网络就参考了上述SENet的子网络结构，以实现深度注意力机制下的软阈值化。通过红色框内的子网络，就可以学习得到一组阈值，对各个特征通道进行软阈值化。

在这个子网络里，首先对输入特征图的所有特征，求它们的绝对值；然后经过全局均值池化和平均，获得一个特征，记为A。在另一条路径中，全局均值池化之后的特征图，被输入到一个小型的全连接网络。这个全连接网络以Sigmoid函数作为最后一层，将输出归一化到0和1之间，获得一个系数，记为α。最终的阈值可以表示为α×A。因此，阈值就是，一个0和1之间的数字×特征图的绝对值的平均。这种方式，不仅保证了阈值为正，而且不会太大。

而且，不同的样本，就有了不同的阈值。因此，在某种程度上，深度残差收缩网络可以理解成一种特殊的注意力机制：注意到与当前任务无关的特征，通过软阈值化，将它们置为零；或者说，注意到与当前任务有关的特征，将它们保留下来。

最后，堆叠一定数量的基本模块以及卷积层、批标准化、激活函数、全局均值池化以及全连接输出层等，就得到了完整的深度残差收缩网络。

5.深度残差收缩网络或许有着更广泛的通用性

深度残差收缩网络事实上是一种通用的特征学习方法。这是因为很多特征学习的任务中，样本中或多或少都会包含一些噪声，以及不相关的信息。这些噪声和不相关的信息，有可能会对特征学习的效果造成影响。例如说：

在图像分类的时候，如果图像同时包含了很多其他的物体，那么这些物体就可以被理解为“噪声”；深度残差收缩网络或许能够借助注意力机制，注意到这些“噪声”，然后借助软阈值化，将这些“噪声”所对应的特征置为零，就有可能提高图像分类的准确率。

在语音识别的时候，如果在声音比较嘈杂的环境里，例如在马路边、机械车间里聊天的时候，深度残差收缩网络或许可以提高语音识别的准确率，或者给出了一种能够提高语音识别准确率的思路。

原始论文：

Minghang Zhao, Shisheng Zhong, Xuyun Fu, Baoping Tang, Michael Pecht, Deep residual shrinkage networks for fault diagnosis, IEEE Transactions on Industrial Informatics, 2020, 16(7): 4681-4690.

更多资料：

https://github.com/zhao62/Deep-Residual-Shrinkage-Networksgithub.com

深度残差收缩网络_百度百科baike.baidu.com深度残差收缩网络：从删除冗余特征时的灵活程度进行讨论 - 木林森8910的个人空间 - OSCHINAmy.oschina.net10分钟看懂深度残差收缩网络 - 翼下之峰 - 博客园www.cnblogs.com

发布于 07-04

作者：回到2049
链接：https://www.zhihu.com/question/401469738/answer/1353559057
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

AI子领域包括：机器学习（ML），自然语言处理（NLP），深度学习（DL），机器人流程自动化（RPA），回归等等。那么过去一年AI到底获得了那些突破呢？我们与21名专业人士聊完之后，汇总了一下他们的见解。

事实

过去的一年里人工之智能取得了许多突破，特别是在深度学习方面。例如，AlphaGo Zero能够自学围棋、国际象棋，并且可在没有人工干预的情况下与人类进行游戏。Taco Tron 和百度的DeepVoice生成的语音几乎与人类语言完全相同。此外，计算机视觉、目标检测和图像分割也变得更加精准，甚至在医学诊断和生物学研究中可与人类媲美。但是，自然语言处理、聊天机器人以及文本摘要等技术都没达到预期目标。

人工智能已经存在很长时间了，新旧事物都在进步，重要的是不能低估公众意识的力量。当深蓝打败加里·卡斯帕罗夫时，情况就不同了。之前只在电影中看到人类被机器打败，而现在真实发生了，这很大程度改变了人们的看法。而我们还有很多应用程序通过人工智能提供商业价值。

人工智能不再被视为仅存在于科幻小说中了。大多数科技公司已经了解人工智能对企业的益处。这使得该技术在过去几个月里取得了快速发展，具有了更好的收益能力，以及机器实时改进其学习过程的能力也得到了提高。

在过去的一年里，我们将重点放在了构建真正的会话型AI上。目前的各种助手不具有处理更复杂和有价值的任务的能力，要想实现则需要人工智能技术。它能够基于知识进行推理，通过上下文和个性化理解不完整或模糊的语言，人工智能利用并超越了模式匹配，从而实现真正的动态对话。就像人类还会通过手势、凝视和以及其他因素进行交流，我们也开始在系统中连接其他服务以及虚拟助手。这就是为什么我们推出了cognitive arbitrator，它通过一个跨越汽车、智能家居和物联网（IoT）生态系统的单一接口，无缝地连接和集成了不同的虚拟助理、第三方服务和内容，以完成复杂的任务并增强用户体验。因此我们能够最大限度的为用户提供独特的和具有个体差异性地体验，同时实现了各助手之间各种服务的交互性。这对物联网生态系统中的每个个体都是双赢的，特别是购买使用产品和服务的人。

AI和ML已经走出实验室，转向更主流的应用程序了。人工智能正进入新的章程，而且才刚刚开始。六年前数据科学家的头衔还不存在，如今已经变得非常专业化，数据科学家和开发人员实现了使用人工智能更快更好地完成任务。

GPUs

从2000年到2003年，所有的贸易公司都逐步采用了算法交易。在过去的几年里，由于应用程序需求的增加，机器学习获得了快速发展。在一些需要创造性的情境中，人工智能正在取代人类，因为机器可以根据新的信号来源和大量数据自行做出决定。

从技术上讲，过去一年里，由于开发人员开始利用处理能力加速应用程序的发展，使得基于GPU的服务器变得司空见惯。像谷歌的TPU这样的专业处理器开始出现，而它的竞争对手云服务提供商正在合作开发一个开源的深度学习库。此外，也从大数据和点工具（如Hadoop和Spark）开始稳步过渡到使用人工智能和神经网络的更广泛的数据分析类。ML通过使用大型不同的数据集，以及将算法智能应用到分析中来缩小这些方法之间的差距。而学习算法的自学能力还处于初级状态，人工智能在我们的生活中的地位日益增加，产品和服务推荐引擎和图像处理系统得到了显著改善，人工智能产生了许多新职业。该领域的创新步伐正在迅速加快。

效率

AI和ML的概念是云计算的关键要素，但这只有在用户掌握数据的情况下才行得通。通过ML实现的自动化程序提高了企业员工的工作效率，而且随着员工对人工智能工具越来越熟悉，这种自动化程度还会越来越高。此外，简化数据集成的工作正在兴起，尤其是企业希望能够从数据中获取更多有用信息，对预测分析的日益关注使企业能够将实时数据转化为行动指南。

数据

人工智能并不是新鲜事物，但它的复兴是由于能够处理所需数据以及数据速度和类型。信息是大量且杂乱的，需要使用人工智能从中获取有用信息与数据。但问题是，他们无法完全掌控周围的数据。

人工智能在过去一年里发生了戏剧性的演变，主要原因有两个：1）所有的企业都在迅速进行数字化转型。2）新业务和操作数据集的引入速度，以及它们提升了对人工智能自动化业务和操作活动的需求。人工智能的需求已经从“最好具备”发展到“必须拥有”。决策者认识到实施人工智能才能使业务取得更大成功，所以人工智能现在是每个公司首席信息官和首席财务官议程上的一个关键项目。

其他

各种大肆的宣传传递了一个内容，那就是人工智能的趋势还会继续。机器学习的民主化在于普通工程师就能使用它。跟一年前相比，现在软件工程师可以更简单的做出有趣的ML。由于有更低成本的硬件、可用的数据、迁移学习的技术，使你不必成为超级专业博士，就可以成为了解自己的数据，控制数据的主题专家，从而将所学内容实现商业化价值。

拐点：之前人们逐渐意识到生产问题的严重性，例如数据科学家的短缺问题。为了解决这个问题，现在有大量的在线教育，以及大学开设了数据科学课程。所以实现了全民数据科学家，而且有了自动化ML的趋势：机器自动辅助算法做出选择。

他们在没有云计算的技能集，也没有数据科学家的情况下。多年来一直研究如何在边缘设备上实现更智能的计算。通过语义智能ML，可以使边缘设备变得更加智能。我们能让这些边缘设备系统做一些记忆任务吗？当然可以，这需要更多样化的设备部署，以及将实例化数字角色和应用程序融合到组分模型中。从而使语义更加丰富。

我们当然也会看到对深度学习和黑盒技术的厌倦。在研究方面，似乎发生了很大的一个转变，即开始转向创建不太透明且数据量少的算法。我们如何在不使用大数据的情况下，仅用真实数据就得出结论呢？有些系统数据量非常大，而有些不是，我们如何利用统计学和其它数据技术推导出有意义的解？

发布于 20 小时前

作者：某霁
链接：https://www.zhihu.com/question/401469738/answer/1330321297
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

这个问题下的回答质量让人难受。作为在实验室搬过砖、在公司欣赏过大佬做落地、但自己什么都不会的本科刚毕业的小白，我来抛砖引玉一下。如果以下内容有任何错误，请毫不犹豫地喷我，我一定会改正。

个人认为近十年来ai领域最大的突破依然是深度学习的广泛应用及其惊人的效果。所以说nvidia爸爸牛逼，nvidia爸爸造出了炼丹炉，带动了一大波炼丹项目。

我稍微有点了解的领域是计算机视觉（cv，以前的方向）、自然语言处理（nlp，目前的方向）、数据挖掘（道听途说）。

计算机视觉：
- 传统cv技术已经非常成熟，包括图像识别、物体检测、物体分割，一些更小的任务包括人脸识别、行人重识别（re-id）等等。以上方法基本都基于深度学习和CNN网络。许多cv技术已经落地、大家能够实际用到了，比如一些实名认证系统用到人脸识别，商场也经常看到re-id的演示（就是那种一个大屏幕把不同的人框出来）。一些创业公司也基本是基于cv的，因为cv技术最成熟。
- 然而，凡是都有一个然而。听我做cv科研的同学说，cv科研的下一步路很不好走，视频、3D等都是硬骨头，难啃。当然这是一家之言，不一定准确，但私以为cv的下一个技术爆发可能还有比较远的距离。
自然语言处理：
- 自然语言处理的落地可谓是非常不行。经常听人吐槽“自然语言处理太难了”，很多任务基线贼低，尤其是生成类任务就垃圾得很。在落地方面，个人觉得只有机器翻译做到成功落地了（google translation个人体验很好），然后搜索引擎也经常用到nlp技术辅助（比如在搜索引擎内直接搜索问题、搜索引擎推荐一个答案的应用，通常包括nlp技术），其他落地都不太令人满意。
- 从技术研发方面，个人觉得nlp处在井喷时期。其核心就是因为Transformer这一技术的出现，以及基于Transformer的预训练模型（如BERT，GPT土豪系列）。很多分类任务都被刷榜了，生成类任务也在快速发展中；当然这些方法距离落地还有一定距离。个人认为目前的nlp有点类似几年前的cv。
数据挖掘：我只道听途说过，所以了解不多。目前推荐系统和knowledge graph应该落地比较广泛了。学术界的推荐系统也有各种魔改式应用，如推荐系统+文本、推荐系统+语音之类的。图神经网络（graph neural network）这两年在学术界很火，落地效果我不太了解。

诸如ai + security之类的不太主流的、交叉的方向个人不太了解。个人认为ai + security、ai + system之类的算是很好的科研方向，而且存在一定壁垒、没那么容易被取代。（因为要求学过cs课程，我这种ee半路转行ai的就做不了，哭哭）但是至少在目前，个人觉得这些方向还没有什么类似CNN或推荐系统这样跨时代的、革命性的、能够变革绝大多数落地产品的突破。如果看到有人吹ai吹得太狠了，请记住下图：

（机器学习和AI的区别：

用Python写的大概是机器学习，

用PPT写的大概是AI。）

编辑于 07-10

就目前来看，人工智能在医疗健康领域的应用，还处于简单融合的初级阶段。

同时，“人工智能＋医疗”的普及，还面临着行业标准的建立、监管体系的完备、社会观念的更新等一系列问题。

要想全面落地，还有许多壁垒。比如，在医疗领域，“数据孤岛”一直存在。

将人工智能技术应用于医疗行业，数据处理是关键。在技术层面，目前人工智能技术的应用大多体现在对影像资料和数据的分析上。

而人工智能如何通过与病人的直接接触和互动交流来实现精准诊断和治疗，依然是一道技术难题。

其次，尽管一直在探索，但目前并未形成较为成熟的人工智能医疗盈利模式。当前中国公立医院的特性是非营利性机构，医疗是个信息极度不对称的领域，人工智能医疗方面盈利模式的核心在于解决不对称的两端的痛点，这是一个复杂的难题。同时民营医院多数自身经营不错，如何说服民营医院进行合作也是一个挑战。

作者：不解风情的老妖怪
链接：https://www.zhihu.com/question/401469738/answer/1283999333
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。