雷锋网(公众号:雷锋网)按:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为《视觉智能的探索》 (The  Quest  for  Visual  Intelligent)演讲。李飞飞教授分别从四个视角讲述了她眼里的AI,提到她加入谷歌后从事的几项工作,并致力于推动AI的多样性发展。雷锋网根据其现场演讲整理成本文,由宗仁和亚萌共同编辑。

大家下午好!我非常荣幸看到在这个历史性时刻,中国正在庆祝它在科学和创新领域的进步。今天我来到这边是作为人工智能的学术圈一员,我想跟大家分享一下视觉技术方面最新的进展。

作为社会整体,我们依然是盲人

大概5亿年前,有一些非常简单的生物生活在一片非常大的海洋当中,它们等待着食物的到来,或有时也成为别人的食物。那时的动物王国非常简单,后来可能是出于偶然,最早期的一些动物出现了眼睛这种器官,这些动物的眼睛其实还是非常简单,它们就像古代中国“小孔成像匣”一样初级。在视觉发展之后,动物才变得更加积极,尤其是在猎取食物时,它们可以自发进攻,它们也会寻找更隐蔽的地方躲藏起来,避免自己成为它人的食物。

之后,在一段相对较短的时间内,地球上的物种得到了非常丰富的发展,这也是视觉进化引发的“寒武纪大爆发”。寒武纪大爆发之后,视觉就在动物中发挥着非常重要的作用,帮助它们行动、寻找食物、躲避敌人等等。作为人,我们也是一样的,我们也用视觉支持我们的生活、我们的工作、我们的交流,让我们更好地了解世界。

事实上,在5亿年的进化当中,视觉已经成了我们人最重要的感知系统,我们的大脑中有超过一半都是和视觉处理联系在一起的。虽然,动物在5.4亿年前就看到了世界的光明,但是直到如今我们的机器和计算机所面对的还是“黑暗时代”。我们如今到处都有监控器,但是如果监控器拍到一个小孩落水了,它也并不知道发生了什么事情。

每一分钟,都有成百上千个小时的视频上传到Youtube和Facebook的服务器里,但是我们还不能根据视频的内容来进行搜索;无人机也可以飞翔在广袤的土地上,但我们还不能根据无人机镜头捕捉到的绘制出地貌。

总的来说,我们作为一个社会整体,是个盲人,这是因为我们的最智能的机器还是盲人

作为一名计算机视觉科学家,我们致力于开发出能从视觉世界中学习AI算法,识别出图片、视频里的内容,最终为数字世界带来“光明”。

ImageNet的诞生:从孩子获得灵感

为了实现这样一个目标,首先我们要教计算机识别物体,物体是视觉世界的基础物件。我们给计算机一些特定物体的训练图像,比如猫的图片样本,然后设计数学模型,让机器从这些训练图像中学习。

在早期物体建模中,我们用数学语言,告诉计算机这只猫由不同形状组成(例如圆形的脸、三角型的耳朵等),但是还有很多的图片里的猫,它们摆出各种奇怪扭曲的姿势,这时猫身体的各个部位已经不是规则的形状了,这时要怎么办呢?

所以,为了让不同的猫都能被计算机识别出来,我们需要设计不同的模型,但这样大量的工作真得会把人逼疯,所以研究就陷入了困境。很多年来机器视觉领域的很多科学家,都想找到一个神奇的算法,可以对同一个物体的不同“变种”进行建模。

大概8年前,一个简单但深刻的发现,改变了我的思考方式,那就是从小孩学习的过程中得到灵感。孩子在学认猫的过程中,并没有被告知猫是各种形状的组合,他们只是根据过去的经历习得。如果把小孩的眼睛当做一对生物摄像机,它每秒钟都要看至少5张猫的图片,到了3岁时,一个孩子已经见过数以亿计来自真实世界的图像。

所以在我们专注于找出最佳的算法之前,我们应该为计算机提供跟孩子一样多的训练图片。所以,这时,我们需要采集数据,采集比以往多得多的图像,这个数量将是以前的几千倍。

所以,我和普林斯顿大学的李凯教授、当时的学生Jia Deng一起,启动了ImageNet项目。

我们在网络上找到了很多图片、很多数据,网络是汇集人类所拍照片的最大宝库。经过3年的辛勤工作后,2009年ImageNet正式交付,其中包括1500万张图片和22000类物体,并用日常英语单词组织起来,这在机器学习和视觉领域,从数量和质量来说都是史无前例的。我们比以往,更加准备好了去解决计算机视觉领域的问题。

而这,就是从一个孩子的视角出发得来的。

ImageNet完美匹配的算法:CNN

事实证明,ImageNet提供的充足信息,能够完美匹配某类机器学习算法,就是“卷积神经网络”(CNN),由1970年代和80年代的计算机科学家提出。

卷积神经网络受人脑启发,其中的基本运算单元,是类似神经元的节点,节点能从其它节点接受输入,并输出到其它节点,而且,这成百上千的节点,会分层有序地组织连接在一起。

这是一个非常经典的用来训练物体识别的卷积神经网络模型,它大概有2400万个节点,1.4亿个参数和150亿个连接。ImageNet提供的海量信息,加上现代CPU和GPU来训练如此庞大的模型,卷积神经网络的快速发展超出人们的想象,它成为了非常成功的算法,在物体识别方面取得了令人欣喜的成果。

在一张图里,计算机告诉我们这张照片里有一只猫以及这只猫在哪里;这另一张图里,计算机告诉我们,一个小孩拿着他的泰迪熊。

如今,计算机取得了巨大的进步,然而这还仅仅是第一步。很快,另一个发展里程碑就会达到。孩子会开始用句子来交流,比如看到这张图片,一个小孩会说“一只猫躺在床上”。而计算机也一样,所以要教电脑看懂图片,并且用一句话来描述它。我们需要用到神经系统,并且把神经系统推向一个高度,我们需要把视觉信息和文本信息结合起来,并且让它生成出一个具有意义的句子。

大概是一年半之前,我们与世界上其它几个实验室进行了合作,创造出了第一个根据图片讲故事的计算机视觉算法。

计算机在看到图片时说出了一句描述:“一架大型飞机停在机场跑道上”。

当然,相比三岁的孩子,计算机的发音没有那么可爱。这种看到一张图,产生一句描述语的叫做“Image Capturing”,而且我们将这种能力扩展,使得计算机可以根据一张图片,产生很多句描述。最近,我们提交了一篇论文,计算机通过算法,针对第一次看到的图片,而自动生成出完整的一大段的自然语句。

总之,得到大脑的启发之后,我们发现深度学习的算法和公式能够帮助我们做一些视觉方面的检测,而这就是从大脑的视角得来的

我在谷歌的一些工作

在卷积神经网络和深度学习技术得到如此大的发展之后,我们也开始把焦点转向其它一些领域,尤其是视频。我们要看看,图片中学习到的东西能否复制到视频领域中去,让真实世界从中获益。我们的实验室和谷歌YouTube团队合作,把YouTube上100万个运动相关的视频样本抓取出来,它们分别属于450种运动类别。我们希望有一天这样的技术能够帮助我们去管理、索引和搜索大量的视频和图片。计算机能自动对屏幕上的体育项目进行分类,这里包括各种各样的体育项目,武术、篮球、帆船运动等等。

最近我们的实验室,联合谷歌和Facebook一起进一步扩展了我们工作的范围,不仅仅能够让机器识别出运动的类型,而且可以看看单个队员做了哪些事情。我们来看NBA的篮球,机器可以追踪每个队员在重要事件中的表现,譬如三分球投篮成功等。

我们拿了一些安全监控视频(比如医院里的),通过深度传感器的视频来进行分析应用,识别出当中人的姿势和动作,这个是非常有价值的。

我们和欧洲一个火车站进行了合作,将成百上千个视觉传感器安装在公共空间,利用这些计算机的传感器来追踪乘客的行动,火车站有数百万的人流穿梭,通过这样一种监测可以帮助优化火车站的空间,调整火车发车时间表。

最近我们利用了深度学习、CNN和RNN,让机器学习如何预测人类行为的轨迹,这样一个工作能够把我们前边所讨论的结合在一起。算法不仅有IQ,可以识别出人,而且它也有EQ,来做出被人类社会接受的行为。比如当它用来规划一个机器人的行为轨迹时,就该知道机器人不应该干扰人,或者机器人在一个空间行走时,不能冲进人群里。

我们利用所有这些技术和现实中的情况结合,现在我们和斯坦福医院合作,部署相关技术,可以提高他们手卫生和工作流程,不仅是在工作场所,在家也是。

总而言之,作为一个技术人员,看到计算机视觉算法正在帮助解决现实生活中的问题,真的让我感特别兴奋,这是一个技术人士的视角

保证AI多样性的三个理由

大概是5亿年前,动物视觉和智力面临的挑战就是让个体存活,而如今,机器视觉和AI所面临的挑战就是让人类能够繁荣。作为技术人员我们要问,AI将会成为一种摧毁力,还是能给我们带来更好的世界?我思考这个问题很久了,最近我突然顿悟,AI的未来掌握在那些创造、开发和使用者的手中。无疑的,AI会改变世界,但这里真正的问题是,改变AI又是谁呢

大家都知道,世界各地都是缺乏多样性的,包括美国的硅谷、中国、欧洲等,还有很多其它区域都缺乏多样性,在美国学术界只有25%的计算机专业人士是女性,不到15%的美国顶尖工程学校的教职员工是女性,对于少数族裔来说,女性的代表就更少了,这一不平衡的现象在工业界也同样存在。这并不是工作文化问题,这实际上是经济和集体财产的问题。

几个月前我受邀到美国白宫讨论了AI中多样性的必要性,我提出必须提高AI多样性的三个理由。第一个理由关乎经济和劳动力,AI人工智能是一个日益增长的技术,会影响到每个人,我们需要更多人力开发出更好的技术;第二个理由关乎创造力和创新,很多研究都显示出,当拥有多种多样背景的人共同合作时,会产生更好的结果和更具有创意的解决方案;最后一个理由,关乎社会正义和道德价值,当各种各样背景的人聚集到一起时,他们有着各种各样不同的价值观,代表着人类的技术也会有更加多样性的思考。

视觉和智能的发展造成了动物多样性在5亿年前大爆炸式的增长,现在如果我们能够让更多的人参与到AI教育和研究当中,我们可以鼓励更多技术多样化的发展,这样我们会看到寒武纪技术上的大爆炸,使我们的世界变得更好。

这是一位教育家和一位母亲的视角。

本文作者:亚萌

本文转自雷锋网禁止二次转载,原文链接

李飞飞北京演讲:AI会改变世界,改变AI的又会是谁?相关推荐

  1. 重磅 | 李飞飞最新演讲:ImageNet后,我专注于这五件事——视觉理解、场景图,段落整合、视频分割及CLEVR数据集

    2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...

  2. 重磅 | 李飞飞最新演讲:ImageNet后,我专注于这五件事——视觉理解、场景图,段落整合、视频分割及CLEVR数据集...

    2017中国计算机大会(CNCC2017)于10月26日在福州海峡国际会展中心开幕,大会为期3天. 而就在今天上午,李飞飞.沈向洋.汤道生.马维英等重磅大咖纷纷登台演讲. 据悉,斯坦福大学人工智能实验 ...

  3. 李飞飞团队最新研究 :「四步」AI方案助老人抵抗新冠肺炎,联合学习降低个人隐私风险

    自2018年回归学术界后,李飞飞教授便很少对外露面,近日在一次斯坦福的线上会议,让我们有机会了解她与团队的最新研究--<AI-ASSISTED IN-HOME ELDERLY CARE AMID ...

  4. AAAI和李飞飞等推出K12人工智能教育项目,AI教育低龄化真的好吗?

    转自:https://mp.weixin.qq.com/s/oYtTxI8r4Ee_rBybt-hUIA AAAI和李飞飞等推出K12人工智能教育项目,AI教育低龄化真的好吗? 原创: AI前线小组 ...

  5. 重磅!李飞飞入选美国国家医学科学院,她用AI改变了医疗

    ↑ 点击蓝字 关注视学算法 作者丨小匀 来源丨新智元 编辑丨极市平台 昨晚,美国国家医学科学院(National Academy of Medicine)宣布了新入选的90名正式成员和10名国际成员. ...

  6. 李飞飞入选美国国家医学科学院,她用AI改变了医疗

    来源:新智元 本文约2000字,建议阅读5分钟 多年来,李飞飞一直致力于让AI在医疗领域派上用场. 10月19日,美国国家医学科学院(National Academy of Medicine)在年度会 ...

  7. 李飞飞现身破离职传闻,称谷歌AI中国发展重质不在速

    昨天,关于李飞飞将在未来六个月离职谷歌.重返斯坦福大学的消息被传的沸沸扬扬.在京的李飞飞本人随后在接受国内媒体采访时,对该消息予以否认,同时,谷歌也对此回应表示: "李飞飞是一位成就卓著的人 ...

  8. 2020 AI DEBATE即将召开, Judea Pearl、李飞飞等10多位顶级科学家参与 | AI日报

    2020 AI DEBATE即将召开, Judea Pearl.李飞飞等10多位顶级科学家参与 2020年人工智能领域备受关注的一场辩论 AI DEBATE #2 即将召开. 本次 AI DEBATE ...

  9. 李飞飞最新演讲全文:机器已能“看懂”图像和视频,但我们仍站在人工智能研究的起点

    来源: 科研圈 摘要:AI 不仅仅能够精准辨认物体,还能够理解图片内容.甚至能根据一张图片写一小段文章,还能"看懂"视频...... 所以无论我们在讨论动物智能还是机器智能,视觉是 ...

最新文章

  1. Boost 1.53.0 发布,可移植的C++标准库
  2. ASP.NET Razor – C# 循环和数组简介
  3. struts2(三) 输入校验和拦截器
  4. open函数和errno全局变量
  5. css3兼容性问题归纳
  6. jQuery 1.4版本的15个新功能(现在已经发布到jquery1.8,特别是增强版的live事件,支持 submit , change , focus 和 blur 事件)...
  7. win7 mysql8.0.11安装教程_mysql8.0.13下载与安装图文教程(示例代码)
  8. JDBC插入百万数据,不到5秒!
  9. Axure添加官方元件库
  10. 分享5篇医疗数据挖掘论文(附pdf下载)
  11. 关于new pad利用iPad12的资源缩放的问题 contentScaleFactor设置
  12. android 波斯文排序,android 阿拉伯,波斯字符串从右到左显示问题
  13. Mat和IplImage
  14. 计算机菜单命令后省略号,windows菜单命令项的右边有省略号…表 – 手机爱问
  15. oracle11g64位怎么用sql,PLSQLDeveloper连接Oracle11g64位数据库配置详解(图文)
  16. ios开发eaaccessory案例_iOS App 连接外设的几种方式
  17. amos调节变量怎么画_结构方程模型建模思路及Amos操作--调节变量效果确定(一)(满满都是骚操作)...
  18. mmdetection3d debug 关键文件和断点
  19. Android如何解决文字转语音播报的问题
  20. 打印机用计算机名慢,“电脑连上打印机就超级慢”的解决方案

热门文章

  1. 08-Python基础知识学习------列表类型
  2. 微软发布Lumia系列手机是绝地反击之战
  3. sprintf itoa
  4. 以视频搜视频时代来了!神目发布视频拷贝搜索引擎
  5. 整蛊朋友的python代码{1}(二次创作)
  6. 五个整蛊小程序,被打了别说在我这里看的!
  7. 6.27王者荣耀说服务器在维护,2019.6.27 王者荣耀更新内容 6月27日王者荣耀更新内容...
  8. 国内这么多“ChatGPT”是真是假
  9. java i o是什么流_【Java】I/O流的操作、认识使用
  10. 公主同盟自然流程攻略(GBA版)第1关 盗贼山寨