十年前,研究人员认为让计算机来区分猫和狗几乎是不可能的。如今,计算机视觉识别的准确率已超过99%。Joseph Redmon通过一个叫YOLO的开源目标检测方法,可以迅速识别图像和视频中的目标。

来源 | CDA数据分析师 编译 | Mika

点击下方视频,先睹为快:

10年前,计算机视觉研究者认为,要让一台电脑去分辨出一只猫和狗的不同之处,这几乎是不可能的,即便是在当时人工智能已经取得了重大突破的情况下。

Joseph Redmon家养的猫

Joseph Redmon家养的狗

但如今我们已经可以做到让它的正确率在99%以上。这个方法叫做图像分类,给它一张图,再给这张图贴上标签。通过这种方式,计算机就可以知道数千种的分类。

我是华盛顿大学的一名研究生,我正致力于一个名叫Darknet的项目,这是一个用来训练和测试计算机视觉模型的神经网络结构。

Joseph Redmon所进行的Darknet项目

让我们来看看Darknet是如何看待这张图片。

当我们在这张图片上运行识别器时,我们注意到,它不仅能判断出图片上是猫是狗,还能给出它是哪个品种的预测。这就是我们目前所达到的粒度级别。

它的预测是正确的,我的狗的确是一只阿拉斯加雪橇犬。

很明显,我们在图像识别上取得了惊人的进步。但是如果我们对这样一张图片运行识别器,会如何呢?

看一下,我们看到识别器给出了一个非常相似的预测。而且是正确的,图中是有一只阿拉斯加雪橇犬。但只使用这一个标签,我们并不能真正的了解这张图片,我们需要更强大的检测器。

我正在研究一个叫做目标检测的问题,也就是尝试将一张图上的所有目标物都找出来,然后将它们分别框起来,再加上标注。

这就是我们对这张照片运行检测器时所发生的。基于这样的结果,我们可以用计算机视觉算法做更多的事情。

我们发现,它知道这里有一只猫和一只狗。知道它们的相对位置,它们的大小,甚至还知道一些额外的信息,例如背景里有一本书。

如果你想建立一个基于计算机视觉的系统,比如说无人驾驶汽车或者机器人系统,这就是你想要得到的信息。你需要一个能与物质世界互动的系统。

速度对于目标检测至关重要

当我最开始开展目标检测项目时,它要花20秒去处理一张图片。

为了理解为什么速度在这个领域是如此重要。举一个例子,这是一个2秒钟就能处理一张图片的检测器。这个检测器的速度要比处理每张图需要20秒的检测器快10倍。可以看到在它做出预测的时候,被检测的世界已经发生变化了。这对于一个应用来说是没有多大用处的。

点击播放 GIF 0.0M

每2秒处理一张图

如果我们将它的速度再提升10倍,这个检测器每秒可处理5张画面,这就好很多了。

点击播放 GIF 0.0M

每秒处理5张图

但是,举个例子。如果有任何重大的移动,它就反应不过来了。我可不想让这样的一个系统来驾驶我的汽车。

这是在我电脑上运行的实时检测系统。当我在移动时,它能顺利地追踪我。而且它强大到能适应不同的物体大小、姿势、向前、向后的改变,很了不起。

点击播放 GIF 0.0M

实时检测系统

如果我们想要建造一个基于计算机视觉的系统,那么这就是我们真正需要的。

仅仅是几年的时间,我们就从每张图20秒提升到了每张图20毫秒,速度提高了1000倍。我们是如何做到的呢?

目标检测将图片分成小区域进行识别

过去,目标检测系统会将这张图片分成很多小区域,然后在每一块区域运行一下识别器。在识别器中获得最高分数的输出就会被认为是这张图片的检测结果。这涉及到要在一张图片上运行数千次识别器,以及数千次的神经网络评估才能获得检测结果。

而现在,我们训练了可以做出所有检测的单一网络,它能同时生成边界盒和类别概率。

使用我们的系统,不需要为了生成检测结果去重复上千数次地看同一张图片,只看一次就行了。这也是为什么我们称之为,目标检测的"YOLO(you only look once)法"(只看一次)。

有了这个速度,我们就不仅限于识别图像了,还可以实时处理视频。现在我们不仅看到了猫和狗,还能看到它们走来走去,互相嘻戏。

点击播放 GIF 0.0M

这是一个我们在微软的COCO数据库上,用80种不同种类的物品训练过的检测器。包含了各种东西,像勺子、叉子、碗等常见物品。

还有各种奇特的东西,动物、汽车、斑马、长颈鹿。

现在我们要做点儿有趣的事情,我们的摄像头将要对准观众区看看能检测出什么。

我们把检测阀值调低一点,这样就可以找出更多的观众。看下我们能不能找出这些停车标志,我们发现了一些背包。所有这些都是在电脑上实时处理的。

点击播放 GIF 0.0M

请大家记住,这是一个通用的目标检测系统。因此我们可以将它训练用于任何领域的图像识别。

拓展到自动驾驶汽车、机器人甚至癌症检测等应用领域

我们在无人驾驶汽车中,用来发现停车标志、行人和自行车的代码,同样可以用于在组织活检中找出癌细胞。全球已经有很多研究者正在利用这一技术在医学、机器人学等方面取得了进展。

今天早上,我刚读到一篇文章,人们在内罗毕国家公园对动物数量进行普查,使用了YOLO作为检测系统的一部分。因为Darknet是一个开源项目,在公共领域任何人都可以免费使用。

但是我们想要让检测器能被更多人使用,也更好用因此通过结合模型优化,网络二值化和近似法,我们实际上已经可以在手机上进行目标检测了。

我真的很激动,因为我们在初级计算机视觉问题上有了强大的解决方案,同时任何人都可以使用它来做些什么。

接下来就看所有在座的各位,以及世界上所有能够使用这个软件的人了。我已经等不及想要看看,人们会用这一技术创造出什么来了,谢谢大家。

超级实时图形计算机,从猫狗不分到实时识别准确率超过99%,计算机图像识别是如何做到的?...相关推荐

  1. 计算机识别检测,从猫狗不分到实时识别准确率超过99%,计算机图像识别是如何做到的?...

    原标题:从猫狗不分到实时识别准确率超过99%,计算机图像识别是如何做到的? [导读] 十年前,研究人员认为让计算机来区分猫和狗几乎是不可能的.如今,计算机视觉识别的准确率已超过99%.Joseph R ...

  2. 计算机基础猫狗,怎样教一台计算机区分猫和狗?一文零基础入坑机器学习

    01 教计算机区分猫和狗 在教孩子区分"猫"和"狗"时,几乎所有父母都不会告诉孩子某种形式的科学定义(例如,狗属于哺乳动物这个大类中犬科的一员,而猫属于相同大类 ...

  3. 关于电子科技大学清水河校区流浪猫狗的调研报告.

    关于电子科技大学清水河校区流浪猫狗的调研报告 一. 调研时间 2018年10月27日--2018年10月28日 二. 调研地点 电子科技大学清水河校区三四组团.学子餐厅食堂门口0 三. 调研人员 组长 ...

  4. TensorFlow项目练手(二)——猫狗熊猫的分类任务

    项目介绍 通过猫狗熊猫图片来对图片进行识别,分类出猫狗熊猫的概率,文章会分成两部分,从基础网络模型->利用卷积网络经典模型Vgg. 基础网络模型 基础的网络模型主要是用全连接层来分类,比较经典的 ...

  5. java-php-python-ssm流浪猫狗救助网站2021计算机毕业设计

    java-php-python-ssm流浪猫狗救助网站2021计算机毕业设计 java-php-python-ssm流浪猫狗救助网站2021计算机毕业设计 本源码技术栈: 项目架构:B/S架构 开发语 ...

  6. 基于JAVA社区流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署

    基于JAVA社区流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署 基于JAVA社区流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署 本源码技术栈: 项目架构:B/S架构 ...

  7. 怎样教一台计算机区分猫和狗?一文零基础入坑机器学习

    导读:机器学习是一个快速发展的研究领域,主要关注设计和分析能让计算机学习的算法.作为一门新兴学科,尽管有待发掘的知识比已经掌握的知识要多得多,但当前的机器学习方法已经被用于教计算机执行各种各样有用的任 ...

  8. java计算机毕业设计社区流浪猫狗救助网站源码+系统+数据库+lw文档+mybatis+运行部署

    java计算机毕业设计社区流浪猫狗救助网站源码+系统+数据库+lw文档+mybatis+运行部署 java计算机毕业设计社区流浪猫狗救助网站源码+系统+数据库+lw文档+mybatis+运行部署 本源 ...

  9. 基于JAVA流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署

    基于JAVA流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署 基于JAVA流浪猫狗救助网站计算机毕业设计源码+数据库+lw文档+系统+部署 本源码技术栈: 项目架构:B/S架构 开发语 ...

最新文章

  1. vscode中PyLint报错Unable to import解决方案
  2. react 日历组件_anujs1.5.1支持React.Suspense与lazy
  3. java控制cmd导出dmp文件_cmd的操作命令导出导入.dmp文件
  4. mysql 创建表字段长度范围_Mysql的建表规范与注意事项
  5. kafka消费报错:org.apache.kafka.common.errors.WakeupException: null
  6. jstack分析线程状态
  7. CIC滤波器原理及设计实现
  8. Python安装pyqt4
  9. C# 之 LINQ(一)
  10. 史上最新最全面的java大数据学习路线(新手小白必看版本)
  11. 我有DIY一Android遥控-所有开源
  12. LCEDA-国产PCB设计工具
  13. 国开《Android智能手机编程》终结性考核
  14. 【保卫萝卜】笔记 1
  15. 关于印发《测绘地理信息质量管理办法》的通知
  16. 快速将多个Excel表格合并为1个,你会吗?
  17. 对JavaEE的理解
  18. Lucene学习——IKAnalyzer中文分词(一)
  19. 使用GitBook编写文档书籍
  20. Mac Docker入门安装使用

热门文章

  1. K8S安装和NSX-T协同配置--Step to Step lab
  2. 【WordExcel】【2】excel把公式生成的#value!去掉
  3. 普乐蛙5d动感影院设备价格批发4d5d影院5d电影体验
  4. JS实现简易留言板功能
  5. Cocos2d-x单机游戏防八门神器修改数据
  6. 1.1 Introduction (computer abstractions and technology)
  7. 2022 年度优秀开源技术
  8. DS CATIA Composer R2022 x64 Multilanguage
  9. android studio今日头条,AndroidStudio——今日头条(可以实时获取数据的app)
  10. 关于数据库方面的书籍