深度学习在图像领域的几大任务
深度学习对于图像的检测共分为4大任务:
从任务需求本身的角度来考虑,由于四个任务的处理结果的信息量依次增加,需要的工具的复杂度会依次增加,因此完成相应任务的难度也会越依次增加。
(1)图像分类a--->(2)目标检测b--->(3)语义分割c--->(4)实例分割d(是按照难度递增的方式)
这张图完美地解释了四个的区别。
(1)图像分类:(Image Classification )
The task of object classification requires binary labels indicating whether objects are present in an image。
图像分类该任务需要我们对出现在某幅图像中的物体做标注。(例如输入一个测试图片,输出该图片中的物体类别)
(2)目标检测:(或者Object detection )
Detecting an object entails both stating that an object belonging to a specified class is present, and localizing it in the image. The location of an object is typically represented by a bounding box.
物体检测,实现了两个任务:一是判断属于某个特定类的物体是否出现在图中;二是对该物体定位,定位常用表征就是物体的边界框。可实现:输入测试图片,输出检测到的物体类别和位置。
(3)语义分割:(或者Semantic scene labeling )
The task of labeling semantic objects in a scene requires that each pixel of an image be labeled as belonging to a category, such as sky, chair, floor, street, etc. In contrast to the detection task, individual instances of objects do not need to be segmented。
语义标注/分割:该任务需要将图中每一点像素标注为某个物体类别。同一物体的不同实例不需要单独分割出来。对下图,标注为人,羊,狗,草地。而不需要羊1,羊2,羊3,羊4,羊5。
(4)实例分割(Instance segment )
实例分割是物体检测+语义分割的综合体。相对物体检测的边界框,实例分割可精确到物体的边缘;相对语义分割,实例分割可以标注出图上同一物体的不同个体(羊1,羊2,羊3...)
PS:计算机视觉的三大任务
计算机视觉领域中:分类、定位、检测这三者的区别。先让我们需要好好区分一下这三个任务的区别:
A、图片分类:给定一张图片,为每张图片打一个标签,说出图片是什么物体,然而因为一张图片中往往有多个物体,因此我们允许你取出概率最大的5个,只要前五个概率最大的包含了我们人工标定标签(人工标定每张图片只有一个标签,只要你用5个最大概率,猜中其中就可以了),就说你是对的。
B、定位任务:你除了需要预测出图片的类别,你还要定位出这个物体的位置,同时规定你定位的这个物体框与正确位置差不能超过规定的阈值。
C、检测任务:给定一张图片,你把图片中的所有物体全部给我找出来(包括位置、类别)。
-----------end-------
深度学习在图像领域的几大任务相关推荐
- 【AI初识境】近20年深度学习在图像领域的重要进展节点
文章首发于微信公众号<有三AI> [AI初识境]近20年深度学习在图像领域的重要进展节点 这是专栏<AI初识境>的第3篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使 ...
- 深度学习在图像领域的应用
深度学习在图像领域的应用 随着深度学习近几年的火热发展,在计算机视觉,图像理解方向上,应用越来越广泛.我们总结了在视觉领域的一些方向上基于深度学习的优秀算法.包括物体检测.物体识别.人脸世界.分割.跟 ...
- 「AI初识境」近20年深度学习在图像领域的重要进展节点
https://www.toutiao.com/i6694432730714735117/ 这是专栏<AI初识境>的第3篇文章.所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法. ...
- 基于深度学习的图像语义编辑
深度学习在图像分类.物体检测.图像分割等计算机视觉问题上都取得了很大的进展,被认为可以提取图像高层语义特征.基于此,衍生出了很多有意思的图像应用. 为了提升本文的可读性,我们先来看几个效果图. 图1. ...
- 深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源 | 黄浴 原文 | https://zhuanlan.zhihu.com/p/55747295 ...
- 深度学习在计算机视觉领域图像应用总结
简单的回顾的话,2006年Geoffrey Hinton的论文点燃了"这把火",现在已经有不少人开始泼"冷水"了,主要是AI泡沫太大,而且深度学习不是包治百病的 ...
- 深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用一览...
来源 | 黄浴 原文 | https://zhuanlan.zhihu.com/p/55747295 编辑 | 机器学习算法那些事 分享一篇深度好文,从计算机视觉的底层图像/视频处理.3-D.到计算 ...
- 深度学习在计算机视觉领域(图像,视频,3D点云,深度图等)应用全览
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴@知乎 来源丨https://zhuanlan.zhihu.com/p/55747295 编 ...
- 深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用
深度学习在计算机视觉领域(包括图像,视频,3-D点云,深度图)的应用 转自 https://zhuanlan.zhihu.com/p/55747295 深度学习在计算机视觉领域(包括图像,视频,3-D ...
最新文章
- 知识图谱实体链接是什么?一份“由浅入深”的综述
- java开发,年薪15W的你和年薪50W的他的差距
- android 发送前台广播,使用IntentService与BroadcastReceiver实现后台服务(Android7.0可用)...
- (转) Java多线程同步与异步
- centos将某一目录权限给用户_CentOS账号和权限的管理,指定用户目录权限
- python中变量类型在程序中可以改变_详细解析Python当中的数据类型和变量
- 常用机器学习算法汇总比较(完)
- asp 开发app_ASP.NET Core应用的错误处理[1]:三种呈现错误页面的方式
- webservice之helloword(web)rs
- Bootstrap 列平移/列偏移
- jfinal分页时使用like
- java将map输出到d盘_java后台的“/”相对路径不是代表webroot吗,为什么在这里代表了d盘,测试的文件都传到了d盘呀?...
- python得语言编程模式_一图看懂编程语言迁移模式:终点站是Python、Go、JS!
- pip下载安装了第三方模块,Pycharm里面无法导入
- pdf文件过大怎么办?3种免费压缩PDF的方法
- 共享打印机显示计算机权限,Win7共享打印机无法访问:您没有权限访问怎么办?
- 合宙Air105 + GC032A摄像头驱动显示教程说明
- 名校女教授,强迫其男博士“发生性关系多年”!索赔750万
- marve register license
- Git for windows下载、安装配置并从GitHub Clone项目