计算机视觉学习日记1

1.VIA图像标注工具
解析：VGG Image Annotator [VIA]是一款开源的图像标注工具，由Visual Geometry Group开发。可以在线和离线使用，可标注矩形、圆、椭圆、多边形、点和线。标注完成后，可以导出为csv和json文件格式。

2.图像语义分割模型
解析：
[1]FCN，U-Net，V-Net，Mask RCNN，DenseNet，PointSIFT，PointNet++，PointCNN，DeepMask，SegNet，ENet，CRFasRNN，PSPNet，ParseNet，RefineNet，ReSeg，LSTM-CF，DeepMask。
[2]LinkNet，ICNet，DeepLabv3，ERFNet，Large Kernel Matters，DeepLab，PixelNet，PSPNet，FCIS，MultiNet，DilatedNet，CRFasRNN，Dilated convolution，DeconvNet，MNC，Zoomout Semantic Segmentation，ProtraitFCN+，SharpMask。

3.PASCAL Visual Object Classes [VOC]数据集
解析：PASCAL VOC数据集支持五种不同的视觉任务训练包括图像分类、对象检测、图像分割、行为分类、人体Layout。分割是预测图像种每个像素属于哪个类别的任务，VOC数据集总计有21个类别[包括背景]。分割数据集被分为训练与测试两个子集，分别有1464与1449张图像。

4.PASCAL Context数据集
解析：它是PASCAL VOC 2010数据集的扩展，包含10103张基于像素级别标注的训练图像，它包含总数540个类别，其中59个类别是常见类别，被大量标注，整个类别图像的数据符合幂次法则分布。

5.SBD [Semantic Boundaries Dataset]数据集
解析：它的数据来自那些在PASCAL VOC中没有被语义分割标注的图像数据，总计有11355张图像来自PASCAL VOC 2011，实现了两个层级的标注分布是种类/类别与实例对象分割，其中8498张为训练集，2857张为测试集。

6.COCO [Microsoft Common Objects in Context]数据集
解析：微软发布的图像分类、对象检测、实例分割、图像语义的大规模数据集，其中图像分割部分有80分类，82783张训练图像、40504张验证图像，测试集好感80000张图像，而且测试集本身被分为四种不同测试数据，分别应对开发测试、标准测试、评估挑战、过拟合测试。

7.Cityscapes
解析：一个大规模的城市道路与交通语义分割数据集，8大类别30种类的像素级别标注，数据集包含5000张精准标注的图像，20000张标注图像。数据收集来自50多个城市，前后花了几个月的时间，对这个时间线与天气下的场景都进行图像采集，最初原始的数据是视频方式，通过人工选择视频帧，得到最终的数据。整个数据集支持三个级别的分割性能评估：像素级别分割，实例级别分割，全景级别分割。

8.CamVid
解析：来自剑桥的道路与驾驶场景图像分割数据集，图像数据来自视频帧提取，原始分辨率大小为960x720，包括32个类别。分为367张训练图像，100张验证图像，233张测试图像。

9.KITTI
解析：自动驾驶最常用的一个数据集，数据采集来自高分辨RGB、灰度立体相机，3D激光扫描等。但是数据集本身不包括标注的ground truth分割，网上有很多研究机构部分标注的数据集可以下载。

10.Youtube-Objects
解析：数据收集来自Youtube视频网站，分类是PASCAL VOC其中10个子分类包括[aeroplane, bird, boat, car, cat, cow, dog, horse, motorbike, and train]，数据集没有被标注，但是有个好人手动标注了一些，对视频序列每十帧标注一帧，总计对480x360视频数据的10167帧数据进行了标注。

11.Adobe’s Portrait Segmentation
解析：它是一个人体肖像分割数据集，图像分辨率为800x600数据来自Flickr，多数数据是来自手机前置相机拍照的生成。数据集包含1500张训练图像，300张测试图像，全部被标注了，人与背景的分类，图像标注的时候采用了半自动的标注方式。先通过程序进行人脸检测，然后人工手动PS生成。

12.Materials in Context [MINC]
解析：全场景的物体识别数据集，包含23个类别，7061张标记训练图像，5000张作为测试，2500张作为验证。这些图像主要来自OpenSur face数据集。整个数据集的图像分辨率分布从800x500到500x800之间。

13.Densely-Annotated VIdeo Segmentation [DAVIS]
解析：该数据集主要是视频中对象分割数据，目的是适应实时动态视频语义分割挑战。主要有50段视频序列构成，其中4219帧是训练数据，2013帧是验证数据，所有的视频数据都下采样至480P大小，像素级别的对每帧数据标注四个类别，分别是人、动物、车辆、对象。视频的另外一个特征是每帧至少有一个前景目标对象在视频帧中出现。

14.Stanford background
解析：该数据集是室外场景数据集，主要数据来自LabelMe、MSRC、PASCAL VOC、Geometric Context公开数据集。数据集包含715张至少有一个前景对象图像，进行了像素级别的图像标注。主要用于评估分割模型的语义场景理解。

15.SiftFlow
解析：包含2688完全标注的图像，是LabelMe数据集的子集。绝大数图像是室外八种场景，33个类别，256x256大小。

16.ADE20K
解析：该数据集是全尺寸的图像语义分割标注数据集，其中训练图像201210张，验证图像2000张，该数据集格式如下：
[1]*.jpg表示RGB图像
[2]*_seg.png表示对象分割mask图像，既包括实例mask也包括类别mask信息，其中通道R与G被编码成对象mask，通道B被编码成实例mask。
[3]*_seg_parts_N.png表示部分分割mask
[4]*.txt表述每个分割图像的对象与parts的冗余信息文本文件

17.图像语义分割
解析：图像语义分割是计算机视觉最经典的任务之一，早期的图像分割主要有以下几种实现方法：
[1]基于像素分布的分割算法：KMeans、Fuzzy C-Means、GMM、MeanShift
[2]基于图像拓扑结构的分割算法：分水岭填充、轮廓边缘分析
[3]基于能量最大化的分割方法：图割

18.图像语义分割数据集
解析：
[1]2D RGB图像数据集
[2]2.5D或者RGB-D的深度图像数据集
[3]纯立体或者3D图像数据集

19.全景分割数据库
解析：
[1]Cityscapes：https://www.cityscapes-dataset.com/
[2]ADE20k：http://groups.csail.mit.edu/vision/datasets/ADE20K/
[3]Mapillary Vistas：https://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html

20.人脸技术
解析：人脸检测[face detection]、人脸对齐[face alignment]、人脸追踪[face tracking]、人脸解析[face parsing]、人脸3D重建[3D face reconstruction]、人脸姿态估计[face pose estimation]、人脸属性识别[face attribute]、面部表情和动作单元[face expression and action unit]、人脸生成[face generation]、面部模糊[face obfuscation]、面部操作检测[facial manipulation detection]、人脸特征嵌入[face feature embedding]、人脸聚类[face clustering]、视频人脸识别[face recognition from video]等。

21.SLAM
解析：SLAM方式通过重建周边环境，完成建图与感知。

22.3D视觉硬件部分
解析：
[1]激光雷达
[2]三角测量仪
[3]结构光扫描仪
[4]2D相机
[5]鹰眼相机
[6]RGB-D相机

23.3D视觉矩阵运算工具库
解析：
[1]Eigen
[2]Armadillo
[3]ViennaCL
[4]PETs
[5]OpenBLAS

24.3D视觉SLAM工具库
解析：
[1]Sophus
[2]Ceres
[3]G2O
[4]Pangolin
[5]OpenGL

25.机器人抓取过程关键任务
解析：
[1]目标定位
[2]姿态估计
[3]抓取检测
[4]运动规划

参考文献：
[1]VGG Image Annotator：http://www.robots.ox.ac.uk/~vgg/software/via/
[2]COCO数据集的标注格式：https://zhuanlan.zhihu.com/p/29393415
[3]Fluid Annotation：https://fluidann.appspot.com/
[4]wkentaro/labelme：https://github.com/wkentaro/labelme/

计算机视觉学习日记1相关推荐

计算机视觉学习日记2
1.视觉测量相关书籍解析: [1]视觉测量[张广军] [2]机器人视觉测量与控制[徐德等] [3]视觉测量原理与方法[邾继贵] [4]计算机双目立体视觉[高宏伟] [5]三维测量技术及应用[李中伟] ...
java的圆周率_java学习日记，圆周率的打印
前段时间看到听说学习java每天写技术贴会对自己提升很大,我现在学习java也就2个周,算不上技术贴,就写写学习日记吧. 昨天师傅给我出了一道题,说是试试用java打印圆周率. 刚开始我的思路是,如果 ...
GPU（CUDA）学习日记（十一）------ 深入理解CUDA线程层次以及关于设置线程数的思考
GPU(CUDA)学习日记(十一)------ 深入理解CUDA线程层次以及关于设置线程数的思考标签: cuda存储线程结构网格 2012-12-07 16:30 6298人阅读评论(4)收藏举 ...
GPU（CUDA）学习日记（十三）------ CUDA内存简介
GPU(CUDA)学习日记(十三)------ CUDA内存简介标签: cuda存储线程结构 2012-12-07 16:53 2902人阅读评论(0)收藏举报分类: GPU(16) CUDA ...
GPU（CUDA）学习日记（九）------ CUDA存储器模型
GPU(CUDA)学习日记(九)------ CUDA存储器模型标签: cuda存储bindingcache编程api 2012-09-27 10:53 1677人阅读评论(1) 收藏举报分类 ...
语言余一个负数_C语言学习日记（8）——整数溢出
小时候喜欢玩电子计算器,觉得很神奇,想要算什么数,立刻就能算出来.当时看着计算器的液晶屏幕就想,如果算一个很大的数,超过了屏幕上面数字的位数,会怎么样呢?试了以后结果是INF,那就是无穷大了.虽然当时 ...
SpringMVC学习日记 1.Spring框架
SpringMVC学习日记 1.Spring框架 Spring简介 Spring框架是一个开源框架,由Rod Johnson组织和开发,生产目的在于简化企业级应用的开发. 主要特性非侵入(no-in ...
图像坐标：我想和世界坐标谈谈(A) 【计算机视觉学习笔记--双目视觉几何框架系列】
玉米竭力用轻松具体的描述来讲述双目三维重建中的一些数学问题.希望这样的方式让大家以一个轻松的心态阅读玉米的<计算机视觉学习笔记>双目视觉数学架构系列博客.这个系列博客旨在捋顺一下已标定的双 ...
微信开发学习日记(一)：快速阅读5本书，掌握整体背景
2015年1月开始学习微信开发. 已经有多年开发经验了,从网上文章来看,微信开发主要是接口,然后是业务逻辑,不是很难.所以,我比较强调学习效率.一天学一点,是不能满足我的快速学习欲望的. ...

计算机视觉学习日记1

计算机视觉学习日记1相关推荐

最新文章

热门文章