在图片社交、短视频等行业,用户在导入图片、视频的时候,偶尔会导入一些横屏拍摄的视频,使得图片、视频在呈现给用户观看的时候,是旋转了90度或者270度的图片、视频(180度一般极其少见),从而给用户造成不好的体验,特别是以瀑布流方式展示的app。这类视频,由于导入的时候,拿不到原始的拍摄标识信息,从而无法直接取到图像、视频是否旋转的信息,而必须依赖视觉识别的方式,去判断图像、视频是否旋转。

对图像朝向判断问题,学术上研究得比较少,已有的论文主要还是以深度学习分类的方式去检测,比如:

  • Automatic Photo Orientation Detection with Convolutional Neural Networks
  • Why My Photos Look Sideways or Upside Down? Detecting Canonical Orientation of Images Using Convolutional Neural Networks

对图像Orientation Detection的难点主要在于:

  • 当图片、视频中的物体有倾斜,但是图片、视频本身是正常放置的,容易造成误检。比如拍摄是一张大脸,但大脸有倾斜,或者拍摄的是一个床上斜躺着的宝宝;
  • 当拍摄角度是向下或者向上的时,这类视频容易造成误分;比如拍摄天空、拍摄天花板等;

所以图像Orientation Detection,在保证召回较好的前提下,准确率要做得非常好(准确率99%+以上,便于机器自动处理)还是很不容易的,特别是针对单张图片检测更是难上加难。不过,如果是短视频行业,由于短视频行业自身的一些特性,使得这个问题还是可以比较好的解决的。在短视频行业,做图像Orientation Detection可以利用的优势主要有三点:

  • 数据优势。训练数据不用标注,直接使用app自带的相机拍摄的视频,这些视频可以认为是0度放置的,通过此种方式,可以获取到无穷无尽的标签噪声非常少的训练数据;
  • 多帧检测优势。利用多帧检测的方式,可以极大地提升检测的准确率;
  • Orientation Detection类型比较固定。通常主要是0度、90度和270度,180度几乎不会出现,也就是用户导入视频进来的时候,如果有旋转,主要是横屏,几乎不会存在把视频上下反转一下的情况;

有了0度的训练数据,其他角度的数据,比如90度、270度(180度可以丢弃不检测,因为出现这种导入情况的极少)可以通过0度变换一下便可得到。有了0度、90度、270度的训练数据,训练可以采用CNN分类模型直接分类即可。

检测准确率提升

分类模型训练好了后,如果只检测一帧,准确率往往是不够的,比如上面列举的两种情况,就极易以非常高的概率导致误分,为了提升检测的准确率,并保持还不错的召回率,可以通过联合使用下面两种方式使得最终的检测准确率达到99%+,这两种方式分别为:

  • 检测多帧。比如一个视频检测3帧;
  • 设置的检测概率相对高一点。比如检测3帧,两帧朝向一致,且两帧最小概率大于0.9的,则判断为旋转,旋转方向为两帧朝向的方向;

通过这样两种方式,可以在保持召回还不错的情况下,获得较高的准确率,最终达到机器自动处理的目的。

总结

视频朝向检测有自身多帧的优势,如果是图片社交app,单张图片要达到非常高的准确率是极其困难的(在保持一定召回情况下)。

from: http://yongyuan.name/blog/image-orientation-detection.html

机器视觉:图像与视频朝向检测相关推荐

  1. 判断图像局部过暗_CVPR 2020丨基于记忆增强的全局局部整合网络:更准确的视频物体检测方法...

    编者按:在视频物体检测任务中,由于相机失焦.物体遮挡等问题,仅基于图像的目标检测器很可能达不到令人满意的效果.针对此类问题,微软亚洲研究院提出了基于记忆增强的全局-局部整合网络(Memory Enha ...

  2. Clarifai的AI可检测图像和视频中的不合规内容

    文章来源:ATYUN AI平台 在互联网上过滤色情,毒品,血腥和其他令人反感的内容并不容易.Facebook目前在全球拥有7500名内容版主,而2017年5月为4500名.而在4月份,谷歌旗下的You ...

  3. 视频目标检测与图像目标检测的区别

    一. 前言 本文介绍了知乎上关于视频目标检测与图像目标检测的区别的几位大佬的回答.主要内容包括有视频目标检测与图像目标检测的区别.视频目标检测的研究进展.研究思路和方法. 作者:Naiyan Wang ...

  4. 趋高智能机器视觉图像目标尺寸检测尺寸测量的应用方案

    趋高智能机器视觉图像目标尺寸检测尺寸测量的应用方案. 趋高智能机器视觉系统具有测量功能,能够自动测量产品的外观尺寸,比如外形轮廓.孔径.高度.面积等尺寸的测量.尺寸测量无论是在产品的生产过程中,还是产 ...

  5. 基于yolov3的行人目标检测算法在图像和视频中识别检测

    资源下载地址:https://download.csdn.net/download/sheziqiong/85772186 资源下载地址:https://download.csdn.net/downl ...

  6. YOLOV:图像对象检测器在视频对象检测方面表现也很不错

    前言 与传统的两段pipeline不同,论文提出了在一段检测之后再进行区域级的选择,避免了处理大量低质量的候选区域.此外,还构建了一个新的模块来评估目标帧与参考帧之间的关系,并指导聚合. 作者进行了大 ...

  7. 使用Python,Opencv检测图像,视频中的猫

    使用Python,Opencv检测图像,视频中的猫

  8. Dogfight :从无人机视频中检测无人机

    摘要 随着机载车辆变得越来越自主和无处不在,发展探测周围物体的能力变得至关重要.本文试图解决从其他飞行无人机中探测到无人机的问题.源无人机和目标无人机的不稳定运动.小尺寸.任意形状.大强度变化和遮挡使 ...

  9. 第二章 2.1 机器视觉——图像《2022年斯坦福AI指数报告》中文全解读

    斯坦福大学的人工智能机构 Stanford Institute for Human-Centered Artificial Intelligence (HAI)发布的这第五版<AI指数报告> ...

最新文章

  1. 翻译关于ViewController的一篇文章
  2. 程序员面试题精选100题(25)-在从1到n的正数中1出现的次数[算法]
  3. 小白一路走来,连续刷题三年,谈谈我的算法学习经验
  4. windows下的虚拟机中的ubuntu系统如何连接无线网(wifi)
  5. java Ant build.xml
  6. ELK篇---------elasticsearch集群安装配置
  7. ContOS 7 安装Jenkins
  8. mysql 存储过程写入文件
  9. python装饰器两层和三层_2020 python学习第十六天————三层装饰器与迭代器
  10. 001 Python中的变量和字符串
  11. 智慧工地视频监控系统解决方案
  12. 云服务器里存放数据安全吗
  13. Android:使用 Flutter 包创建 Xylophone 应用程序
  14. 5G时代的网盘,直接送1000G空间!
  15. 使用计算机处理数据第一步,2012年考研专业课自测试题及答案:计算机
  16. 关于会声会影导入视频出现卡顿花屏的解决办法
  17. Codeforces 196 E. Tricky and Cleve Password
  18. 0.1- 机械加工工艺-----切削加工基础
  19. 【第一届“文翁杯”现场竞技赛】T2 —蜀石经(优先队列模拟)
  20. 分布式架构实现概述(大型网站技术架构-读后感)

热门文章

  1. txt文件导入mysql--转
  2. 基于事件的 NIO 多线程服务器--转载
  3. “京东小贷” 注册资本由30亿元增至50亿元,恭喜
  4. BAT 才不关心币价,19年的5大重点在这里!
  5. 最新|TensorFlow开源的序列到序列框架
  6. Learning to Rank 中Listwise关于ListNet算法讲授及实现
  7. 百度发布机器人助理度秘 “三大基石”炼成
  8. 专访黄勇:Java在未来的很长一段时间仍是主流
  9. 99%创业会失败 去中心化是良药么?
  10. Docker Review - dockerfile 入门篇