作者:Pulkit Sharma

编译:Bing

编者按:本文作者Pulkit Sharma分享了一篇有趣的项目,以《猫和老鼠》为例,计算任意视频中汤姆猫和杰瑞鼠的出镜时长。这一模型也可以用于其他电影,轻松统计各演员的上镜时间。

简介

当我开始接触深度学习时,学到的第一件事就是图像分类。这个话题非常有趣,包括我在内的很多人都沉浸在它的魅力之中。但是在我处理图像分类时总会思考,如果我能将学到的东西迁移到视频上就好了。

是否有一种模型能在特定时间内自动识别视频中的某个人物呢?结果证明的确可以做到,下面就将我的方法分享给你们!

影视明星的出镜时间是非常重要的,直接影响他们的片酬。举个例子,在《蜘蛛侠:英雄归来》中,小罗伯特唐尼仅仅出镜15分钟就有高达1000万美元的片酬。

如果我能计算任意影片中所有演员的出镜时间,那就太棒了!在这篇文章中,我将帮你理解如何在视频数据中使用深度学习。我们就用《猫和老鼠》作为例子,计算任意视频中,汤姆和杰瑞的出现时间。

注:本文需要读者有一定的深度学习图像分类的先验知识。如果没有的话,我推荐你阅读这篇文章,了解有关深度学习和图像分类的基本概念。

目录

读取视频并提取帧

如何用Python处理视频文件

计算出镜时间——一种简单的解决方案

我的收获

读取视频并提取帧

如上面的动图所示,,每一页纸上都有不同的画面,随着我们翻动书页,可以看到一只跳舞的鲨鱼,而且翻动的速度越快,效果越好。这也可以看作一种视频,换句话说,这种视觉效果是不同图像以特定顺序排列在一起产生的。

同样的,视频也是由一系列图片组成的,这些图片称为“帧”,可以通过组合得到原始视频。所以与视频数据有关的问题和图像分类或者目标检测问题并没有什么不同。只是从视频中提取帧需要多一个步骤。

我们这次的目的试计算汤姆和杰瑞在视频中各自的出镜时间,首先让我们确定一下文中要做的步骤:

导入并读取视频,从中提取帧,将它们保存为图片

标记一些图片用于模型的训练(这一步我已经做好了)

在训练数据上搭建自己的模型

对剩余图片进行预测

计算汤姆和杰瑞各自的出镜时间

跟着以下步骤学习,将会帮助你解决很多深度学习相关的问题。

如何用Python处理视频文件

首先要下载所有必需的库:

第一步:读取视频并从中提取帧,将其保存为图像

现在我们要下载视频,并将它转换成帧的形式。首先我们可以用VideoCapture( )函数从给定目录中提取视频,然后从视频中提取帧,用imwrite( )函数将它们保存为图像。

这个过程完成后,屏幕上会出现“Done!”的字样。下面我们试着对图像(帧)进行可视化,首先用matplotlib中的imread( )函数读取图像,然后用imshow( )函数显示图像。

这就是视频中的第一帧。我们从每秒中提取一帧,由于视频时长为4:58(共298秒),我们现在一共有298张照片。

我们的任务时确定哪张照片上有汤姆,哪张有杰瑞。如果我们提取出的图像能和常见的ImageNet数据集中的图片有很大的相似性,那么这个问题就能轻而易举地解决了。但是这样的乐趣在哪里?

我们的是动画片,所以要让任何预训练模型在给定的视频中定位汤姆和杰瑞还是有难度的。

第二步:标记图片训练模型

要实现标记图片,一种可能的方案是手动贴标签。一旦模型学会了特定模式,我们就能用它在之前没见过的图像上作出预测。

要记住的一点是,有些帧里可能没有汤姆和杰瑞的镜头,所以我们要将其看成是多种类的分类问题:

0:没有汤姆和杰瑞的镜头

1:杰瑞

2:汤姆

我已经给所有图片打上了标签,所以直接在mapping.csv文件中下载即可。

映射文件包含两部分:

image_ID:包含每张照片的名称

Class.Image_ID:含有每张图对应的种类

下一步是读取图片信息,即他们的Image_ID部分:

现在我们就有了图片,记住,我们要用两部分训练模型:

训练图片

对应的种类

由于这里有三种不同情况,我们将用keras.utils中的to_cateforical( )函数对他们进行独热编码。

图片再输入到VGG16训练前,尺寸需变为224×224×3,所以我们的图片在输入前要重设尺寸。我们要用到skimage.transform中的resize( )函数。

尺寸调整好后,我们还要对每个模型的需求进行预处理,否则模型就不会表现得很好。利用keras.applications.vgg16中的preprocess_input( )函数来完成这一步骤。

我们还需要一个验证集来检查模型在陌生图片上的性能,这里就需要用到sklearn.model_selection模块中的train_test_split( )函数来随机将图片分成训练集和验证集。

第三步:搭建模型

下一步就是搭建自己的模型。我们会用VGG16预训练模型来完成这一任务。首先导入所需的库:

下载VGG16与训练模型,并将其保存为base_model:

用该模型对X_train和X_valid进行预测,得到特征,再用特征重新训练模型。

X_train和X_valid的尺寸分别为(208,7,7,512)和(90,7,7,512)。为了输入到神经网络,我们必须把它重新修改成1—D尺寸。

现在对图像进行预处理,去中心化,让模型收敛得更快。

最后,我们将搭建自己的模型,这一步可以分为三小步:

搭建模型

编译模型

训练模型

用summary( )函数检查模型的汇总信息:

模型中有一隐藏层,有1024个神经元,输出层有3个神经元(因为我们有3种不同的预测情况)。现在我们开始编译模型。

最后一步,我们要训练模型,并且用验证集检测它在陌生图像上的表现:

可以看到在验证集上的表现很不错,精确度达到85%。这就是我们如何在视频数据上训练模型,再对每一帧作出预测的步骤。

下面,我将计算汤姆和杰瑞在新视频中的出镜时间。

计算出镜时间——一种简单的解决方案

首先下载我们要用到的视频。一旦完成,可以从中提取帧:

从新视频中提取帧之后,我们就要下载test.csv文件,它包含每个提取出的帧的名字:

接着,我们将导入用于测试的图片,然后针对之前提到的预训练模型重新修改尺寸:

接着,我们还要对这些图片进行调整,就像之前处理训练图片那样:

由于我们之前训练了模型,就可以用它做出预测了。

第四步:对剩余图像进行预测

第五步:计算汤姆和杰瑞的出镜时间

刚刚我们规定了1代表杰瑞,2代表汤姆,这样就可以用上述的预测来计算两个角色的出镜时长了:

结果如上。

我的收获

为了完成这一项目,我遇到了很多问题。下面是我遇到的一些挑战及做出的应对对策。

首先,我尝试在没有删除最顶层的情况下使用预训练模型,结果并不理想。原因可能是由于我们的模型之前没有在动画片上接受训练。为了解决这个问题,我重新用图片训练模型,结果好了很多。

但是尽管用带有标记的图片训练,精确度仍然不理想。模型在训练图像上表现得并不好。所以,我试着增加图层数量。这种做法结果不错,但训练和验证精度之间并不对应。模型出现了过度拟合,它在陌生数据上表现得也不好。所以我在密集层之后增加了Dropout层,这样就解决了。

我注意到,汤姆的出镜时间更长,所以模型得出的很多结论都是汤姆。为了让模型平衡预测,我用了sklearn.utils.class_weight模块中的compute_class_weight( )函数。它在数值计数较低的类别中分配了更高的权重,在较高的数值计数中分配较低权重。

另外,我还用Model Checkpoint保存了最佳模型。

最终,我们在验证数据上达到了88%左右的结果,在测试数据上达到了64%的精确度结果。

python领域的名人_计算任意视频中各人物的出镜时间(附Python实现)相关推荐

  1. python读取视频里面爱豆出现的时间_计算任意视频中各人物的出镜时间(附Python实现)...

    编译:Bing编者按:本文作者Pulkit Sharma分享了一篇有趣的项目,以<猫和老鼠>为例,计算任意视频中汤姆猫和杰瑞鼠的出镜时长.这一模型也可以用于其他电影,轻松统计各演员的上镜时 ...

  2. python诞生的时间地点人物_用Python来计算任意视频中各人物的出镜时间!这项目值50K吗?...

    用Python来计算任意视频中各人物的出镜时间!这项目值50K吗? 简介当我开始接触深度学习时,学到的第一件事就是图像分类.这个话题非常有趣,包括我在内的很多人都沉浸在它的魅力之中.但是在我处理图像分 ...

  3. python诞生的时间地点人物事件_教程|计算任意视频中各人物的出镜时间(附Python实现)...

    ,内容略有删改 前言 简介 当我开始接触深度学习时,学到的第一件事就是图像分类.这个话题非常有趣,包括我在内的很多人都沉浸在它的魅力之中.但是在我处理图像分类时总会思考,如果我能将学到的东西迁移到视频 ...

  4. python领域的名人_名人问题 算法解析与Python 实现 O(n) 复杂度 (以Leetcode 277. Find the Celebrity为例)...

    1. 题目描述 Problem Description Leetcode 277. Find the Celebrity Suppose you are at a party with n peopl ...

  5. python如何提取奇数_如何在数组中只获取奇数并使用numpy for python将其平方?

    numpy的强大之处在于它允许您在单个操作中对整个数组进行操作.这称为矢量化或矢量化.当然,在幕后也有这样做的循环,但它们是用C语言编写的,并且经过高度优化,因此它们的运行速度比纯python所能达到 ...

  6. python扫雷 高级算法_扫雷游戏的布雷算法、策略与优化(附Python代码)

    1 布雷算法的应用 在扫雷游戏中,将雷均匀地分布在局面中依靠一种布雷算法.众所周知,在原始版本的Windows扫雷中,由于布雷算法的缺陷,使得其存在Board Cycle(局面循环).而标准扫雷游戏中 ...

  7. python实现胶囊网络_深度学习精要之CapsuleNets理论与实践(附Python代码)

    摘要: 本文对胶囊网络进行了非技术性的简要概括,分析了其两个重要属性,之后针对MNIST手写体数据集上验证多层感知机.卷积神经网络以及胶囊网络的性能. 神经网络于上世纪50年代提出,直到最近十年里才得 ...

  8. python样本不均衡_三招提拔数据不均衡模子的机能(附python代码)

    对付深度进修而言,数据集异常主要,但在实践名目中,或多或少会遇见数据不均衡题目.甚么是数据不均衡呢?举例来说,目前有一个义务是判定西瓜是不是成熟,这是一个二分类题目--西瓜是生的照旧熟的,该义务的数据 ...

  9. python opencv 录制视频_如何使用OpenCV、Python和深度学习在图像和视频中实现面部识别?...

    Face ID 的兴起带动了一波面部识别技术热潮.本文将介绍如何使用 OpenCV.Python 和深度学习在图像和视频中实现面部识别,以基于深度识别的面部嵌入,实时执行且达到高准确度. 以下内容由 ...

最新文章

  1. 这个冬天,将是共享单车最艰难的时刻
  2. 浏览器时间久了重新登录_注意!今日开始打印一建准考证,附各地时间及常见问题汇总...
  3. 今天去医院拿宝宝的微量元素检查结果
  4. 工资管理信息系统java_java+sql server,工资管理信息系统,源程序+数据库+报告
  5. 电力系统潮流计算matlab程序,大神们,求个电力系统潮流计算的matlab程序。
  6. HDU 4873 ZCC Loves Intersection(可能性)
  7. matlab与r语言运算速度,R语言与matlab循环时间对比
  8. java 请求 https_JAVA后端请求HTTPS 的URL 遇到的问题
  9. PyTorch载入图片ToTensor,PIL和OpenCV读取图片plt.imread和PIL.Image.open
  10. Tableau 2018.3破解教程(截止2019-08-18)试用过期也可用
  11. 4G标准之争,攘外须先安内
  12. windows用VS2019下编译log4cxx日志库
  13. Element-UI 图标乱码解决方案
  14. CSS控制print打印样式
  15. 华为路由器交换机快捷键大全
  16. VR插件:VR Interaction Framework 1.7(VRIF)(一)
  17. 代码强力对比,就用这7个工具!
  18. 西南大学考研计算机808真题和复试
  19. 【Python练习】创建学生信息表-列表推导式的应用
  20. Jira - JIRA-Bootstrap ERROR

热门文章

  1. 超高性价比蓝牙耳机有哪些?宝藏国产真无线蓝牙耳机推荐
  2. 欣小白的点滴 ——knn算法
  3. 常见android app加固厂商脱壳方法研究
  4. Jquery判断元素是否包含在数组中$.inArray()
  5. Android集成百度地图接口,实现定位+路径规划。新手教程
  6. android仿抖音上下切换视频,微信小程序仿抖音视频之整屏上下切换功能的实现代码...
  7. FPGA定点小数二进制乘法运算
  8. ElasticSearch 查询 matchAll使用方法
  9. ios html mainfest,Manifest.json文档说明 manifest配置
  10. 常用计算机设备课件,课件计算机常用外存设备.ppt