【知识星球】视频分类模型和数据集板块汇总介绍

欢迎大家来到《知识星球》专栏，这里是网络结构1000变和数据集小专题。

作者&编辑 | 言有三

1 视频分类问题

基于深度学习的视频分类包含非常多的方法，如3D卷积，双流法，LSTM时序模型等，在有三AI知识星球中有非常多的相关模型解读，案例如下：

有三AI知识星球-网络结构1000变

LiteFlowNet

FlowNet以及FlowNet2证明了CNN可以用于光流估计，尤其是FlowNet2已经达到了传统变分法的精度，但是模型超过100M，SPyNet虽然只有1.2M但是精度不够。LiteFlowNet是一个兼顾精度和模型大小，速度优势的轻量级模型，大小只有FlowNet2的30分之一，速度是它的1.36倍。

作者/编辑言有三

如上图所示，LiteFlowNet由两个紧凑的子网络NetC和NetE组成，分别用于金字塔特征提取和光流估计，与同样采用金字塔结构的SPyNet相比，这种策略将特征提取和光流估计分为两个步骤，方便更好地控制模型性能。

NETC为一个两输入的网络，两个网络共享滤波器权重。注意这里的warp操作使用的是特征warp，而不是在FlowNet中使用的图片warp。

其一，在FLowNet中会将image2和光流进行warping操作，然后对其提取特征，这里就将其合并为一个操作，直接在特征层面完成，这样精度反而更高，计算代价也更低。

其二，NetE也是一种级联形式的方法，这样的金字塔式的结构学习光流的过程更加稳定，也逐步降低学习误差。

该学习包括两个步骤，分别是M和S。

M过程即descriptor matching，输入上一级的光流估计和特征F2，F1，估计残差。

S过程即sub-pixel refinement，是在M过程的基础上进一步提高精度。

其三，对光流估计每一层都做了正则化约束，其实就是一个平滑操作使得光流的边界更加平滑。

整个网络非常的复杂，细节也很多，感兴趣的同学需要去细读原文。以上三个技术的实际效果展示如下，可知道对改善效果都是正向的作用。

在数据集上完整的实验结果如下，兼顾性能和精度优势。

[1] Hui T W, Tang X, Change Loy C. Liteflownet: A lightweight convolutional neural network for optical flow estimation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 8981-8989.

另外也有非常多的数据集提供解读和下载。

有三AI知识星球-数据集

Kinetics-700 dataset

Kinetics-700 dataset是一个视频分类/行为识别数据集，被用于ActivityNet比赛，包含约650000个视频，700个类别。

作者/编辑言有三

数据集地址：https://deepmind.com/research/open-source/open-source-datasets/kinetics/，发布于2019年。

ActivityNet比赛始于2016的CVPR，是与ImageNet齐名的在视频理解方面最重要的比赛。在这个比赛下的Task A–Trimmed Action Recognition比赛是一个视频分类比赛，2019年的比赛使用kinetics-700数据集，在此之前还有2017年的kinetics-400和2018年的kinetics-600。

数据集是Google的deepmind团队提供，每个类别至少600个视频以上，每段视频持续10秒左右，标注一个唯一的类别。

行为主要分为三大类：

(1) 人与物互动，比如演奏乐器；

(2) 人人互动，比如握手、拥抱；

(3) 运动等。

虽然每一个视频只会标记一个标签，但是它可以包含几种动作。例如开车”时“发短信”，“弹奏尤克里里”时“跳草裙舞”等，因此取top-5的准确率更为合适。另外很多的运动也容易混淆，比如跳远和三级跳远，吃汉堡和吃甜甜圈，因此这个数据集具有非常高的难度，仍然是当前算法的评测基准。

一些类别的展示如下：

[1] Kay W, Carreira J, Simonyan K, et al. The kinetics human action video dataset[J]. arXiv preprint arXiv:1705.06950, 2017.

2 如何掌握网络设计和数据使用

关于如何系统性学习网络结构设计和数据使用，可以阅读我们对星球生态的介绍，有三风格的干货，相信你不会失望。

如何系统性掌握深度学习模型设计和优化

如何系统性掌握深度学习中的数据使用

有三AI知识星球的内容非常多，大家可以预览一些内容如下。

以上所有内容

加入有三AI知识星球即可获取

来日方长

点击加入

不见不散

更多精彩

每日更新

转载文章请后台联系

侵权必究

往期精选

揭秘7大AI学习板块，这个星球推荐你拥有
有三AI 1000问回归，备战秋招，更多，更快，更好，等你来战！
【知识星球】做作业还能赢奖金，传统图像/机器学习/深度学习尽在不言
【知识星球】颜值，自拍，美学三大任务简介和数据集下载
【知识星球】数据集板块重磅发布，海量数据集介绍与下载
【知识星球】猫猫狗狗与深度学习那些事儿
【知识星球】超3万字的网络结构解读，学习必备
【知识星球】视频分类/行为识别网络和数据集上新
【知识星球】3D网络结构解读系列上新
【知识星球】动态推理网络结构上新，不是所有的网络都是不变的
【知识星球】Attention网络结构上新，聚焦才能赢
【知识星球】几个人像分割数据集简介和下载
【知识星球】总有些骨骼轻奇，姿态妖娆的模型结构设计，不知道你知不知道，反正我知道一些
【知识星球】从SVM对偶问题，到疲劳驾驶检测，到实用工业级别的模型压缩技
【知识星球】图像降噪模型和数据集内容开启更新，经典问题永垂不朽！

【知识星球】视频分类模型和数据集板块汇总介绍相关推荐

【知识星球】模型量化从1bit到8bit，二值到三值
欢迎大家来到<知识星球>专栏,这里是网络结构1000变小专题,模型量化是当前工业界的核心技术,我们最近在知识星球更新相关的内容. 作者&编辑 | 言有三 1 1bit量化-二值网络 ...
【星球知识卡片】模型压缩重要方向-动态模型，如何对其长期深入学习
大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型压缩中的一个非常重要的方向,动态模型. 作者&编辑 | 言有三 1 基于样本动态变化的卷积权重 Dynamic Convolutio ...
【知识星球】几个人像分割数据集简介和下载
欢迎大家来到<知识星球>专栏,今天给大家介绍一下人像分割相关的几个数据集,并提供下载. 作者&编辑 | 言有三有三AI知识星球的"数据集"板块中已经提供了非常 ...
【星球知识卡片】模型蒸馏的核心技术点有哪些，如何对其进行长期深入学习...
大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型蒸馏的核心技术点. 作者&编辑 | 言有三 1 什么是模型蒸馏一般地,大模型往往是单个复杂网络或者是若干网络的集合,拥有良好的性能 ...
【星球知识卡片】模型量化的核心技术点有哪些，如何对其进行长期深入学习...
大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型量化的核心技术点. 作者&编辑 | 言有三 1 二值(1bit)量化二值量化是最高效率的量化方式,也可以称之为1bit量化,即将3 ...
【星球知识卡片】模型剪枝有哪些关键技术，如何对其进行长期深入学习
大家好,欢迎来到我们的星球知识小卡片专栏,本期给大家分享模型剪枝的关键技术以及一些学习资料. 作者&编辑 | 言有三 1 为什么要研究模型剪枝在真正研究模型剪枝之前,我们首先要知道为什么要做 ...
【知识星球】关于模型压缩，有三AI知识星球近一个月从模型精简，硬件实现，到模型剪枝分享了哪些内容...
欢迎大家来到<知识星球>专栏,模型压缩是我们星球社区的重点关注内容,本次简介近期分享的一部分内容. 作者&编辑 | 言有三 1 精简模型设计精简模型的设计是模型压缩中的第一步,而 ...
【知识星球】这几年人脸都有哪些有意思的数据集？
欢迎大家来到<知识星球>专栏,人脸一直是整个图像领域里最大的方向,最近几个月咱们在知识星球里分享了非常多的这几年新出的人脸数据集,简单介绍其中几个如下. 作者&编辑 | 言有三有 ...
【知识星球】颜值，自拍，美学三大任务简介和数据集下载
欢迎大家来到<知识星球>专栏,今天给大家介绍三个任务,提供三个美学相关的数据集的下载,其中两个和人像有关,一个和通用的美学任务有关,下载可以进入知识星球自取,相关的项目,我们以后会在知识星 ...

【知识星球】视频分类模型和数据集板块汇总介绍

【知识星球】视频分类模型和数据集板块汇总介绍相关推荐

最新文章

热门文章