摘要

计算机视觉在帮助人们的日常生活方面有很大的潜力,比如寻找丢失的钥匙、浇花和提醒我们吃药。为了实现这样的功能,模型需要在日常生活的场景下被训练。但是这些场景都并不“有趣”,因此很少出现在YouTube或者电视上。所以怎样收集足够多且多样化的日常生活场景呢?作者提出了一种Hollywood in Home的方式。与在实验室拍摄视频不同,作者通过众包的方式下发视频剧本,让志愿者按照剧本进行拍摄。通过这种方式,作者构建了Charades数据集。这个数据集包括了9848个标注过的视频,每个视频都大概持续30秒,展示了三个大洲的267个不同的人的行为,超过15%的视频里出现的人数都大于1。每个视频都被不限形式的文本描述,并且还有动作标签,动作间隔,动作种类以及交互的物体。总体上来说,Charades提供了27847个描述,66500个时序定位到的动作,这些动作共有157个类别,41104个标签,总共出现的物体种类是46个。使用这样丰富的数据,作者评估并提供了了baseline结果,适用于动作识别和自动文本生成。

Charades数据集相关推荐

  1. 动作识别、检测、分割、解析相关数据集介绍

    文章目录 动作识别 UCF101(UCF101 Human Actions dataset) Kinetics (Kinetics Human Action Video Dataset) 动作检测 / ...

  2. 神经架构搜索在视频理解中研究进展的综述

    作者 | Michael S. Ryoo 研究员与 AJ Piergiovanni 学生研究员(Google 机器人团队) 来源 | TensorFlow(ID:TensorFlow_official ...

  3. Facebook 开源 SlowFast:基于双帧速率分治轻量视频识别模型

    近日,Facebook AI 宣布开源 SlowFast,一个在 CVPR 2019 上的 AVA 视频检测挑战赛中排名第一所用的模型.这一开源旨在进一步提高系统识别与分类视频内容的能力,并改善视频个 ...

  4. Non-local Neural Networks:非局部神经网络

    论文地址:https://openaccess.thecvf.com/content_cvpr_2018/papers/Wang_Non-Local_Neural_Networks_CVPR_2018 ...

  5. 【今日CV 计算机视觉论文速览 第127期】Fri, 7 Jun 2019

    今日CS.CV 计算机视觉论文速览 Fri, 7 Jun 2019 Totally 41 papers ?上期速览✈更多精彩请移步主页 Interesting: ?*****Mesh R-CNN, 研 ...

  6. 经典重温:FAIR提出SlowFast,用双分支非对称网络处理不同采样率的视频!代码开源!...

    关注公众号,发现CV技术之美 本文分享论文『SlowFast Networks for Video Recognition』,FAIR提出<SlowFast>,用双分支非对称网络处理不同采 ...

  7. 人大提出新模型,将Two Stage的Video Paragraph Captioning变成One Stage,性能却没下降...

    关注公众号,发现CV技术之美 0 写在前面 视频段落字幕(Video paragraph captioning)的目的是在未修剪的视频中描述多个事件.现有的方法主要通过事件检测和事件字幕两个步骤来解决 ...

  8. 【开源】本周不容错过开源论文,含分割、检索、神经渲染、deepfake 检测、超分、视频相关等...

    本篇文章推荐本周值得关注的 10 篇开源论文,含 deepfake 检测.视频分类.图像分割.遥感图像检索.车辆检索.神经渲染.超分辨率等.       01       FReTAL: Genera ...

  9. 谷歌视频架构搜索:从 EvaNet 到 TinyVideoNet

    点击我爱计算机视觉标星,更快获取CVML新技术 文 /  Michael S. Ryoo 研究员与 AJ Piergiovanni 学生研究员 Google 机器人团队 视频理解一直是项颇具挑战性的难 ...

  10. 单CPU处理1s视频仅需37ms、GPU仅需10ms,谷歌提出TVN视频架构

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自机器之心. 选自arXiv 作者:AJ Piergiovanni等 机器之心编译 参与:魔王.杜伟 谷歌机器人团队利用进化算法,获得低计算成本 ...

最新文章

  1. jquery将html转为pdf文件,通过Jquery将HTML Div转换为PDF
  2. mysql命令行执行时不输出列名(字段名)
  3. 全能系统监控工具dstat
  4. 《HTML 5与CSS 3权威指南(第3版·下册)》——19.4.2 E:enabled伪类选择器与E:disabled伪类选择器...
  5. gradle 上传jar包_gradle 打包jar上传到nexus 同时上传源码jar
  6. 在没有任何数据时进行无效的读取尝试。_技术转载——JVM运行时内存是怎么分布的?...
  7. workaround for COM_ATTRFRG_GEN 066
  8. 工作65:导航栏使用
  9. python settings模块导入不了_python settings 中通过字符串导入模块
  10. Linux 命令解压缩
  11. 测试 System.SysUtils.TStringHelper
  12. mongodb运算操作符
  13. SharePoint Server 2016 部署安装(七)—— 配置SharePoint Server
  14. boost基础——any(二)
  15. 苹果mac微软windows远程连接工具:microsoft remote desktop
  16. ubuntu服务器系统管理软件,安装 Webmin 来管理你的 Ubuntu 主机
  17. cad卸载_老师傅爱不释手的6款CAD插件,款款优秀,用了就再也不舍得卸载
  18. 让自己的底线一降再降,相当于没有底线
  19. C/C++面试/笔试题2022
  20. JOI-2016/17 春季合宿 切题记

热门文章

  1. HTTP请求时常见的请求方式与状态码
  2. 实习踩坑之路:ElasticSearch搜索出来了不是自己的数据?Elastic会像MyBatisPlus一样会帮我们做判断null的操作么?分片精确度如何控制?
  3. FFA 2021 专场解读 - 实时数据湖
  4. 基于 Flink 的典型 ETL 场景实现方案
  5. php get安全过滤,php 有效安全过滤get,posd,cookie_PHP教程
  6. 前大灯是近光灯还是远光灯_夜间上高速使用近光灯?不会开车就别开,否则12分都不够扣!...
  7. js 正则匹配邮箱_比较正宗的验证邮箱的正则表达式js代码详解
  8. 将某一列转换为字符类型_还在为数据清洗抓狂?这里有一个简单实用的清洗代码集...
  9. c语言打字游戏程序设计报告,2016打字游戏程序设计报告.doc
  10. android 傅里叶变换_Android连载38访问联系人