2019独角兽企业重金招聘Python工程师标准>>>

目前,人工智能(AI)在图像和语音识别等领域表现出色,但科学家认为这还远远不够。据美国《麻省理工技术评论》杂志网站近日报道,对于AI的发展来说,理解视频中的动态行为是接下来的关键发展方向,这对于AI用其软件理解世界至关重要,也有助于AI在医疗、娱乐和教育等领域的广泛应用。

理解图像 还要理解动作行为

解释视频的AI系统,包括自动驾驶汽车中的系统,常常依赖于识别静态框架中的对象,而非对行为进行解释。谷歌最近发布了一种能识别视频中对象的工具,并纳为云平台的一部分,该平台包含用于处理图像、音频和文本的AI工具。

但对AI来说,能理解猫为何会骑着Roomba扫地机器人在厨房与鸭子追逐嬉戏,才是彰显其能力之处。

因此,科学家面临的下一个挑战可能是教会机器不仅理解视频包含了什么内容,还要理解镜头中发生了什么。这可能带来一些实际的好处,比如带来强大的搜索、注释和挖掘视频片段的新方法,也可以让机器人或自动驾驶汽车更好地理解周围的世界如何运转。

各出奇招 用视频训练计算机

目前,科学家使用一些视频数据集来训练机器,以使其更好地理解真实世界中的行为,麻省理工学院(MIT)和IBM目前正携手进行相关研究。

去年9月,IBM与MIT宣布组建“IBM—MIT脑启发多媒体机器理解实验室”,双方将合作开发具有高级视听能力的AI。

前不久,MIT和IBM发布了一个庞大的视频剪辑数据集,这个名为“时间数据集时刻”的视频数据集囊括了从钓鱼到霹雳舞在内的许多动作的3秒钟片段。该项目负责人、MIT首席研究科学家奥德·奥利瓦说,世界上许多事情瞬息万变。如果你想明白为什么有些事情会发生,运动会给你提供很多信息。

之所以把视频长度定成3秒,是因为大部分时候,人类需要3秒时间,去观察并理解一个动作意图,比如,风吹树动,或者一个物体从桌上掉落下来等。

无独有偶,谷歌去年也发布了一套由800万个做了标记的YouTube视频组成的视频集YouTube-8M;脸谱正在开发名为“场景”“操作”和“对象”集的注释数据集。

普林斯顿大学助理教授奥尔加·鲁萨克维斯基专门从事计算机视觉工作。他表示,此前科学家认为,很难开发出有用的视频数据集,因为它们需要比静止图像更多的存储和计算能力。他说:“我很高兴能使用这些新的数据集,3秒的时长很棒——它提供了时间上下文,同时对存储和计算的要求也比较低。”

还有其他机构在研究更具创造性的方法。位于多伦多和柏林的创业公司“二十亿神经元(Twenty Billion Neurons)”创造了一个定制数据集。该公司联合创始人罗兰梅·尼塞维奇称,他们还使用了专门处理时间视觉信息的神经网络,“用其他数据集训练的AI可以告诉你,视频中显示的是足球比赛还是派对;用我们的定制数据集训练的神经网络可以告诉你,是否有人刚刚进入房间。”

转移学习 人工智能的未来

按照IBM的解释,人类能够观看一段简短的视频并轻松地描绘出视频内容,甚至能预测后续事件的发生,而这样的能力对机器来说依然是可望而不可及的。因此,IBM和MIT要做的就是,解决机器在认知和预测上的技术难题,在这一基础上开发出一套认知系统。

IBM的丹尼·古特弗罗因德说,有效识别行为要求机器学习某个行动,并将获得的知识应用于正在进行同样行动的情境中,这一领域的进步,即转移学习,对于AI的未来非常重要;而且,这项技术在实际中大有用途,“你可以用它来帮助改善对老年人和残疾人的护理,比如告诉护理人员是否有老人跌倒,或者他们是否已经吃过药等等。”

MIT和IBM也表示,一旦机器能够看懂视频,具备视觉能力的高级计算机认知系统将能用于各种行业,不仅仅是医疗,还有教育、娱乐等领域,包括对复杂的机器进行保养和维修等。

(更多点击:自主创新)(链接:http://www.chuangxin360.com)

转载于:https://my.oschina.net/mindmanager/blog/1588218

人工智能新目标——看懂视频相关推荐

  1. 上线十个月后,终于看懂视频号对于微信的意义

    视频号在逐渐成为微信生态的中场核心. 因为在朋友圈强行置顶视频号的直播内容,微信最近被「吐槽」上了微博热搜.有人觉得这个横插一道的直播页面很丑,也有人认为这种强制展示对用户而言是一种打扰. 据了解,该 ...

  2. 新浪看点怎么批量搬运视频,新浪看点视频搬运消重方法

    "站在风口上,猪都会飞起来". 自媒体从2016年开始就是一个风口,很多人实现了人生的逆袭! 同时,在2016年9月,今日头条CEO张一鸣表示:短视频将是内容创业的下一个风口.今日 ...

  3. 李飞飞最新演讲全文:机器已能“看懂”图像和视频,但我们仍站在人工智能研究的起点

    来源: 科研圈 摘要:AI 不仅仅能够精准辨认物体,还能够理解图片内容.甚至能根据一张图片写一小段文章,还能"看懂"视频...... 所以无论我们在讨论动物智能还是机器智能,视觉是 ...

  4. 一文看懂深度学习——人工智能系列学习笔记

    深度学习有很好的表现,引领了第三次人工智能的浪潮.目前大部分表现优异的应用都用到了深度学习,大红大紫的 AlphaGo 就使用到了深度学习. 本文将详细的给大家介绍深度学习的基本概念.优缺点和主流的几 ...

  5. 【转载】不是技术也能看懂云计算,大数据,人工智能

    (点击上方公众号,可快速关注) 作者: 刘超 www.cnblogs.com/popsuper1982/p/8505203.html 原标题:不是技术也能看懂云计算,大数据,人工智能 我今天要讲这三个 ...

  6. 百度吴恩达:图像和音视频搜索是人工智能新方向

     百度吴恩达:图像和音视频搜索是人工智能新方向 作者:吴恩达 未来论坛创立大会今天在北京举行.本届大会的主题是"指数Exponential --通向明天的技术力量(The power o ...

  7. 新基建必看系列——一文看懂爆火的智慧灯杆未来趋势及竞争格局

    新基建必看系列--一文看懂爆火的智慧灯杆未来趋势及竞争格局 智慧灯杆是集照明.视频监控.交通管理.环境监测.通信等多功能于一体的新型信息基础设施,由基础设施及杆体,照明设施,交通.视频监控等其他杆载设 ...

  8. 【观察】在UBBF 2021,看懂全光目标网的演进与创新

    申耀的科技观察 读懂科技,赢取未来! 1966年,年轻的工程师.英籍华人高锟,就光纤传输的前景发表了具有历史意义的论文,并由此在43年后获得了2009年的诺贝尔物理学奖:1976年,光纤技术的继续发展 ...

  9. 新一配:看懂直销银行、互联网银行、开放银行的概念和区别

    新一配:看懂直销银行.互联网银行.开放银行的概念和区别 银行业在数字化转型过程中,出现很多新的概念,例如数字银行.直销银行.虚拟银行.互联网银行.开放银行.智慧银行.智能银行等.追其本质,这些概念的背 ...

最新文章

  1. a[0]和a 的区别?
  2. Maven+Mybatis+Spring配置
  3. [Luogu1890]gcd区间
  4. C# Winform 窗体美化(七、Win7 Aero 毛玻璃效果)
  5. java取余数的函数_左神算法基础:哈希函数和哈希表
  6. glibc:fd_set机制
  7. 六个细节改变提升 Android L 用户体验
  8. 从芯片到 AI 生态,52 岁英特尔的蜕变!
  9. Linux RedHat 5.2 构建PostFix邮件服务器
  10. Vue 集成海康h5player,实现ws协议的实时监控播放
  11. 舍不得花钱买1stOpt,不妨试试这款免费的拟合优化神器【openLU】
  12. 淘宝打单发货API,淘宝打单发货接口
  13. CPU-显卡-硬盘性能天梯图排行榜源码
  14. Error response from daemon: Get https://index.docker.io/v1/search?q=elastics earchn=25: net/http: T
  15. 【AI学习笔记】退出 Anaconda 虚拟环境时 遇到的两种报错。
  16. vue 根据身份证号获取出生年月,性别,年龄
  17. 极限理论总结08:参数推断——渐近相对效率、一步MLE、似然比统计量/Wald统计量/Rao统计量
  18. 织梦建站:织梦CMS整站源码通用安装教程(图文教程)
  19. oracle字符乱码 老熊,【转载】Hint的常见错误使用方式
  20. 在mac系统上下载EVPlayer2

热门文章

  1. stm32USB之模拟U盘
  2. 惠州市政企信息化(互联网)市场调研报告
  3. 虚幻动画蓝图按层级的动画混合(layered)
  4. Python每日一编程小练习(2019.06.10)——赛场统分
  5. 【转载】那个裸辞的程序员,后来怎么样了?
  6. 记忆尤深的博贺港海鲜
  7. Project build error: Non-resolvable parent POM for com.example:demo:0.0.1-SNAPSHOT: Could not transf
  8. 如何将WPS中新建表格下的空白行去掉?
  9. 您计算机处于状态或者您计算机时钟设置,您的Windows 10时间不正确? 这是如何固定时钟 | MOS86...
  10. Redis存储购物车