编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

你是否能想象 AI 以第一人称视角来理解世界是什么样的呢?

未来,以第一人称视角理解世界的 AI 可以开启沉浸式体验的新时代。增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍且有用。

想象一下,你的 AR 设备准确地显示了如何在架子鼓课上握住鼓棒,知道你完成一个食谱;帮助你找到丢失的钥匙,或是像全息图一样在你的记忆中重现。

为了构建这些新技术,人工智能需要像我们一样,可以从第一人称的角度理解世界并进行互动。在研究界,通常称为以自我为中心的感知。

然而,今天的计算机视觉系统通常是以第三人称视角来拍摄的数百万张照片或是在视频中学习,而相机只是动作的旁观者。

Facebook AI 推出 Ego4D

近日,Facebook AI 宣布推出 Ego4D,这是一个雄心勃勃的长期项目,为的就是解决以自我为中心的感知领域的研究挑战。

研究者汇集了一个由 9 个国家的 13 所大学和实验室组成的联盟,他们在野外收集了 700 多名参与者的日常生活,超过 2,200 小时的第一人称视频。

Ego4D 是一个具有多样性的大规模的以第一人称视角为中心的数据集。它由来自全球 9 个不同国家 74 个地点的 855 名独特参与者收集的 3025 小时视频组成。该项目汇集了 88 名国际财团的研究人员,以大幅提高公开的以自我为中心的数据规模,使其在录像时间方面比任何其他数据集都大20倍以上。

AI 也可以体验第一视觉

Facebook 首席研究科学家克里斯汀·格劳曼 (Kristen Grauman) 表示,今天的计算机视觉系统不像人类那样与第一人称和第三人称视角相关联。

就像是,将计算机视觉系统绑在过山车上,即使它是根据从地面边线显示的数十万张过山车的图像或视频进行训练的,但是它也不知道它在看什么。

为了让人工智能系统能够像我们一样的方式与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式,”格劳曼在一份声明中说。“这意味着人工智能在实时运动、交互和多感官观察的背景下,通过人眼理解日常生活活动。”

Facebook AI 还开发了五个以第一人称视觉体验为中心的基准挑战,这将推动未来 AI 助手向现实世界应用的发展。

例如,“我把钥匙放哪儿了?”“手机在哪里?”“有看到我的充电线吗?”这种场景别提有多熟悉了,几乎每天都会上场。

  • Ego4D 的第一个基准挑战是情景记忆(Episodic memory)

关键就是什么时候发生的?AI 可以通过检索过去以自我为中心的视频中的关键时刻来回答自由形式的问题并扩展个人记忆。

你可以问 AI 助手各种各样的问题,例如:我把孩子最喜欢的泰迪熊放哪儿了?

  • 下一步就是进行预测:接下来可能会做什么?

人工智能可以理解佩戴者的行为会如何影响这个人未来的状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会从事什么活动。预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这样AI系统就可以在当下提供有用的指导。

例如,就在你想要再次准备向锅里加盐时,你的人工智能助手会赶紧通知你“等等,您已经加盐了”

  • 第三个挑战基准就是手-物之间的互动(Hand and object manipulation)也是难点和关键的一步,因为AI需要理解在做什么,如何做?

学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互,识别抓取,并检测物体状态变化。这种推动力也受到机器人学习的推动,机器人可以通过视频中观察到的人们的经验间接获得经验。

因此,当你在烹饪一份食谱时,AI 助手可以指导你需要哪些配料,需要先做什么,了解你已经做了什么,指导你完成每一个关键步骤。

人类可以用声音来理解世界,未来的人工智能也要学会这种视听记录(Audio-visual diarization)。

如果你正在上一堂重要的课,但因收到的信息而分了心,你可以问AI:“教授把我们的试卷收上去之后,课堂讨论的主要话题是什么?”

  • 这个就是第四个挑战基准 - 视听分类

我正在与谁互动,如何互动?例如“如何在嘈杂的地方更好地听到别人说话的声音”

  • 社会互动(Social interaction)是 Ego4D 的最后一个方向。

除了识别视觉和声音提示外,理解社交互动是智能 AI 助手的核心。一个社交智能的 AI 会理解谁在和谁说话,谁在关注谁。

所以,下次参加晚宴时,即使再嘈杂,AI 助手可以帮助你专注于桌子对面和你说话的人在说什么。

以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块,这将让 AI 不仅可以在现实世界中理解和互动,还可以在元宇宙中进行理解和交互,构成更有用的 AI 助手和其他未来创新的基础。

解开真实数据集

基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的 CV 系统几乎可以识别图像中的任何对象,它是建立在数据集和基准(例如 MNIST、COCO 和 ImageNet)之上的,它们为研究人员提供了一个用于研究真实世界图像的试验台。

但是以自我为中心的感知是一个全新的领域。我们不能使用昨天的工具来构建明天的创新。Ego4D 前所未有的规模和多样性对于引入下一代智能 AI 系统至关重要。

为了构建这个数据集,每所合作大学的团队向研究者分发了头戴式摄像头和其他可穿戴传感器,以便他们能够捕捉第一人称、无脚本视频。日常生活。

参与者从日常场景中录制大约8分钟的视频片段,例如杂货店购物、烹饪和边玩游戏边交谈以及与家人和朋友一起参与其他集体活动。

Ego4D 捕捉了佩戴摄像机的人在特定环境中选择注视的内容,用手或是面前的物体做了什么,以及他们如何以第一人称视觉与其他人进行互动。

与现有数据集相比,Ego4D 数据集提供了更大的场景、人物和活动的多样性,这增加了针对不同背景、种族、职业和年龄的人训练的模型的适用性。

Ego4D 及以后的下一步是什么?

Facebook AI 试图通过 Ego4D 项目打造一条全新的道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。

随着人工智能对人们正常生活方式有了更深入的理解,它可以开始以前所未有的方式对交互体验进行情境化和个性化。

Grauman表示:“Ego4D 使人工智能有可能获得根植于物理和社会世界的知识,这些知识是通过生活在其中的人的第一人称视角收集的。”“由此开始,人工智能不仅会更好地了解周围的世界,有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯,或者为你的下一次家庭旅行指引路线。”

有了 Ego4D 的基准支持,配合上在全新数据集中的训练,AI 助手有可能以非常独特和有意义的方式提供很多的价值,例如,帮助回忆起最近与同事交谈中的关键信息,或者指导制作新的晚餐食谱,新的宜家家居等。

Facebook 表示,从这一系列工作中获得的价值将推动我们走向未来的现实。

玛丽皇后大学的人工智能研究员Mike Cook认为,“从积极的角度来说,至少就目前而言,这是一个非常棒的大型数据集。”

“但,这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但是......他们向它注入资金并不意味着它一定会变得重要。”

参考链接:

https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/

https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/

本文由AI科技大本营翻译,转载请注明出处。

在评论区留言你对本文的观点

AI科技大本营将选出优质留言

携手【北京大学出版社】送出

《机器学习入门:基于数学原理的Python实战》一本

截至10月25日14:00点

大会

腾讯、阿里、字节是这么做数据的?

资讯

微软、英伟达联手推出最大语言模型

大赛

API 大赛决赛名单出炉!

技术

ST-GCN 实现人体姿态行为分类

分享

点收藏

点点赞

点在看

Facebook 正在研究新型 AI 系统,以自我视角与世界进行交互相关推荐

  1. AI系统能否理解3D现实世界?Facebook做了这些研究

    2019-12-31 10:12:51 选自Facebook AI 作者:Georgia Gkioxari.Shubham Tulsiani.David Novotny 参与:魔王 Facebook ...

  2. Silverlight 2.5D RPG游戏技巧与特效处理:(十一“.NET研究”)AI系统

    谈到人工智能(AI),这个话题就太大了:大学里有<人工智能教程>专门讲这方面的知识,什么大名鼎鼎的人工神经网络.遗传算法等等均可一窥究竟,这里如赘述似乎有些班门弄斧,我们暂且丢它一边去吧. ...

  3. Facebook成功打破纸牌游戏Hanabi的AI系统得分纪录

    据外媒Venture Beat报道,Facebook人工智能研究院(Facebook AI Research,FAIR)称,他们推出了一个与纸牌游戏Hanabi相关的最新AI项目.AI系统的得分是24 ...

  4. IBM开发了一种AI系统,帮助人类创造新型香水

    文章来源:ATYUN AI平台 香水的创造通常被视为定制艺术.几个世纪以来,法国人对嗅觉业务感到自豪,专业的气味大师花费数十年的时间学习手艺.科蒂(Coty)和雅诗兰黛(EstéeLauder)等巨型 ...

  5. TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发

    TorchFusion 是一个深度学习框架,主要用于 AI 系统加速研究和开发. TorchFusion 基于 PyTorch 并且完全兼容纯 PyTorch 和其他 PyTorch 软件包,它供了一 ...

  6. 研究团队开发AI系统,仅通过足迹来识别身份

    文章来源: ATYUN AI平台 现在识别技术有指纹扫描,虹膜扫描,甚至可能是眼睛注视扫描,但基于脚步的生物识别技术呢?德里印度理工学院的研究人员发表的新论文描述了AI仅通过足迹来识别一个人的研究. ...

  7. 突发 | Yann LeCun卸任!Facebook变天,做AI不能落地是不成了

    作者 | 波波 编辑 | 谷磊 1月24日早间重磅消息,Facebook 人工智能研究部门(FAIR)的负责人Yann LeCun 宣布卸任,之后将担任Facebook首席人工智能科学家,保留对FAI ...

  8. AI 系统的发展趋势与挑战 | 智源大会-AI系统专题论坛

    AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,在创新方法器件.体系架构.优化加速等方面都取得的相当大的进展.AI系统分论坛将围绕这一领域的最新学术研究进展,以及包括MindSpore. ...

  9. 《AI系统周刊》第1期:社群招新,打通智能计算软硬件“任督二脉”

    No.01 智源社区 AI系统组 A I 系  统 研究 观点 资源 活动 关于周刊 AI系统是当前人工智能领域极具现实意义与前瞻性的研究热点之一,为了帮助研究与工程人员了解这一领域的进展和资讯,智源 ...

最新文章

  1. java度量页面_JAVA Metrics 度量工具使用介绍1
  2. ipc$开启telnet
  3. 基于Java+SpringMvc+vue+element实现高效学生社团平台管理
  4. ZYNQ PS端输出无效时钟供PL使用
  5. 无法执行dex:多个dex文件定义了Lcom / myapp / R $ array;
  6. Android应用开发的一些思考
  7. c语言笔试题大题带答案,c语言常见笔试题及答案
  8. 织梦dedecms怎么改模板
  9. win10计算机用户名和密码怎么找到,win10怎么查看wifi账号密码_win10电脑怎么看wifi密码...
  10. DES加密算法(框图流程详细分析)(C++实现)
  11. 华为一员工猝死出租屋 警方初步排除他杀
  12. 【洛谷】P1878 舞蹈课
  13. 活动回顾 | 大咖云集“开源安全治理模型和工具”线上研讨会
  14. axios http请求报错: Request failed with status code 400
  15. 苹果,忘了发家的根本…
  16. 360可以修复服务器系统吗,可以通过360急救箱修复系统
  17. 华为重度渗透的欧洲,美国如何清剿?
  18. 阿里云API网关(9)常见问题
  19. 理解闭包的前置条件—— λ演算和作用域规则
  20. EtcGame华丽升级为Coingame 新增ETH投注!

热门文章

  1. 最新Java培训-NIO实战教程
  2. 如何恢复,迁移,添加, 删除 Voting Disks
  3. javascript 异步实现方案
  4. 怎样使一个Android应用不被杀死?(整理)
  5. cmd中实现scott的解锁和开锁以及授予dba权限
  6. HDU 2561 第二小整数
  7. Java EE学习笔记(四)
  8. Mac MySQL 数据库配置(关系型数据库管理系统)
  9. LESS 的 operation 是 特性
  10. [LeetCode] [C++] 第一轮刷题总结(持续更新~~~)