每日学术速递5.13
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Subjects: cs.CV
1.VideoChat: Chat-Centric Video Understanding
标题:VideoChat:以聊天为中心的视频理解
作者:KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao
文章链接:https://arxiv.org/abs/2305.06355
项目代码:https://rl-at-scale.github.io/
摘要:
我们在这项研究中,我们通过引入以端到端聊天为中心的视频理解系统 VideoChat,开始对视频理解的探索。它通过可学习的神经接口集成了视频基础模型和大型语言模型,在时空推理、事件定位和因果关系推理方面表现出色。为了指导性地调整该系统,我们提出了一个以视频为中心的指令数据集,该数据集由数千个与详细描述和对话相匹配的视频组成。该数据集强调时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了宝贵的资产。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来的研究设定了标准。通过此 https URL 访问我们的代码和数据
2.Relightify: Relightable 3D Faces from a Single Image via Diffusion Models
标题:Relightify:通过扩散模型从单个图像中重新照明 3D 人脸
作者:Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou
文章链接:https://arxiv.org/abs/2305.06077
项目代码:https://foivospar.github.io/Relightify/
摘要:
继扩散模型在图像生成方面取得显着成功之后,最近的工作也展示了它们以无监督方式解决许多逆问题的令人印象深刻的能力,方法是根据条件输入适当地约束采样过程。受此启发,在本文中,我们提出了第一种使用扩散模型作为先验的方法,用于从单个图像进行高精度 3D 面部 BRDF 重建。我们首先利用高质量的面部反射率 UV 数据集(漫反射和镜面反照率和法线),我们在不同的照明设置下渲染以模拟自然 RGB 纹理,然后在串联的渲染纹理对上训练无条件扩散模型和反射成分。在测试时,我们将 3D 可变形模型拟合到给定图像,并在部分 UV 纹理中展开面部。通过从扩散模型中采样,在保持观察到的纹理部分完好无损的同时,该模型不仅修复了自遮挡区域,还修复了未知的反射分量,在一个单一的去噪步骤序列中。与现有方法相比,我们直接从输入图像中获取观察到的纹理,从而导致更忠实和一致的反射率估计。通过一系列定性和定量比较,我们在纹理完成和反射重建任务中展示了卓越的性能。
3.TidyBot: Personalized Robot Assistance with Large Language Models
标题:TidyBot:具有大型语言模型的个性化机器人协助
作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong
文章链接:https://arxiv.org/abs/2305.05658
项目代码:https://tidybot.cs.princeton.edu/
摘要:
机器人要想有效地提供个性化的物理帮助,就必须了解用户的偏好,这些偏好通常可以重新应用于未来的场景。在这项工作中,我们研究了家庭清洁的个性化,机器人可以通过拾取和放好物品来整理房间。一个关键的挑战是确定放置每个物体的合适位置,因为人们的喜好会因个人品味或文化背景而有很大差异。例如,一个人可能更喜欢将衬衫存放在抽屉中,而另一个人可能更喜欢将它们放在架子上。我们的目标是构建可以通过与特定人的先前交互从少数示例中学习此类偏好的系统。我们表明,机器人可以将基于语言的规划和感知与大型语言模型 (LLM) 的少量摘要功能相结合,以推断广泛适用于未来交互的广义用户偏好。这种方法可以实现快速适应,并在我们的基准数据集中对看不见的物体实现 91.2% 的准确率。我们还在真实世界的移动机械手 TidyBot 上展示了我们的方法,它在真实世界的测试场景中成功地放置了 85.0% 的物体。
更多Ai资讯:公主号AiCharm
每日学术速递5.13相关推荐
- 每日学术速递4.13
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Slide-Transformer: Hierarchical ...
- 每日学术速递1.26
CV - 计算机视觉 今天带来的是北航IRIP实验室被国际人工智能联合会议IJCAI-ECAI 2022接收的3篇论文. IJCAI 是人工智能领域中最主要的学术会议之一,原为单数年召开,自2015年 ...
- 每日学术速递1.27
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 前沿推介: ICLR 2023 ICLR 全称为国际学习表征会议(International Conference on L ...
- 每日学术速递1.29
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 更多Ai资讯: Subjects:cs.CV 1. Compact Transformer Trac ...
- 每日学术速递2.16
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Efficient Teacher: Semi-Supervis ...
- 每日学术速递5.30
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Accelerated Coordinate Encoding: ...
- 每日学术速递5.26
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Text2NeRF: Text-Driven 3D Scene ...
- 每日学术速递5.15
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CL 1.Not All Languages Are Created Eq ...
- 每日学术速递4.12
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.HC 随着新的"生成代理"论文的发布,LLM刚刚达到了 ...
最新文章
- 【imx6】libipu.so.0说明
- AWS — AWS Local Zone
- 【Android】Handler 机制 ( Handler | Message | Looper | MessageQueue )
- 阿里研究员谷朴:警惕软件复杂度困局
- 从0开始利用宝塔linux面板+WordPress一键部署搭建个人的博客介绍
- SublimeText3: ImportError: No module named ‘urllib2′
- elasticsearch 6.x (二) linux部署 kibana x-pack 安装
- HTTP与HTTPS的区别[转载]
- 实现Exchange2003安全全集(下)
- 'GO' 附近有语法错误问题,我真是无语~
- java 多线程高级面试_15个顶级Java多线程面试题及答案
- 18位身份证标准及验证
- 人的9种2266对联文字的世界纪录(图)
- amr java 播放_Java ME中.amr文件的语音或音频播放器
- Android实现序列化方式
- 互联网+大赛作品_“颂中国力量 绘美好梦想”全市中小学生互联网+书画大赛作品展示(三)...
- 微信小程序 - BILIBILI-demo
- python的一系列绘图基础
- 【RDMA】15. RDMA之RoCE Soft-RoCE
- delphi 文件夹操作