目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR
作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号,转载请获得授权并标明出处。
原文链接:https://arXiv.org/abs/2109.10852
语言模型与目标检测这种八竿子打不着的领域之间会存在关联性吗 ?Hinton团队的最新工作Pix2Seq对此进行了探索,它将目标检测问题转换成了语言模型问题,并在COCO数据集上取得了与DETR相当甚至更优性能 。好大的脑洞!
Abstract
本文提出了一种简单而通用框架Pix2Seq用于目标检测,不同于已有显式集成先验知识的方案,我们将目标检测任务转换成了基于观测像素输入的语言模型任务 。关于目标的描述(比如边框、类别)将被描述为离散token序列,我们训练了一个神经网络去感知图像并生成期望的序列。
该方法主要基于这样的直觉:如果神经网络知道目标在哪、目标是什么,那么我们仅需要教它如何进行解析 。除了实用任务相关数据增广外,该方法对任务做了最小假设,相比高度优化的检测方案,所提方法在COCO数据集上取得了极具竞争力的结果。
原文地址:目标检测的 “尽头” 竟是语言建模?Hinton 团队提出 Pix2Seq:性能优于 DETR
目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR相关推荐
- 目标检测再次革新!图灵奖得主团队提出Pix2Seq,将Detection变成了Image Captioning...
关注公众号,发现CV技术之美 ▊ 写在前面 本文提出了一种简单通用的目标检测框架Pix2Seq.与目前显式地集成了关于检测任务的先验知识的方法不同,本文的方法简单地将目标检测转换为以像素输入为条件的语 ...
- 目标检测的尽头是语言建模?Hinton团队提出Pix2Seq,性能媲美DETR
©作者 | 机器之心编辑部 来源 | 机器之心 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Fa ...
- 【20201211期AI简报】目标检测可达40fps! 标称2.0TOPS的RV1126性能评估实测
导读:本期为 AI 简报 20201211 期,将为您带来 8 条相关新闻,有趣有料~ 本文一共 2500 字,通篇阅读结束需要 4~7 分钟 1. 目标检测可达40fps! 标称2.0TOPS的RV ...
- CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟 报道 | 公众号 CVLianMeng 转载于 :机器之心 论文链接:htt ...
- 动目标检测算法——高斯混合背景建模
混合高斯背景建模是基于像素样本统计信息的背景表示方法,利用像素在较长时间内大量样本值的概率密度等统计信息(如模式数量.每个模式的均值和标准差)表示背景,然后使用统计差分(如3σ原则)进行目标像素判断, ...
- 基于区域注意的通用目标检测
Towards Universal Object Detection by Domain Attention Xudong Wa ...
- Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自|arxiv 编译|机器之心 目标检测的「尽头」是语言建模?近 ...
- 图灵奖大佬Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR
来源:机器之心 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DET ...
- 语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究...
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 长期以来,CNN都是解决目标检测任务的经典方法. 就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的. 但现 ...
最新文章
- python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
- 通达oa与mysql集成_安装通达OA后想使用其自带的Mysql数据库的解决方法
- 阿里邮箱发布“Mail+”战略 有望与畅捷通工作圈互通互联
- 敏捷DoD完成定义的多种形态
- 类的本质 Objective-C基础
- SQL分组处理气象数据及注意事项
- LeetCode 717. 1比特与2比特字符
- 谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了
- 计算机网络匿名性,匿名文件传输协议
- AI一周热闻:华为年收入突破千亿美元;英伟达发布城市监控数据集
- 微信小程序熊猫抽奖盒子panda_luckybox3.3.1多开版
- SAP MM供应商主数据
- 水倒七分、茶倒八分、酒倒满
- Transformer---RNN网络
- bugku never give up
- python请输入星期几的第一个字母来判断_【Python 实例】面向对象 | 请输入一周中某天的名称的第一个字母来判断以下是星期几,如果第一个字母一样则继续判断第二个字母...
- AI发电厂——数据标注公司(国内数据标注公司服务调研)
- 每日诗词 【登徒子好色赋并序】
- atch: shared pool 优化探索
- 阿里云物联网平台的创建与测试
热门文章
- 关于npm和yarn 安装vue脚手架
- BZOJ 3195: [Jxoi2012]奇怪的道路 | 状压DP
- 【Oracle】PL/SQL Developer使用技巧(持续更新中)
- JavaScript能力测评经典题及答案(一:数组之查找组元素位置)
- angularjs $watch
- Quartz.net官方开发指南 第九课: JobStore
- GridView使用一些记录
- 常见荧光定量 PCR 检测方法比较
- python网络编程证书_《Python网络编程基础》笔记
- 编写AXI4协议读写BRAM并仿真验证