​作者丨happy
编辑丨极市平台
本文原创首发于极市平台公众号,转载请获得授权并标明出处。

原文链接:https://arXiv.org/abs/2109.10852

语言模型与目标检测这种八竿子打不着的领域之间会存在关联性吗 ?Hinton团队的最新工作Pix2Seq对此进行了探索,它将目标检测问题转换成了语言模型问题,并在COCO数据集上取得了与DETR相当甚至更优性能 。好大的脑洞!

Abstract

本文提出了一种简单而通用框架Pix2Seq用于目标检测,不同于已有显式集成先验知识的方案,我们将目标检测任务转换成了基于观测像素输入的语言模型任务 。关于目标的描述(比如边框、类别)将被描述为离散token序列,我们训练了一个神经网络去感知图像并生成期望的序列。

该方法主要基于这样的直觉:如果神经网络知道目标在哪、目标是什么,那么我们仅需要教它如何进行解析 。除了实用任务相关数据增广外,该方法对任务做了最小假设,相比高度优化的检测方案,所提方法在COCO数据集上取得了极具竞争力的结果。

原文地址:目标检测的 “尽头” 竟是语言建模?Hinton 团队提出 Pix2Seq:性能优于 DETR

目标检测的“尽头”竟是语言建模?Hinton团队提出Pix2Seq:性能优于DETR相关推荐

  1. 目标检测再次革新!图灵奖得主团队提出Pix2Seq,将Detection变成了Image Captioning...

    关注公众号,发现CV技术之美 ▊ 写在前面 本文提出了一种简单通用的目标检测框架Pix2Seq.与目前显式地集成了关于检测任务的先验知识的方法不同,本文的方法简单地将目标检测转换为以像素输入为条件的语 ...

  2. 目标检测的尽头是语言建模?Hinton团队提出Pix2Seq,性能媲美DETR

    ©作者 | 机器之心编辑部 来源 | 机器之心 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Fa ...

  3. 【20201211期AI简报】目标检测可达40fps! 标称2.0TOPS的RV1126性能评估实测

    导读:本期为 AI 简报 20201211 期,将为您带来 8 条相关新闻,有趣有料~ 本文一共 2500 字,通篇阅读结束需要 4~7 分钟 1. 目标检测可达40fps! 标称2.0TOPS的RV ...

  4. CVPR 2020 Oral |目标检测+分割均实现SOTA!厦大提出协同学习网络

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :机器之心 论文链接:htt ...

  5. 动目标检测算法——高斯混合背景建模

    混合高斯背景建模是基于像素样本统计信息的背景表示方法,利用像素在较长时间内大量样本值的概率密度等统计信息(如模式数量.每个模式的均值和标准差)表示背景,然后使用统计差分(如3σ原则)进行目标像素判断, ...

  6. 基于区域注意的通用目标检测

                                        Towards Universal Object Detection by Domain Attention Xudong Wa ...

  7. Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自|arxiv  编译|机器之心 目标检测的「尽头」是语言建模?近 ...

  8. 图灵奖大佬Hinton团队CV新作:用语言建模做目标检测,性能媲美DETR

    来源:机器之心 目标检测的「尽头」是语言建模?近日,Hinton 团队提出了全新目标检测通用框架 Pix2Seq,将目标检测视作基于像素的语言建模任务,实现了媲美 Faster R-CNN 和 DET ...

  9. 语言模型“不务正业”做起目标检测,性能还比DETR、Faster R-CNN更好 | Hinton团队研究...

    博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI 长期以来,CNN都是解决目标检测任务的经典方法. 就算是引入了Transformer的DETR,也是结合CNN来预测最终的检测结果的. 但现 ...

最新文章

  1. python中读取文件内容-深入学习python解析并读取PDF文件内容的方法
  2. 通达oa与mysql集成_安装通达OA后想使用其自带的Mysql数据库的解决方法
  3. 阿里邮箱发布“Mail+”战略 有望与畅捷通工作圈互通互联
  4. 敏捷DoD完成定义的多种形态
  5. 类的本质 Objective-C基础
  6. SQL分组处理气象数据及注意事项
  7. LeetCode 717. 1比特与2比特字符
  8. 谷歌、微软、OpenAI等巨头七大机器学习开源项目 看这篇就够了
  9. 计算机网络匿名性,匿名文件传输协议
  10. AI一周热闻:华为年收入突破千亿美元;英伟达发布城市监控数据集
  11. 微信小程序熊猫抽奖盒子panda_luckybox3.3.1多开版
  12. SAP MM供应商主数据
  13. 水倒七分、茶倒八分、酒倒满
  14. Transformer---RNN网络
  15. bugku never give up
  16. python请输入星期几的第一个字母来判断_【Python 实例】面向对象 | 请输入一周中某天的名称的第一个字母来判断以下是星期几,如果第一个字母一样则继续判断第二个字母...
  17. AI发电厂——数据标注公司(国内数据标注公司服务调研)
  18. 每日诗词 【登徒子好色赋并序】
  19. atch: shared pool 优化探索
  20. 阿里云物联网平台的创建与测试

热门文章

  1. 关于npm和yarn 安装vue脚手架
  2. BZOJ 3195: [Jxoi2012]奇怪的道路 | 状压DP
  3. 【Oracle】PL/SQL Developer使用技巧(持续更新中)
  4. JavaScript能力测评经典题及答案(一:数组之查找组元素位置)
  5. angularjs $watch
  6. Quartz.net官方开发指南 第九课: JobStore
  7. GridView使用一些记录
  8. 常见荧光定量 PCR 检测方法比较
  9. python网络编程证书_《Python网络编程基础》笔记
  10. 编写AXI4协议读写BRAM并仿真验证