【唐宇迪】CV不存在?Meta最新的计算机视觉Segment Anything Meta终极模型,强到离谱!-人工智能/计算机视觉/深度学习/机器学习_哔哩哔哩_bilibili4月5日最新发布,Meta正式推出模型SAM(Segment Anything Model)称这一模型可用于识别图像和视频中的物体,甚至是从未被训练学习过的物品。技术论文也一并推出,标题甚至只有两个单词——Segment Anything(分割一切),喜欢记得多多支持。, 视频播放量 15478、弹幕量 142、点赞数 447、投硬币枚数 239、收藏人数 1044、转发人数 139, 视频作者 跟着唐宇迪学AI, 作者简介 全网同名!大家好,我是唐宇迪,一名计算机博士,专注于机器学习与计算机视觉领域。感谢关注~~~,相关视频:CV界不存在了?体验下Meta最新的Segment Anything Meta计算机新模型实现“终极抠图”,segment-anything是趋势,但是牛逼吹的太大了,【AI绘画】破解Diffusion扩散模型,[小白向-深度学习装机指南] 01 双4090 涡轮版开箱启动 vlog(gpu burn,cpu burn),Segment Anything上线一天8.2k star,Segment Anything 图像分割 VS 清明上河图,计算机视觉(CV)方向就业情况分析,听说很卷?,我大抵是难毕业了,效果巨烂。Yolov5+deepsort+1DCNN,任正非谈ChatGPT,ChatGPT结合Python和MATLAB科研绘图,王炸。https://www.bilibili.com/video/BV18T411W7ph/?spm_id_from=333.337.search-card.all.click&vd_source=4aed82e35f26bb600bc5b46e65e25c22Segment Anything | Meta AIhttps://segment-anything.com/demo

clicks:点,box:框,everything:全图画点。

abstract:数据闭环,1100万张图,10亿mask。可以在一些新的数据分布和任务中直接zero-shot。

1.introduction

foundation models没在数据分布上训练也可以泛化,借助于prompt。本文的核心是构建了一个数据引擎,task,model,dataset。

task:给定prompt输出,prompt可以是文本或者空间上点,只要可以编码成向量就可以,点和框的坐标编码成向量。存在歧义涉及多个对象,输出也是这些对象中至少一个合理的mask。

model:image encoder(VIT),prompt encoder(任意的prompt,point,box,mask prompt一堆点,text prompt),mask decoder,从一个prompt中进行解码只需要50ms进行交互。

data engine:assisted-manual,semi-automatic,fully automatic。

dataset:1100万张图,10亿mask。

标注数据示例:

2.segment anything task

pre-training:vit->mae,text->clip.

3.segment anything model

Image encoder:MAE,ViT-H/16 with 14x14 windowed,16倍下采样,1024x1024降采样成64x64。

Prompt encoder:sparse points,boxes,text and dense masks。点和框通过positional encodings,text通过clip,masks使用卷积嵌入并与图像embeddings相加。变成256维向量。

mask decoder:mask decoder通过image embeddings,prompt embeddings,将oputput token映射到mask,修改了transformer decoder block,我们修改的decoder使用了prompt self-attention和cross-attention,其实就是在vit编码后的image embeddings中,使用通过编码后的embeddings去检索,最终得到mask。

self-attention是prompt之间的attention,明确各自要找的目标,cross-attention是每个token去image embeddings中去检索自己对应的区域。image embedding是256x64x64,token和image存在相互更新。2个decoder,第一个decoder是在64x64上,第二个decoder做了上采样4,是在256x256上做,prompt在第二个decoder时也加了position encoding。

efficiency:cpu上50ms。

segment anything相关推荐

  1. OpenCV中的快速特征检测——FAST(Features from Accelerated Segment Test)

    OpenCV中的快速特征检测--FAST(Features from Accelerated Segment Test) 1. 效果图 2. 源码 参考 OpenCV中的尺度不变特征变换(SIFT S ...

  2. 【FFmpeg】警告:[hls] pkt.duration = 0, maybe the hls segment duration will not precise

    1.问题描述 在使用ffmpeg编程生成m3u8文件时,报警告 [hls @ 0x7f26b4181840] pkt->duration = 0, maybe the hls segment d ...

  3. 【Qt】QPixmap加载图片报错:Corrupt JPEG data: premature end of data segment Didn‘t expect more than one scan

    1.问题描述 在使用QPixmap加载图片时失败,错误信息如下 Corrupt JPEG data: premature end of data segment Didn't expect more ...

  4. 了解你所不知道的SMON功能(十二):Shrink UNDO(rollback) SEGMENT

    SMON对于Undo(Rollback)segment的日常管理还不止于OFFLINE UNDO SEGMENT 转载于:https://blog.51cto.com/maclean/1278486

  5. 视频分割--Learning to Segment Instances in Videos with Spatial Propagation Network

    Learning to Segment Instances in Videos with Spatial Propagation Network CVPRW2017 https://github.co ...

  6. 视频动作识别--Temporal Segment Networks: Towards Good Practices for Deep Action Recognition

    Temporal Segment Networks: Towards Good Practices for Deep Action Recognition ECCV2016 https://githu ...

  7. 分割候选区域--FastMask: Segment Multi-scale Object Candidates in One Shot

    FastMask: Segment Multi-scale Object Candidates in One Shot CVPR2017 https://github.com/voidrank/Fas ...

  8. 目标检测之线段检测---lsd line segment detector

    (1)线段检测应用背景 (2)线段检测原理简介 (3)线段检测实例 a line segment detector (4)hough 变换和 lsd 的区别 --------------------- ...

  9. elf section类型_ELF文件解析(一):Segment和Section

    ELF 是Executable and Linking Format的缩写,即可执行和可链接的格式,是Unix/Linux系统ABI (Application Binary Interface)规范的 ...

  10. 运行sqlplus时遇到cannot restore segment prot after reloc: Permission denied

    运行sqlplus时遇到cannot restore segment prot after reloc: Permission denied,网上说可以吧SELinux关掉,但是我看了下我的系统已经关 ...

最新文章

  1. UI培训教程分享:常用的商业插画风格有哪些?
  2. 4K 海思 联咏 芯片_画质的好坏并不只取决于屏幕 电视芯片也很重要
  3. @Query注解的用法(Spring Data JPA)
  4. 【LeetCode】1. Two Sum
  5. 获取系统URL访问的前三名(通过Scala方式实现/通过Spark方式实现),Spark将URL访问日志进行分类并通过自定义Partitioner的方式将文件写入到不同分区上
  6. 和Google 微帧 Hulu Hotstar 爱奇艺 火花思维 猿辅导 新浪微博的专家聊聊Codec
  7. 微信小程序多选取值判断显示内容
  8. 数据库SQL,技巧篇
  9. Android8.0(34)----Android 8.0 Settings流程分析与变动
  10. 树莓派学习2-连接蓝牙音箱进行语音播放
  11. Vscode Element-ui 提示插件
  12. 机器翻译和自动译后编辑
  13. 高精度信号链电路精密模拟器件双轨供电方案
  14. PS动作怎么做爆炸火焰效果特效
  15. 华众 mysql_华众虚拟主机管理系统HZhost三大常见错误!
  16. [NodeBB]NodeBB论坛站点管理小结
  17. 一款二次元风格好看的视频jiexi官网
  18. ChatGPT进阶——如何辅助设计E-R图、流程图和时序图等
  19. OpenGL入门:窗口开启、改变窗口背景颜色
  20. 某徒步旅游网站python爬虫小练习

热门文章

  1. 如何用正则表达式匹配汉字
  2. 中秋送礼蓝牙耳机有哪些?高质量蓝牙耳机推荐
  3. Cadence Virtuoso 电路元器件旁边的参数显示出来
  4. 写文章的软件-免费写文章的软件
  5. Beats:如何调试 Beats processors
  6. 阿里云视频云互动虚拟技术,打造虚拟直播最佳沉浸式体验
  7. http://cued.xunlei.com/
  8. 用python画目标的外轮廓线(含python代码)
  9. 什么是本体?设计本体的准则是什么?
  10. MMORPG大型游戏设计与开发(服务器 游戏场景 动态场景与副本)