https://zhuanlan.zhihu.com/p/622314514
作者:yougeii 编辑:CVer

Github(已开源):

https:// https://github.com/ttengwang/Caption-Anything

Hugging Face Demo:

https://huggingface.co/spaces/TencentARC/Caption-Anything

清明上河图demo

近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT实现, 通过视觉控制(鼠标点击)获取特定区域的object, 并以多样化的语言风格描述出来.

传统图像描述或密集描述通常以解析全图为目的, 如果遇到清明上河图等场景丰富且object交互特别复杂的图像, 一个简单的句子或非常长的段落, 对用户阅读很不友好. Caption Anything想看哪里即点击哪里, 根据用户需求定制化地关注局部区域, 进行细节描述及后续推理任务. 同时具有速度优势.

描述一幅图是一对多的映射, 不同用户对图像区域关注重点不同, 语言风格需求也不同. 面对如此多样的文本输出空间, 交互式控制模型输出可以与用户的需求更加对齐. 如下图所示, Caption Anything提供了视觉控制和语言控制.

Caption Anything支持视觉控制和语言控制

用户界面: 支持鼠标点击(连续或单次点击), 输出描述的语言风格控制(情感, 语种, 想象), 利用chatGPT输出物体对应的wiki知识, 同时支持chatGPT进行对话. 代码同时支持Linux和Windows平台.

用户界面

Github(已开源):

https:// https://github.com/ttengwang/Caption-Anything

猜您喜欢:

深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet,一种可控生成的AIGC绘画生成算法! 

经典GAN不得不读:StyleGAN

 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉的前沿弄潮儿!

最新最全100篇汇总!生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云:独学而无友,则孤陋而寡闻

点击 一顿午饭外卖,成为CV视觉的前沿弄潮儿!,领取优惠券,加入 AI生成创作与计算机视觉 知识星球!

Caption Anything:细粒度可控的图像描述,试试解读清明上河图!相关推荐

  1. AI解读清明上河图--Caption Anything 细粒度可控的图像描述

    关注公众号,发现CV技术之美 清明上河图 近日南方科技大学和腾讯ARC Lab开源了一款交互式图像描述工具, 基于Segment Anything, BLIP-2 Captioning和chatGPT ...

  2. Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[图像分割]微信技术交流群 作者:yougeii |(已授权转载)编辑:CVer http ...

  3. RISC-V AI芯片Celerity史上最详细解读(上)(附开源地址)

    RISC-V AI芯片Celerity史上最详细解读(上)(附开源地址) (本文包括Celerity中二值化神经网络的介绍) 作者 陈巍,资深芯片专家,人工智能算法-硬件协同设计专家. 在Hot Ch ...

  4. 自监督学习(Self-Supervised Learning)多篇论文解读(上)

    自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

  5. 苹果系统服务器状态在哪里,详细解读iPhone上的系统定位服务

    原标题:详细解读iPhone上的系统定位服务 自从GPS功能加入智能手机之后,世界仿佛一下子就变小了,只要手上拿着手机,似乎没有什么地方是我们所不能到达的.但GPS定位服务的出现也带来了隐私的安全问题 ...

  6. 浅析系统性思维——新书《系统思维的艺术》解读(上)

    <系统思维的艺术>( The Art of Thinking in Systems),作者是史蒂文·舒斯特(Steven Schuster).在之前的文章中多次提到了系统思维,却没有很好地 ...

  7. 相关与因果的相爱相杀——新书《为什么:因果关系的新科学》解读(上)

    <为什么:因果关系的新科学>(The Book of Why: The New Science of Cause and Effect)是今年3月刚出版的新书,作者是一位传奇人物,81岁的 ...

  8. 实验并解读github上三个DeepDream的Pytorch代码

    实验并解读github上三个DeepDream的Pytorch代码 今天在学习DeepDream的有关内容,关于论文的翻译已经在启发主义--深入神经网络(Inceptionism: Going Dee ...

  9. Detectron2 官方文档详细解读 (上)

    Detectron2解读全部文章链接: Facebook计算机视觉开源框架Detectron2学习笔记 - 从demo到训练自己的模型 Detectron2 "快速开始" Dete ...

最新文章

  1. 2345浏览器网址_2345网址导航回应“浏览器主页劫持”丨开发者日报
  2. 腾讯、网易邮箱设置POP3客户端代理
  3. JQuery UI – droppable 中文文档
  4. [云炬创业学笔记]第一章创业是什么测试14
  5. GitPages个人域名博客
  6. Java版单链表讲解
  7. 测试流程图_入职两年银行测试员经验总结:我是如何帮人们“避雷”的?
  8. 实战Python:利用Python和PyQt5实现天气查询小系统
  9. NFS--基础--01--理论
  10. spring boot校园商铺系统 毕业设计源码论文+答辩PPT
  11. C# ZIP文件压缩和解压
  12. 【程序人生】从外包到大厂,你知道我这一个月是怎么过的吗?
  13. Ambiguous method call.both
  14. mysql 本周、上周、本月、上月SQL 语句
  15. java之等差素数的求法
  16. 计算机组成原理 / 反汇编实验(2)拆弹实验
  17. 【BZOJ1112】砖块Klo
  18. JS字符串转Byte[]
  19. vue-seamless-scroll 从入坑到放弃
  20. 【Lesson 5】 和弦转位

热门文章

  1. chrome浏览器插件下载地址
  2. day02_java基础加强(jdk新特性 javaa设计模式 反射)
  3. Android开发:CoordinatorLayout下的滑动异常(RecyclerView)
  4. 现代最前沿成果之一---G1垃圾收集器器详解
  5. JVM基础 -> G1垃圾收集器
  6. 常州PHP就业情况,看完2018年平均工资数据分析后,我觉悟了...
  7. 笔记:随机误差为什么是高斯分布?
  8. 如何减少疾病恐惧 ?
  9. [学习笔记]CentOS7.6的Samba服务器配置
  10. css3如何让文字垂直居中显示,css3如何让文字垂直居中显示