1、模型数据

Hugging Face – The AI community building the future.

机器之心SOTA!模型

2、谷歌github

Meta Research · GitHub

3、deit

GitHub - facebookresearch/deit at colab

4、SAM

GitHub - IDEA-Research/Grounded-Segment-Anything: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP - Automatically Detect , Segment and Generate Anything with Image and Text Inputs

5、智能问答

Slack

6、 vild:

tpu/models/official/detection/projects/vild at master · tensorflow/tpu · GitHub

7.出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT  
8、Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2 - 知乎

9、CLIP

CLIP VIT32和RN50是OpenAI发布的两种图像编码器,用于图像和语言的对抗预训练。两者的主要区别在于:1. 图像模型不同。CLIP VIT32 使用 Vision Transformer(ViT)作为图像模型,它是一种基于Transformer的图像分类网络。CLIP RN50 使用ResNet50作为图像模型,是一种基于CNN的图像分类网络。2. 参数量不同。CLIP VIT32 的参数量较小,只有32M,适合在有限资源环境下使用。CLIP RN50 的参数量较大,为25G,需要更强大的GPU支持。3. 精度不同。在相同的预训练数据和 Fine-tuning 设置下,CLIP RN50 的精度总体优于 CLIP VIT32,特别是在图像分类上。这是由于ResNet50作为图像分类模型,具有更强的分类能力。4. 发布时间不同。CLIP VIT32 于2020年8月发布,CLIP RN50 于2021年1月发布,CLIP RN50 基于CLIP VIT32进行改进而产生。除以上之外,CLIP VIT32和RN50在其他方面类似:1. 都使用Transformer实现文本编码。2. 都在400万个图像-文本对上进行对抗预训练。3. 都具有Zero-shot分类、图像/语言检索和语义匹配分析的功能。4. 都具有简单和通用的结构,易于在新数据集上Fine-tuning。

重要:

基于CLIP实现的以文搜图 - 飞桨AI Studio

GitHub - yzhuoning/Awesome-CLIP: Awesome list for research on CLIP (Contrastive Language-Image Pre-Training).

GitHub - mlfoundations/open_clip: An open source implementation of CLIP.

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

自动学习:

Prompt工程:自动学习Clip的Prompt - 知乎

10、GPT搭建使用

GitHub - modelscope/modelscope: ModelScope: bring the notion of Model-as-a-Service to life.

wgetcloud->注册openai

11、中文CLIP
ModelScope 魔搭社区

12.

AIGC技术与应用全解析_cn--萍诚1号的博客-CSDN博客

20230406 AI 多模态相关推荐

  1. 【反内卷】开创全新AI多模态任务一视听分割:附原理、代码实践、优化教程(一)

    前言 文章原创,出自 cv君,公众号:DeepAI 视界 gif 不能发出声音,大家脑补一下场景.算法找到视频中的打击乐器和钢琴正在发声 gif 不能发出声音,大家脑补一下场景.算法找到视频中的救护车 ...

  2. 极智AI | 多模态领域先行者 详解 CLIP 算法实现

      欢迎关注我的公众号 [极智视界],获取我的更多笔记分享   大家好,我是极智视界,本文详细介绍一下 CLIP 算法的设计与实现,包括代码.   多模态一定不是一个新鲜的话语,随着 AI 的发展,也 ...

  3. 【手把手反内卷】开创全新AI多模态任务一视听分割:代码实践、优化教程(二)

    前言 理论部分请看上一篇文章: 简要概述:我们要知道图像中哪个物体在发声如下视频演示: gif 不能发出声音,大家脑补一下场景中有很多车,只有这辆120在发出声音,所以分割出发出声音的物体. 这是一位 ...

  4. CLIP:多模态领域革命者

    CLIP:多模态领域革命者 当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18 ...

  5. 6岁的招聘界“ChatGPT”|企业家俱乐部“创业者下午茶”第八期——AI得贤招聘官创始人方小雷

    您知道吗?中国6年前就有"ChatGPT"产品了? 南京大学上海校友会企业家俱乐部"创业者下午茶"本期来到位于徐汇区漕河泾开发区宝石园的AI得贤招聘官总部,听创 ...

  6. 京东AI研究院梅涛:计算机视觉助力提升服务体验

    https://www.toutiao.com/a6675869896380776972/ 京东AI研究院副院长.计算机视觉与多媒体实验室主任梅涛 3月21日,己亥年人工智能春季创新大会在北京国宾酒店 ...

  7. 多模态交互的概念与现状

    一.多模态概念     所谓"模态",英文是modality,用通俗的话说,就是"感官",多模态即将多种感官融合.     目前的人机智能交互比如语言控制不如屏 ...

  8. 传苹果开发ChatGPT类的AI产品;iPhone 15 Pro系列或将涨价;PyTorch 2.0 发布 |极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  9. 突发!李开复宣布加入中文版ChatGPT大战!要打造AI 2.0全新平台!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:APPSO 1123转载自 刚刚,创新工场董事长兼 ...

最新文章

  1. Android程序完全退出的三种方法
  2. Fiddler 抓取eclipse中的请求
  3. XML解析之dom4j
  4. Maven下载、配置环境变量、配置本地仓库、国内镜像源、在IDEA中配置Maven
  5. Java多线程复习_Java多线程复习
  6. jmx 替代_使用JMX作为Ganglia的现代替代品进行CLDB监视
  7. 【全网最全】一文搞定 Linux 压缩、解压哪些事儿
  8. 雷军曾被马云夫人张瑛数落一个多小时?当事人回应:都是谣言
  9. Windows Vista桌面窗口管理器(3)
  10. 在arxiv上看到自己的投稿署了别人的名字是什么体验?
  11. 你们身边成功的生意人有哪些特质
  12. 在模拟器中添加模拟尺寸
  13. mysql分区表设计(一)
  14. 界面控件DotNetBar for WinForms使用教程:LayoutControl详解(二)
  15. 【存档】双向可控硅的工作原理
  16. IT项目管理之第9章 项目沟通管理习题之案例分析汇总
  17. python——月供计算器
  18. gpu浮点计算能力floaps_认识GPU浮点计算精度
  19. 阅读软件怎么添加书源_「看书+听书」两款神器软件,我已深深的为之折服了...
  20. Android5.0新特性:RecyclerView实现上拉加载更多

热门文章

  1. laravel没有vendor文件夹的解决方法
  2. C#软件加序列号激活、试用期限
  3. 2022-2028全球与中国绿色氢基微电网市场现状及未来发展趋势
  4. Cocos之 从C++过渡到Lua
  5. 红旗linux如何硬盘安装教程,红旗Linux硬盘安装攻略
  6. word 计算机内存不足,Win10系统中,为什么打开WORD提示内存不足?
  7. 学习《运筹学基础》心得
  8. 淘宝推广方法大全,教你如何做淘宝(转)
  9. bluetoothd源码剖析(一)启动流程
  10. 8s数据导入导出的load和unload解析