20230406 AI 多模态
1、模型数据
Hugging Face – The AI community building the future.
机器之心SOTA!模型
2、谷歌github
Meta Research · GitHub
3、deit
GitHub - facebookresearch/deit at colab
4、SAM
GitHub - IDEA-Research/Grounded-Segment-Anything: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP - Automatically Detect , Segment and Generate Anything with Image and Text Inputs
5、智能问答
Slack
6、 vild:
tpu/models/official/detection/projects/vild at master · tensorflow/tpu · GitHub
7.出现了一些基于自监督的方法,这包括基于对比学习的方法如MoCo和SimCLR,和基于图像掩码的方法如MAE和BeiT
8、Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2 - 知乎
9、CLIP
CLIP VIT32和RN50是OpenAI发布的两种图像编码器,用于图像和语言的对抗预训练。两者的主要区别在于:1. 图像模型不同。CLIP VIT32 使用 Vision Transformer(ViT)作为图像模型,它是一种基于Transformer的图像分类网络。CLIP RN50 使用ResNet50作为图像模型,是一种基于CNN的图像分类网络。2. 参数量不同。CLIP VIT32 的参数量较小,只有32M,适合在有限资源环境下使用。CLIP RN50 的参数量较大,为25G,需要更强大的GPU支持。3. 精度不同。在相同的预训练数据和 Fine-tuning 设置下,CLIP RN50 的精度总体优于 CLIP VIT32,特别是在图像分类上。这是由于ResNet50作为图像分类模型,具有更强的分类能力。4. 发布时间不同。CLIP VIT32 于2020年8月发布,CLIP RN50 于2021年1月发布,CLIP RN50 基于CLIP VIT32进行改进而产生。除以上之外,CLIP VIT32和RN50在其他方面类似:1. 都使用Transformer实现文本编码。2. 都在400万个图像-文本对上进行对抗预训练。3. 都具有Zero-shot分类、图像/语言检索和语义匹配分析的功能。4. 都具有简单和通用的结构,易于在新数据集上Fine-tuning。
重要:
基于CLIP实现的以文搜图 - 飞桨AI Studio
GitHub - yzhuoning/Awesome-CLIP: Awesome list for research on CLIP (Contrastive Language-Image Pre-Training).
GitHub - mlfoundations/open_clip: An open source implementation of CLIP.
GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image
自动学习:
Prompt工程:自动学习Clip的Prompt - 知乎
10、GPT搭建使用
GitHub - modelscope/modelscope: ModelScope: bring the notion of Model-as-a-Service to life.
wgetcloud->注册openai
11、中文CLIP
ModelScope 魔搭社区
12.
AIGC技术与应用全解析_cn--萍诚1号的博客-CSDN博客
20230406 AI 多模态相关推荐
- 【反内卷】开创全新AI多模态任务一视听分割:附原理、代码实践、优化教程(一)
前言 文章原创,出自 cv君,公众号:DeepAI 视界 gif 不能发出声音,大家脑补一下场景.算法找到视频中的打击乐器和钢琴正在发声 gif 不能发出声音,大家脑补一下场景.算法找到视频中的救护车 ...
- 极智AI | 多模态领域先行者 详解 CLIP 算法实现
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享 大家好,我是极智视界,本文详细介绍一下 CLIP 算法的设计与实现,包括代码. 多模态一定不是一个新鲜的话语,随着 AI 的发展,也 ...
- 【手把手反内卷】开创全新AI多模态任务一视听分割:代码实践、优化教程(二)
前言 理论部分请看上一篇文章: 简要概述:我们要知道图像中哪个物体在发声如下视频演示: gif 不能发出声音,大家脑补一下场景中有很多车,只有这辆120在发出声音,所以分割出发出声音的物体. 这是一位 ...
- CLIP:多模态领域革命者
CLIP:多模态领域革命者 当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18 ...
- 6岁的招聘界“ChatGPT”|企业家俱乐部“创业者下午茶”第八期——AI得贤招聘官创始人方小雷
您知道吗?中国6年前就有"ChatGPT"产品了? 南京大学上海校友会企业家俱乐部"创业者下午茶"本期来到位于徐汇区漕河泾开发区宝石园的AI得贤招聘官总部,听创 ...
- 京东AI研究院梅涛:计算机视觉助力提升服务体验
https://www.toutiao.com/a6675869896380776972/ 京东AI研究院副院长.计算机视觉与多媒体实验室主任梅涛 3月21日,己亥年人工智能春季创新大会在北京国宾酒店 ...
- 多模态交互的概念与现状
一.多模态概念 所谓"模态",英文是modality,用通俗的话说,就是"感官",多模态即将多种感官融合. 目前的人机智能交互比如语言控制不如屏 ...
- 传苹果开发ChatGPT类的AI产品;iPhone 15 Pro系列或将涨价;PyTorch 2.0 发布 |极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...
- 突发!李开复宣布加入中文版ChatGPT大战!要打造AI 2.0全新平台!
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[计算机视觉]微信技术交流群 转载自:APPSO 1123转载自 刚刚,创新工场董事长兼 ...
最新文章
- Android程序完全退出的三种方法
- Fiddler 抓取eclipse中的请求
- XML解析之dom4j
- Maven下载、配置环境变量、配置本地仓库、国内镜像源、在IDEA中配置Maven
- Java多线程复习_Java多线程复习
- jmx 替代_使用JMX作为Ganglia的现代替代品进行CLDB监视
- 【全网最全】一文搞定 Linux 压缩、解压哪些事儿
- 雷军曾被马云夫人张瑛数落一个多小时?当事人回应:都是谣言
- Windows Vista桌面窗口管理器(3)
- 在arxiv上看到自己的投稿署了别人的名字是什么体验?
- 你们身边成功的生意人有哪些特质
- 在模拟器中添加模拟尺寸
- mysql分区表设计(一)
- 界面控件DotNetBar for WinForms使用教程:LayoutControl详解(二)
- 【存档】双向可控硅的工作原理
- IT项目管理之第9章 项目沟通管理习题之案例分析汇总
- python——月供计算器
- gpu浮点计算能力floaps_认识GPU浮点计算精度
- 阅读软件怎么添加书源_「看书+听书」两款神器软件,我已深深的为之折服了...
- Android5.0新特性:RecyclerView实现上拉加载更多