20230406 AI 多模态

1、模型数据

Hugging Face – The AI community building the future.

机器之心SOTA！模型

2、谷歌github

Meta Research · GitHub

3、deit

GitHub - facebookresearch/deit at colab

4、SAM

GitHub - IDEA-Research/Grounded-Segment-Anything: Marrying Grounding DINO with Segment Anything & Stable Diffusion & BLIP - Automatically Detect , Segment and Generate Anything with Image and Text Inputs

5、智能问答

Slack

6、 vild:

tpu/models/official/detection/projects/vild at master · tensorflow/tpu · GitHub

7.出现了一些基于自监督的方法，这包括基于对比学习的方法如MoCo和SimCLR，和基于图像掩码的方法如MAE和BeiT
8、Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2 - 知乎

9、CLIP

CLIP VIT32和RN50是OpenAI发布的两种图像编码器,用于图像和语言的对抗预训练。两者的主要区别在于:1. 图像模型不同。CLIP VIT32 使用 Vision Transformer(ViT)作为图像模型,它是一种基于Transformer的图像分类网络。CLIP RN50 使用ResNet50作为图像模型,是一种基于CNN的图像分类网络。2. 参数量不同。CLIP VIT32 的参数量较小,只有32M,适合在有限资源环境下使用。CLIP RN50 的参数量较大,为25G,需要更强大的GPU支持。3. 精度不同。在相同的预训练数据和 Fine-tuning 设置下,CLIP RN50 的精度总体优于 CLIP VIT32,特别是在图像分类上。这是由于ResNet50作为图像分类模型,具有更强的分类能力。4. 发布时间不同。CLIP VIT32 于2020年8月发布,CLIP RN50 于2021年1月发布,CLIP RN50 基于CLIP VIT32进行改进而产生。除以上之外,CLIP VIT32和RN50在其他方面类似:1. 都使用Transformer实现文本编码。2. 都在400万个图像-文本对上进行对抗预训练。3. 都具有Zero-shot分类、图像/语言检索和语义匹配分析的功能。4. 都具有简单和通用的结构,易于在新数据集上Fine-tuning。

重要：

基于CLIP实现的以文搜图 - 飞桨AI Studio

GitHub - yzhuoning/Awesome-CLIP: Awesome list for research on CLIP (Contrastive Language-Image Pre-Training).

GitHub - mlfoundations/open_clip: An open source implementation of CLIP.

GitHub - openai/CLIP: CLIP (Contrastive Language-Image Pretraining), Predict the most relevant text snippet given an image

自动学习：

Prompt工程：自动学习Clip的Prompt - 知乎

10、GPT搭建使用

GitHub - modelscope/modelscope: ModelScope: bring the notion of Model-as-a-Service to life.

wgetcloud->注册openai

11、中文CLIP
ModelScope 魔搭社区

12.

AIGC技术与应用全解析_cn--萍诚1号的博客-CSDN博客

20230406 AI 多模态相关推荐

【反内卷】开创全新AI多模态任务一视听分割：附原理、代码实践、优化教程（一）
前言文章原创,出自 cv君,公众号:DeepAI 视界 gif 不能发出声音,大家脑补一下场景.算法找到视频中的打击乐器和钢琴正在发声 gif 不能发出声音,大家脑补一下场景.算法找到视频中的救护车 ...
极智AI | 多模态领域先行者详解 CLIP 算法实现
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享大家好,我是极智视界,本文详细介绍一下 CLIP 算法的设计与实现,包括代码. 多模态一定不是一个新鲜的话语,随着 AI 的发展,也 ...
【手把手反内卷】开创全新AI多模态任务一视听分割：代码实践、优化教程（二）
前言理论部分请看上一篇文章: 简要概述:我们要知道图像中哪个物体在发声如下视频演示: gif 不能发出声音,大家脑补一下场景中有很多车,只有这辆120在发出声音,所以分割出发出声音的物体. 这是一位 ...
CLIP：多模态领域革命者
CLIP:多模态领域革命者当前的内容是梳理<Transformer视觉系列遨游>系列过程中引申出来的.目前最近在AI作画这个领域 Transformer 火的一塌糊涂,AI画画效果从18 ...
6岁的招聘界“ChatGPT”|企业家俱乐部“创业者下午茶”第八期——AI得贤招聘官创始人方小雷
您知道吗?中国6年前就有"ChatGPT"产品了? 南京大学上海校友会企业家俱乐部"创业者下午茶"本期来到位于徐汇区漕河泾开发区宝石园的AI得贤招聘官总部,听创 ...
京东AI研究院梅涛：计算机视觉助力提升服务体验
https://www.toutiao.com/a6675869896380776972/ 京东AI研究院副院长.计算机视觉与多媒体实验室主任梅涛 3月21日,己亥年人工智能春季创新大会在北京国宾酒店 ...
多模态交互的概念与现状
一.多模态概念所谓"模态",英文是modality,用通俗的话说,就是"感官",多模态即将多种感官融合. 目前的人机智能交互比如语言控制不如屏 ...
传苹果开发ChatGPT类的AI产品；iPhone 15 Pro系列或将涨价；PyTorch 2.0 发布 |极客头条
「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹出品 | CSDN(ID:CSDNnews ...
突发！李开复宣布加入中文版ChatGPT大战！要打造AI 2.0全新平台！
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入->[计算机视觉]微信技术交流群转载自:APPSO 1123转载自刚刚,创新工场董事长兼 ...

20230406 AI 多模态

20230406 AI 多模态相关推荐

最新文章

热门文章