简介

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。具体来说，在文本方面，作者利用 Vicuna 作为语言解码器，在视觉感知方面，使用了与BLIP-2相同的视觉编码器，并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视觉编码器和 LLM 之间的差距，模型架构图如下所示：

特性：

MiniGPT-4仅使用一个投影层将来自BLIP-2的冻结视觉编码器与冻结的LLM，Vicuna对齐。
我们分两个阶段训练 MiniGPT-4。第一个传统的预训练阶段是使用 5 个 A10 在 4 小时内使用大约 100 万个对齐的图像文本对进行训练。在第一阶段之后，骆马能够理解图像。但骆马的生成能力受到严重影响。
为了解决这个问题并提高可用性，我们提出了一种新颖的方法，通过模型本身和 ChatGPT 一起创建高质量的图像文本对。在此基础上，我们创建了一个小的（总共3500对）但高质量的数据集。
第二个微调阶段在对话模板中对此数据集进行训练，以显着提高其生成可靠性和整体可用性。令我们惊讶的是，这个阶段的计算效率很高，使用单个 A7 只需要大约 100 分钟。
MiniGPT-4 产生了许多新兴的视觉语言功能，类似于 GPT-4 中展示的功能。

项目地址:https://github.com/Vision-CAIR/MiniGPT-4#online-demo
在线体验地址:https://minigpt-4.github.io/

快速体验

准备代码和环境

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

准备训练的Vicuna权重文件

当前版本的Minigpt-4建立在Vicuna-13b的V0 Versoin上。请在此处参考他们的说明以获取权重。最终权重将在一个具有以下结构的单个文件夹中：

>vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin

在本地启动演示

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

训练

MiniGPT-4的训练包含两个对齐阶段。

在第一个预训练阶段，使用来自Laion和CC数据集的图像文本对训练模型以调整视觉和语言模型。要下载和准备数据集，请检查我们的第一阶段数据集准备说明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md。在第一阶段之后，视觉特征被映射并可以被语言理解型。若要启动第一阶段训练，请运行以下命令。在我们的实验中，我们使用4 A100。您可以在配置文件中更改保存路径 train_configs/minigpt4_stage1_pretrain.yaml

torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/minigpt4_stage1_pretrain.yaml
在第二阶段，我们使用自己创建的小型高质量图像文本对数据集并将其转换为对话格式以进一步对齐 MiniGPT-4。要下载并准备我们的第二阶段数据集，请查看我们的第二阶段数据集准备说明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md。要启动第二阶段对齐，首先指定在 train_configs/minigpt1_stage4_pretrain.yaml 中在第 1 阶段训练的检查点文件的路径。您还可以在此处指定输出路径。然后，运行以下命令。在我们的实验中，我们使用 1 个 A100。

实验结果

MiniGPT4，开源了相关推荐

MiniGPT-4开源了，史无前例的AI图片内容分析，甚至能用于逻辑验证码推理识别
MiniGPT-4: github库 https://github.com/Vision-CAIR/MiniGPT-4 在线测试网址 https://minigpt-4.github.io/ 案例一: ...
GPT4的1000+篇文章总结
GPT4的1000+篇文章总结本文收集和总结了有关GPT4的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关A ...
MiniGPT-4：看图聊天、教学、创作、搭网站......还开源了
一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等. 尽管目前 OpenAI 暂未对 GPT-4 ...
MiniGPT4，开源了！
梦晨发自凹非寺量子位 | 公众号 QbitAI GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个. MiniGPT-4来了,Demo开放在线可玩. 传一张海鲜大餐照片上去,就能直接获 ...
MiniGPT-4 发布
引言相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素.这些优秀的能力在以前的视觉语言模型中很难实现.对于GPT-4惊人的多模态生成能 ...
minigpt4搭建过程记录，简单体验图文识别乐趣
引言从3月开始,aigc进入了疯狂的开端,正如4月12日无界 AI直播在<探索 AIGC 与人类合作的无限可能>中关于梳理的时间线一样,aigc的各种产品如雨后春笋般进入了不可逆的态势 ...
多模态大模型综述: LLaVA, MiniGPT4
文章目录 LLaVA 一. 简介 1.1. 摘要 1.2. 引言二. 相关工作三. 基于GPT辅助的视觉指令数据生成四. Visual Instruction Tuning 4.1 网络结构 4 ...
GPT-4开源平替miniGPT-4来了，仅需23G显存单机可run，附论文、项目代码地址
来源 | 新智元微信号:AI-era 先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力. 不光能读懂人类的梗,给个手绘草图甚 ...
MiniGPT-4中文翻译
MiniGPT-4: 使用先进的大型语言模型增强视觉语言理解作者为朱德尧.陈俊.沈晓倩.李翔和Mohamed Elhoseiny.*表示贡献相等. 所属机构为沙特阿拉伯国王科技大学. 在线演示点击 ...

MiniGPT4，开源了

简介

快速体验

训练

实验结果

MiniGPT4，开源了相关推荐

最新文章

热门文章