简介

MiniGPT-4 旨在将来自预训练视觉编码器的视觉信息与先进的大型语言模型 (LLM) 对齐。 具体来说,在文本方面,作者利用 Vicuna 作为语言解码器,在视觉感知方面,使用了与BLIP-2相同的视觉编码器,并且语言和视觉模型都是开源的。本文的主要目标就是使用线性映射层来弥合视觉编码器和 LLM 之间的差距,模型架构图如下所示:


特性:

  • MiniGPT-4仅使用一个投影层将来自BLIP-2的冻结视觉编码器与冻结的LLM,Vicuna对齐。
  • 我们分两个阶段训练 MiniGPT-4。第一个传统的预训练阶段是使用 5 个 A10 在 4 小时内使用大约 100 万个对齐的图像文本对进行训练。在第一阶段之后,骆马能够理解图像。但骆马的生成能力受到严重影响。
  • 为了解决这个问题并提高可用性,我们提出了一种新颖的方法,通过模型本身和 ChatGPT 一起创建高质量的图像文本对。在此基础上,我们创建了一个小的(总共3500对)但高质量的数据集。
  • 第二个微调阶段在对话模板中对此数据集进行训练,以显着提高其生成可靠性和整体可用性。令我们惊讶的是,这个阶段的计算效率很高,使用单个 A7 只需要大约 100 分钟。
  • MiniGPT-4 产生了许多新兴的视觉语言功能,类似于 GPT-4 中展示的功能。

项目地址:https://github.com/Vision-CAIR/MiniGPT-4#online-demo
在线体验地址:https://minigpt-4.github.io/

快速体验

  1. 准备代码和环境

git clone https://github.com/Vision-CAIR/MiniGPT-4.git
cd MiniGPT-4
conda env create -f environment.yml
conda activate minigpt4

  1. 准备训练的Vicuna权重文件

当前版本的Minigpt-4建立在Vicuna-13b的V0 Versoin上。请在此处参考他们的说明以获取权重。最终权重将在一个具有以下结构的单个文件夹中:

>vicuna_weights
├── config.json
├── generation_config.json
├── pytorch_model.bin.index.json
├── pytorch_model-00001-of-00003.bin
  1. 在本地启动演示

python demo.py --cfg-path eval_configs/minigpt4_eval.yaml

训练

MiniGPT-4的训练包含两个对齐阶段。

  1. 在第一个预训练阶段,使用来自Laion和CC数据集的图像文本对训练模型 以调整视觉和语言模型。要下载和准备数据集,请检查 我们的第一阶段数据集准备说明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_1_STAGE.md。 在第一阶段之后,视觉特征被映射并可以被语言理解 型。 若要启动第一阶段训练,请运行以下命令。在我们的实验中,我们使用4 A100。 您可以在配置文件中更改保存路径 train_configs/minigpt4_stage1_pretrain.yaml

    torchrun --nproc-per-node NUM_GPU train.py --cfg-path train_configs/minigpt4_stage1_pretrain.yaml

  2. 在第二阶段,我们使用自己创建的小型高质量图像文本对数据集 并将其转换为对话格式以进一步对齐 MiniGPT-4。 要下载并准备我们的第二阶段数据集,请查看我们的第二阶段数据集准备说明https://github.com/Vision-CAIR/MiniGPT-4/blob/main/dataset/README_2_STAGE.md。 要启动第二阶段对齐, 首先指定在 train_configs/minigpt1_stage4_pretrain.yaml 中在第 1 阶段训练的检查点文件的路径。 您还可以在此处指定输出路径。 然后,运行以下命令。在我们的实验中,我们使用 1 个 A100。

实验结果



MiniGPT4,开源了相关推荐

  1. MiniGPT-4开源了,史无前例的AI图片内容分析,甚至能用于逻辑验证码推理识别

    MiniGPT-4: github库 https://github.com/Vision-CAIR/MiniGPT-4 在线测试网址 https://minigpt-4.github.io/ 案例一: ...

  2. GPT4的1000+篇文章总结

    GPT4的1000+篇文章总结 本文收集和总结了有关GPT4的1000+篇文章,由于篇幅有限只能总结近期的内容,想了解更多内容可以访问:http://www.ai2news.com/, 其分享了有关A ...

  3. MiniGPT-4:看图聊天、教学、创作、搭网站......还开源了

    一个月前,OpenAI 总裁 Greg Brockman 向世人展示了 GPT-4 令人惊讶的多模态能力,如从手写文本直接生成网站和识别图像中的幽默元素等. 尽管目前 OpenAI 暂未对 GPT-4 ...

  4. MiniGPT4,开源了!

    梦晨 发自 凹非寺 量子位 | 公众号 QbitAI GPT-4识图功能迟迟不开放,终于有人忍不住自己动手做了一个. MiniGPT-4来了,Demo开放在线可玩. 传一张海鲜大餐照片上去,就能直接获 ...

  5. MiniGPT-4 发布

    引言 相比ChatGPT,GPT-4展示出了非凡的多模态能力,它可以利用手写文本生成网站并且还能够识别出图片中的幽默元素.这些优秀的能力在以前的视觉语言模型中很难实现.对于GPT-4惊人的多模态生成能 ...

  6. minigpt4搭建过程记录,简单体验图文识别乐趣

    引言 从3月开始,aigc进入了疯狂的开端,正如4月12日无界 AI直播 在<探索 AIGC 与人类合作的无限可能>中关于梳理的时间线一样,aigc的各种产品如雨后春笋般进入了不可逆的态势 ...

  7. 多模态大模型综述: LLaVA, MiniGPT4

    文章目录 LLaVA 一. 简介 1.1. 摘要 1.2. 引言 二. 相关工作 三. 基于GPT辅助的视觉指令数据生成 四. Visual Instruction Tuning 4.1 网络结构 4 ...

  8. GPT-4开源平替miniGPT-4来了,仅需23G显存单机可run,附论文、项目代码地址

    来源 | 新智元  微信号:AI-era 先是ChatGPT的发布给世界带来了一点小小的NLP震撼,随后发布的GPT-4更是破圈计算机视觉,展现了非凡的多模态能力. 不光能读懂人类的梗,给个手绘草图甚 ...

  9. MiniGPT-4中文翻译

    MiniGPT-4: 使用先进的大型语言模型增强视觉语言理解 作者为朱德尧.陈俊.沈晓倩.李翔和Mohamed Elhoseiny.*表示贡献相等. 所属机构为沙特阿拉伯国王科技大学. 在线演示 点击 ...

最新文章

  1. 添加RichEdit控件导致MFC对话框程序无法执行的解决方法
  2. java如何构造ajax回调参数,jQuery实现ajax回调函数带入参数的方法示例
  3. java复合数据类型_复合数据类型
  4. 错误: 找不到符号 符号: 类 Fill 位置: 类 Zeros<T> 其中, T是类型变量: T扩展已在类 Zeros中声明的Object
  5. 大学计算机基础python第二次作业_python第二次作业-titanic数据集练习
  6. informatica mysql odbc_Informatica 配置mysql community odbc连接
  7. shrio 登陆后 还是失效_在 iPhone 上取消订阅后,应用或内容会立即失效吗?
  8. 微信小程序|area组件使用的地址数据文件plus
  9. 深入理解jsonp跨域请求原理
  10. 2016.09.03【初中部 NOIP提高组 】模拟赛A总结
  11. 2019牛客多校第二场E MAZE(线段树 + 矩阵)题解
  12. linux ubi代码分析,linux ubi文件系统
  13. 在同个工程中使用 Swift 和 Objective-C(Swift 2.0更新)-b
  14. SSH学习之四 OpenSSH安全
  15. python实验五答案_python程序设计 实验指导答案
  16. 天梯 L1 Practic1 题解合集
  17. Beautifulsoup提取特定丁香园帖子回复
  18. 企业办公3D指纹考勤系统解决方案
  19. maya批量文件修改插件 v1.0 下载及教程
  20. springboot~使用自定义的aspect

热门文章

  1. Centos7中Docker安装Redis
  2. R 运行中文文件使乱码的解决方案(案例示例)
  3. 高德尝试用“成本价”推动共享,但高精地图行业不只有价格
  4. 4、python开源——scrapy爬虫天气预报
  5. 小红书账号分析丨千瓜指数高的小红书账号是否真的优质?
  6. 百度地图查看导航记录,导航路线,记录驾驶路线
  7. 在线教育的鲶鱼“肥瘦不均”
  8. 同花顺level2股票接口是什么?
  9. NeuroImage:暴力的隐式创伤—异常运动振荡脑活动与创伤后应激症状有关
  10. 奇特的一生:柳比歇夫坚持56年的“时间统计法”