近日,中科院自动化所研发并开源了全球首个图文音(视觉-文本-语音)三模态预训练模,兼具跨模态理解和生成能力,具有了在无监督情况下多任务联合学习、并快速迁移到不同领域数据的强大能力。自动化所构建了具有业界领先性能的中文预训练模型、语音预训练模型、视觉预训练模型,并开拓性地通过跨模态语义关联实现了视觉-文本-语音三模态统一表示,构建了三模态预训练大模型。

中文预训练模型

模型介绍

文本预训练模型使用条件语言模型作为自监督目标进行训练,和GPT一样,模型根据上文来预测当前词汇。中文预训练语言模型(Chinese-GPT)由40层transformer组成,隐藏层维度为2560,包含32个注意力头,共32亿参数。模型结构如下所示:

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/text

应用示例

中文预训练模型基础上可以进行微调操作,充分利用少量有监督数据增强模型在下游任务上的表现,如文本分类,对话生成、古诗创作等。

1、文本续写

2、自动问答

视觉预训练模型

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/vision

目标检测结果展示

语义分割结果展示

轻量化图文预训练模型

模型介绍

现有的图文预训练模型主要针对英文文本描述进行图像生成,自动化所开源的图文预训练模型可以根据中文文本描述实现图像生成,采用千万级训练数据进行自监督训练,并通过知识蒸馏算法实现了模型的大幅度压缩,在尽可能保留模型性能的同时,实现了预训练模型的轻量化。

轻量化图文预训练模型由DALL-E和CLIP两个模型组成,DALL-E模型由8层Transformer组成,隐层维度为512,包含32个注意力头,约1亿参数;CLIP模型由6层Vision Transformer和3层Transformer组成,Vision Transformer的隐层维度为256,包含16个注意力头,Transformer的隐层维度为192,包含12个注意力头,约1700万参数。

模型下载与使用示例地址:https://gitee.com/zidongtaichu/multi-modal-models/tree/master/light_vision_text

图像检索

将三模态预训练大模型仓库克隆至本地:

git clone https://gitee.com/zidongtaichu/multi-modal-models.git
cd multi-modal-models

下载 Light_CLIP 模型文件 model.pt 至 light_vision_text/Light_CLIP 文件夹下:

该示例中,待检索图像库一共有两张图片,分别是 dog.jpg 和 cat.jpg:

test.py 实现基于文本的图像检索:

输入文本为:一只可爱的狗狗在草地上奔跑,运行 python test.py,模型输出图像库中各个图片的概率值:

输入文本为:一只猫咪躺在沙发上睡觉,运行 python test.py,模型输出图像库中各个图片的概率值:

图像生成

(a) 下载 Light_VQGan_Dalle 模型文件dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt 至 light_vision_text/Light_VQGan_Dalle 文件夹下;

(b) 下载 vqgan 模型文件 vqgan_model.ckpt 至 light_vision_text/Light_VQGan_Dalle/vqgan 文件夹下;

(c) 将 Light_CLIP 模型文件 model.pt 下载至 light_vision_text/Light_VQGan_Dalle/clip 文件夹下。

(d) 修改 light_vision_text/Light_VQGan_Dalle/clip 文件夹下的 rank_photo.py 文件,将41和42行修改为:

self.tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese')

(e) 修改 light_vision_text/Light_VQGan_Dalle 文件夹下的 generate.sh,将 --fp16 注释掉:

在 test_dalle.txt 中输入进行图像生成的中文文本内容:太阳落山了

运行:

# single-gpu testing
./generate.sh <Light_VQGan_Dalle_model_path> <output_image_folder> <img_number> <generate_batch_size> <text_file_path># for example
./generate.sh ./dalle_small_model_pre_0924_lr1e-4_new_epoch7_data_point5761440.pt ./output_images 128 12 ./test_dalle.txt

生成的图像存储在

light_vision_text/Light_VQGan_Dalle/output_images 文件夹下:

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载黄海广老师《机器学习课程》视频课黄海广老师《机器学习课程》711页完整版课件

本站qq群851320808,加入微信群请扫码:

紫东太初:自动化所开源图-文-音三模态的预训练大模型相关推荐

  1. 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  2. 王小川新公司开源 70 亿参数量的中英文预训练大模型,可商用;谷歌要求员工慎用 AI,即便是自己家的 Bard|极客头条...

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  3. 紫东.太初再进化,揭秘全模态大模型的想象力

    半个月前的一场内部分享中,奇绩创坛创始人陆奇直言:他已经跟不上大模型时代的"狂飙"速度了. 在ChatGPT引发的现象级讨论下,千亿级大模型的军备竞赛愈演愈烈,不少企业赶趟儿式的交 ...

  4. 智源研究院:开源开放让AI快速发展,要建设大模型时代的Linux | 中国AIGC产业峰会...

    萧箫 整理自 AIGC峰会 量子位 | 公众号 QbitAI ChatGPT引爆了大模型,也彻底将大模型相关的AI产业生态带到了新的阶段-- 大模型的"涌现能力",让AI真正展现出 ...

  5. 中科院自动化所:紫东.太初

    从16年的AlphaGo,到17年的AlphaZero,再到18年的AlphaFold,再到2020的GPT-3,人工智能演化发展的速度进一步加快.GP从11亿参数的GPT到150亿参数的GPT-2, ...

  6. 昇腾AI与“紫东.太初”赋能法律服务,多模态大模型迈向“多专多能”

    日前举办的华为全联接大会2022上,中国科学院自动化研究所所长徐波在演讲中提出了一个新观点:"多模态是人工智能迈向通用化的关键一步." 学术界并不缺少大模型的"摇旗者&q ...

  7. ModelArts部署紫东太初大模型推理服务经验分享

    零.项目背景 需要在ModelArts上部署微调后的下游任务推理服务. 主要踩坑点: 一.环境准备 MindSpore 1.6.1 Docker 20.10.17 紫东太初模型代码 omni-perc ...

  8. 《预训练周刊》第16期:中科院推出全球首个图文音三模态预训练模型、顶会论文探索100层序列推荐模型的加速训练...

    No.16 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 超大规模预训练模型是当前人工智能领域研究的热点,为了帮助研究与工程人员了解这一领域的进展和资讯,智源社区整理了第16期&l ...

  9. 百度工程师首次现场演示:“文心千帆”如何可视化微调大模型

    5月9日,百度智能云在北京举行文心大模型技术交流会,向在场的百家企业展示文心大模型在产品技术.场景研发.生态建设等领域的最新进展. 大模型引发的AI再造产业趋势已经势不可挡.但当下企业最大的难题是,如 ...

最新文章

  1. Alpha Go 之父恩师Tomaso Poggio:深度学习需要从炼金术走向化学
  2. 带无线驱动的linux版本,怎么在Linux里查询无线网卡的驱动程序版本
  3. 华硕的服务器怎么看型号,怎么识别华硕主板型号
  4. LeetCode-剑指 Offer 25. 合并两个排序的链表
  5. 【线性规划与网络流24题】孤岛营救问题 分层图
  6. 云原生消息、事件、流超融合平台——RocketMQ 5.0 初探
  7. Android Listview 点击item变黄色
  8. python做一个考试系统_1218Python基于Django在线考试系统设计
  9. 夫妻经典小笑话····
  10. 网页设计中 透明效果的使用技巧
  11. windows上git clone命令速度过慢问题的解决
  12. singft 函数 matlab,(新)信号与系统MATLAB实验全.doc
  13. android SQLite常用数据类型
  14. 韩语识别_韩语文字识别_韩语图片识别 - 云+社区 - 腾讯云
  15. 博文视点大咖直播伴你读No.4:用户增长、产品思维和产品的变化
  16. 【多元统计分析】05.多元统计的“三大分布”
  17. C Primer Plus 第四章 复习题编程练习 答案
  18. 进销存web源码 php,PHP网络版进销存源码WEB进销存源码
  19. linux操作系统结构体系,Linux操作系统结构分析 郭玉东.pdf
  20. 数据挖掘实例(航空公司客户价值分析)

热门文章

  1. 安卓学习-界面-布局-FrameLayout
  2. 很多优秀人感觉是:让他实际工作,他可能会考虑得很全面,而答题的时候,他就显得比较马虎,完成要求就算结束...
  3. 080929 气温骤降
  4. 洛谷 P3865 【模板】ST表
  5. Luogu P1108 低价购买 DP
  6. 043 hive数据同步到mysql
  7. error: ‘to_string’ is not a member of ‘std’———已解决
  8. 160329(二)、web.xml配置详解
  9. Oracle SQL语句执行过程
  10. pythonos模块介绍_Python os模块介绍