PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者:汪诚愚、段忠杰、朱祥茹、黄俊导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提升,AI生成内容(AI Generated Content,AIGC)的应用呈现出爆发性增长趋势。其中,文图…https://zhuanlan.zhihu.com/p/590020134EasyNLP中文文图生成模型带你秒变艺术家 - 知乎作者:汪诚愚、刘婷婷导读宣物莫大于言,存形莫善于画。 --【晋】陆机 多模态数据(文本、图像、声音)是人类认识、理解和表达世间万物的重要载体。近年来,多模态数据的爆炸性增长促进了内容互联网的繁荣,也带来…https://zhuanlan.zhihu.com/p/547063102ModelScope 魔搭社区https://modelscope.cn/studios/damo/ai_artist/summaryModelScope 魔搭社区https://modelscope.cn/models/damo/cv_diffusion_text-to-image-synthesis/summaryPAI Diffusion (Food) - a Hugging Face Space by alibaba-paiDiscover amazing ML apps made by the communityhttps://huggingface.co/spaces/alibaba-pai/pai-diffusion-artist-xlarge-zh当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界 - 知乎作者:朱祥茹、段忠杰、汪诚愚、黄俊导读用户生成内容(User Generated Content,UGC)是互联网上多模态内容的重要组成部分,UGC数据级的不断增长促进了各大多模态内容平台的繁荣。在海量多模态数据和深度学习大模…https://zhuanlan.zhihu.com/p/581870071对比较英文文生图,对于我们而言,其实要更关注中文文生图,目前已知的太乙,altdiffusion这两个效果很差,非开源版本,百度的文心一格,阿里系的通义,通义后续应该会开源的,其次阿里系内部还有PAI平台也在做文生图,基于easynlp,基本都是开源的。

1.PAI-Diffusion

Text encoder:使用easynlp中文clip,clilp这块阿里系内部还有通义的chineseclip,效果也很好,这里用的是easynlp自己训得跨模态对齐模型的text transformer作为text encoder.

Latent Difuusion:同sd

Auto Endoer:同sd

SR:ESRGAN

使用Wukong数据集中的2千万中文图文数据对对latent diffusion mode部分进行了20天的预训练,并在多个下游任务上微调,参数量在1B左右。

2.vqvae

2.ARTIST

ARTIST模型的构建基于Transformer模型 ,将文图生成任务分为两个阶段进行,第一阶段是通过VQGAN模型对图像进行矢量量化,即对于输入的图像,通过编码器将图像编码为定长的离散序列,解码阶段是以离散序列作为输入,输出重构图。第二阶段是将文本序列和编码后的图像序列作为输入,利用GPT模型学习以文本序列为条件的图像序列生成。为了增强模型先验,我们设计了一个Word Lattice Fusion Layer,将知识图谱中的的实体知识引入模型,辅助图像中对应实体的生成,从而使得生成的图像的实体信息更加精准。

3.通义

整体参数50B

4.评测

阿里系文生图(PAI+通义)相关推荐

  1. 【文生图系列】文生图大模型合集与效果对比

    文章目录 DELL · E DELL · E 1 DELL · E 2 ERNIE-ViLG ERNIE-ViLG 1 ERNIE-ViLG 2 Paddlehub Imagen Midjourney ...

  2. AI 绘画Stable Diffusion 研究(五)sd文生图功能详解(下)

    大家好,我是风雨无阻. 上一篇文章详细介绍了sd文生图的功能及使用注意事项,感兴趣的朋友可以前往查看:AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上) . 那今天这篇文章 ...

  3. 百度网盘回应在 APP Store 下架;阿里云发布 AI 助手「通义听悟」;SQL:2023 正式发布|极客头条

    「极客头条」-- 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧. 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews ...

  4. 百度回应文心一言文生图功能争议

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 文心一言文生图功能是"中翻英"?对此质疑,百度刚刚作出回应. 回应说明如下: 1.文心一言完全是百度自研的大语言模型,文生图能 ...

  5. 腾讯太极文生图大模型,带你一起感受祖国大好河山

    ​一.背景 随着大规模预训练模型的蓬勃发展和算力的大规模提升,业界和学界在图片生成这个领域也取得了非常大的进展.在AIGC(AI Generated Content)这个领域,随着英文Stable D ...

  6. AI绘画最强工具:集成所有国内外主流大模型AI绘画能力文生图、图生图、图修复和超分辨率能力。

    AIGC(Artificial Intelligence Generated Content)登上舞台,以高效.精准.定制化等能力特征,重新定义了内容生产方式. 只需通过4行代码就能实现强大的文图生成 ...

  7. AIGC周报|30秒定制一个文生图模型;60美元让AI玩转《我的世界》;手机版“文生图”模型:2秒不到出一张图

    AIGC(AI Generated Content)即人工智能生成内容.近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2.Stable Diffusion 等文生图模型,都属于 A ...

  8. 超强AI绘图-文生图

    一.前言  前面汇总了四种AI绘图的方法,详情可以点击下图跳转到文章<AI绘画合集(11月汇总)>.主要内容是:具象意象派AI作图.AI绘制专属动漫头像.基于ViLG模型AI 作画.点击下 ...

  9. Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    Diffusion扩散模型学习2--Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一.什么是Stable Diffusion ...

最新文章

  1. 老大难的 Java ClassLoader,到了该彻底理解它的时候了
  2. 超强整理!PCB设计之电流与线宽的关系
  3. 移动端https抓包那些事--进阶篇
  4. HDU - 2973威尔逊定理
  5. WordPress WP Photo Album Plus插件‘wppa-tag’跨站脚本漏洞
  6. 工作总结11:vue获取数据接口
  7. 如何合并多个(.txt或其他)文件到一个文件
  8. Apollo使用指南(二)公共组件接入指南
  9. 《南溪的目标检测学习笔记》——backbone的学习笔记
  10. 15 年老程序员自述:8 个影响我职业生涯的重要技能
  11. kubeadm部署k8s1.9高可用集群--1集群概述
  12. matplotlib条形图
  13. java后台开发工作职责_JAVA后台开发岗位职责
  14. 分布式存储 HDFS原理
  15. 用Python自动清理系统垃圾,再也不用360安全卫士了
  16. 案例分析:如何从0到1对一款产品游戏化
  17. FLASH大厅安装错误3070修复解决方案
  18. python提取每个单词首字母_如何将字符串中每个单词的首字母大写(Python)?
  19. YCbCr(YUV)与RGB转换公式以及常用颜色的yuv值
  20. Win 10 系统下搭建 Python 编程环境,有手就行

热门文章

  1. gpu运算测试软件,GPU性能计算工具-GPUDIP预览版
  2. deepstream meta应用
  3. 基于TCP的socket编程网络掉线重连
  4. Tomcat之startup.bat启动闪退解决
  5. 生信学习笔记:测序数据质控
  6. 信息系统项目管理师-人力资源管理考点笔记
  7. 家教APP开发都有哪些功能特点?
  8. 活动宣传片制作的注意事项
  9. c语言两数相除等于小数多少,c语言程序两数相除精确到小数点后k位
  10. Mesos集群:2个Linux agent和1个Windows agent