时下,AI领域最火的技术非AIGC莫属。去年三月,OpenAI发布了人工智能绘画产品DALL·E,后来升级到DALL·E 2。谷歌和Meta紧随其后,并且进一步发展出文字转视频功能。今年8月,Stable Diffusion正式开源。而在日前,英伟达也宣布加入AIGC的赛道,发布了Magic3D。

AIGC究竟如何从前些年的默默无闻,到这两年的火爆网络?是什么变量促成了这一技术的爆发,又是哪些潜在趋势在助推这股潮流?我们国内目前在这一技术领域的发展现状又如何?

AIGC火爆的背后:Diffusion Model的出现

AI生成其实一直都有,在2021年之前主要通过NLG生成文字,而要完成图片等视觉艺术品,则要基于生成对抗网络GAN,通过生成器和判别器不断对抗来训练模型。

通过GAN的算法训练,可以生成不错的图形,但也有很多问题难以解决,比如图形结果雷同,多样性缺乏;生成器有上升瓶颈,从而造成模式坍缩;以及训练难度高和成本大。

所以,尽管图形生已有不短的历史,包括像BigGAN,StyleGAN等的技术突破,但始终未能让产品真正商业化,只能停留在新奇好玩的阶段,直到Diffusion Model(扩散模型) 出现。

通过马尔科夫链,将文字描述文本经过处理后当做噪声不断添加到原图当中,从而让神经网络从无到有的生成了图片,这是扩散模型的作用原理。通过该模型,算法训练变得更加简洁,只需要添加大量图片,生成的结果相较GAN更具多样性。

但自2015年诞生的前五年,扩散模型并没有引起业界关注。直到2020年,一篇名为Denoising Diffusion Probabilistic Models 的论文终将这一模型用在了图像的生成上。

反应极快的OpenAI,在隔年1月即公布将出品Dall-E。并宣称Diffusion Model击败了GAN(论文:Diffusion Models Beat GANs on Image Synthesis),从而似乎为AI生成的工程落地指明了方向。

更多推动力:大模型、多模态、开源模式

同样是OpenAI,两年前推出1750亿参数的预训练语言大模型GPT-3,至此开始,千亿规模的大模型训练成为流行趋势。但在国内,一方面因为接口开放的限制,AI生成相关应用难以使用;另一方面,大模型训练成本高企,让不少企业望而却步。这些导致了AI生成在国内无论是应用,还是形成产业都未能起势。但在近来,还是有不少国内企业开始关注大模型训练,走在前面的公司已经展开训练。

同样非常火的多模态,对于发展AIGC来说,重要性体现在打破不同模态的数据,包括文本、图像、视频、音频等数据之间的分界线,从而在模型的构建上趋向统一。多模态已经通过 DALL-E、Stable Diffusion的应用日趋成熟。

而除了技术本身,开源模式也进一步推动了AIGC的发展,AIGC火爆也有像Stable Diffusion正式开源(模型权重和代码)的功劳,这意味着所有人都可以通过开源代码做出文本生成图像的产品,因而Stable Diffusion也在GitHub上长期霸榜。

彼岸到此岸:国内AIGC的产业先锋们

然而,对于中文世界的创作者来说,无论是在 DALL-E 2 还是在Stable Diffusion上操作,不仅需要对英文Prompts的准确表达极尽思考,在英文语境下想要生成真正地道中国风的画作也是难上加难。

实际上,国内已经有一些AIGC的行业先锋推出了中文版的AI生成产品。

紧随Stable Diffusion,心辰科技(盗梦师团队)在不到一个月时间,于今年8月底上线 AI 作画产品“盗梦师”。仅用1秒出图,日留存率接近50%,上线不到两个月生成的图像数量已经达到1千万张,且已经开启商业化。

盗梦师生成的画作

本月初,第一个中文版本的 Stable Diffusion 模型“太乙 Stable Diffusion”正式开源。2022 年 7 月,IDEA CCNL开源了第一个中文CLIP模型,目前已经有 4 个版本。太乙 Stable Diffusion上线二十天,下载量即超过10万,成为全球排名第三的Stable Diffusion模型。

太乙 Stable Diffusion生成的画作“飞流直下三千尺 ,唯美,插画”

本月中,智源研究院大模型研究团队开源最新双语AltDiffusion模型,并在近日升级至 AltDiffusion-m9版本,全面支持中、英、西、法、日、韩、阿、俄、意等九种不同语言的文图生成任务。该模型已跻身 GitHub Python 开源项目每日热榜,paperwithcode 网站热度前5。

AltDiffusion生成的画作

那么,这些惟妙惟肖的画作究竟是如何生成的?扩散模型能够为AI生成带来哪些变革?多模态、大模型又给AI生成带来哪些助推力?AIGC在国内发展现状如何?又该如何实现商业化?

今晚19:30,我们请到盗梦师、太乙 Stable Diffusion、AltDiffusion的创作者和资深技术专家,共同探讨、解密AIGC的背后有哪些玄机。

扫码,预约直播,等你来~

谷歌、Meta、英伟达……巨头扎堆的AIGC,国内发展如何了?相关推荐

  1. 外媒:高通、微软和谷歌担忧英伟达收购Arm将损害竞争

    2月14日消息,据国外媒体报道,去年9月13日,英伟达在官网上宣布,他们同软银集团达成了收购Arm的最终协议,交易规模高达400亿美元,收购将以现金加股票的方式进行,他们当时预计约在18个月内完成收购 ...

  2. 2020年AI怎么发展?听加州大学、谷歌、英伟达、IBM怎么说

    来源:机器之心 AI 领域最杰出的头脑如何总结 2019 年技术进展,又如何预测 2020 年发展趋势呢?本文介绍了 Soumith Chintala.Celeste Kidd.Jeff Dean 等 ...

  3. 华为计算机平台芯片,华为连发两款AI芯片,计算力远超谷歌及英伟达

    去年,华为就曾预告过将针对打造面向边缘和端的全栈全场景解决方案.上文提到的这两款AI芯片,其实是华为AI全栈全场景AI解决方案的一部分.onFednc 所谓全场景,即包括公有云.私有云.各种边缘计算. ...

  4. MLPerf最新AI芯片跑分:谷歌TPU和英伟达打破记录

    智东西7月11日消息,昨日,MLPerf基准联盟公布了最新一轮的基准测试数据,结果显示,英伟达和谷歌云刷新了人工智能训练时间的记录. MLPerf是一项用于测试ML(Machine Learning) ...

  5. AI芯片的未来之战:“霸主”英伟达真就无人能挡了吗?

    来源: AI前线 作者:NICOLE KOBIE 译者:王强 英伟达,AI 芯片市场的统治者 业内有一个传说,讲的是英伟达怎样从游戏和图形硬件转向了 AI 芯片市场的统治者 - 这个故事中有猫的身影. ...

  6. 英特尔AI芯片首次商用交货!推理性能3.7倍于英伟达T4,年贡献245亿涨250%

    李根 发自 旧金山  量子位 报道 | 公众号 QbitAI AI豪赌出业绩,产品启动商用--性能"吊打"友商. 今天(11月13日)在年度AI峰会上,老牌芯片霸主英特尔,交上最新 ...

  7. 英伟达Q3财报解读:营收连续四季度下滑 下一个增长拐点何时来?

    继英伟达.AMD.高通之后,又一芯片巨头发布了财报. 11月15日,英伟达公布了其2019年三季度的财报.财报显示,期内,营收30.14亿美元,相比去年同期下降5%,比上一季度的25.79亿美元环比增 ...

  8. 比A100性能高4.5倍!英伟达H100横扫AI推理基准测试

      视学算法报道   编辑:武穆 [导读]NVIDIA H100 Tensor Core GPU在MLPerf行业标准AI基准测试中首次亮相,创下了所有工作负载推理的世界纪录,提供的性能比上一代GPU ...

  9. 支柱业务游戏营收迎来复苏,英伟达顺利度过危险期?

    8月16日,芯片股巨头英伟达对外发布了新一季度的财报.根据财报来看,英伟达在营收.净利润上同比下跌17%和50%,但环比增长了16%及40%,因第二季度调整净利和营收均超出华尔街分析师预期.受财报发布 ...

最新文章

  1. 编写程序,统计一个长度为2的字符串在另一个字符串中出现的次数
  2. torch.tensordot()介绍
  3. 浅谈CMMI几个过程概念流程管理 (转)
  4. 社交产品后端架构设计--转载
  5. 矩阵乘法 算法训练 试题_蓝桥杯习题集_ 算法训练 矩阵乘法
  6. 分类变量如何设置变量值的显示顺序
  7. CentOS 7 : Docker私有仓库搭建和使用
  8. Tidal Finance在Uniswap开启流动性挖矿
  9. 用递归方法实现读取文件夹下所有文件信息
  10. hashmap hash冲突怎么解决_让我再撸一次HashMap
  11. 10分钟学会spring代理模式以及应用原理,个人专用,不适合借鉴,请关闭文章
  12. linux专业的打谱软件下载,MuseScore 3.1 发布,音乐制谱软件
  13. Ubuntu安装OpenCV
  14. 【摩尔吧今日推荐】我们一定要给自己提出这样的任务:第一,学习,第二是学习,第三还是学习。
  15. 解读《美国国家BIM标准》 – BIM能力成熟度模型 (七)
  16. 删掉启动分区进不了系统,复活办法(win10)
  17. 使用Scrapy爬取图书网站信息
  18. Python学习——三分钟分析目前最火的电视剧
  19. 来自学长的快乐AK题——Day8 荒地追猎
  20. B+树|MYSQL索引使用原则

热门文章

  1. 第三代搜索引擎和p2p【转】
  2. C++11特性(01)auto关键字
  3. 本次操作由于这台计算机限制而被取消
  4. 计算机被限制无法打开C盘,Win7设置C盘提示“本次操作由于这台计算机限制而被取消”怎么办...
  5. 高速光耦TLP109——匹配电阻选取
  6. 在美团呆了7年的测试老鸟,写给 3-5 年测试员的几点建议.....
  7. 谨以此片献给新中国60华诞
  8. bind9 常用配置-正反向解析
  9. Istio Sidecar启动顺序 - 导致的应用容器网络不通
  10. Identifying drug–target interactions based on graph convolutional network and deep neural network 论文