来源:腾讯科技

摘要:当前,AIGC引发社会关注,尤其是大模型和开源模式的推动,让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围;另一方面AI与创新的界限进一步模糊,两者融合的趋势愈发明显。本文从AIGC潜在商业模式、知识产权保护、理性看待通用人工智能与技术泡沫、开展技术创新引发的内容安全合规等方面进行论述,并提供可行的意见建议。

关键词:AIGC; 大模型; 开源; 内容安全; 创新; 科技伦理

      0 引言

2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交A IGC(AI-Generated Content,以下简称“AIGC“)绘画作品《太空歌剧院》,参赛者没有绘画基础但是却获得了此次比赛“数字艺术/数字修饰照片”类别一等奖,引发多方争议。一方面,批判者认为AI在“学习”了大量前人的作品之后,其创作没有任何情绪和灵魂,难以和人类的艺术创作相提并论。另一方面,支持者认为创作者在一遍遍修改文本内容后,才让AI创作出满意的作画,而且作品有很强的观赏性,AI的创作有其独特价值。AIGC的快速迭代演变,让大模型应用落地有了新领域,也带来对版权和通用人工智能到来的争论,因此有必要从产业发展的角度分析AIGC可能的发展路径,探寻问题解决方案,助力AIGC健康有序发展。

     1 AIGC快速发展主要推动因素

AIGC是利用人工智能技术来生成内容。2021年之前,AIGC生成的内容主要以文字为主,而新一代模型可以处理的格式包括:文字、语音、代码、图 像、视频、机器人动作等。AIGC被认为是继专业生产内容(PGC,professional-generated content)、用户 生 产 内 容(UGC,User-generated  content)之后的新型内容创作方式,可以在创意、表现力、迭代、传播、个性化等方面,充分发挥技术优势。尤其是视觉信息,一直在网络中有较强的传播力且容易被大众感知,具有跨平台、跨领域、跨人群的优势,天然容易被人记忆和理解。同时视觉信息应用场景广泛,因此生成高质量的图像成为当前AI领域的一个现象级功能。

      1.1 深度学习模型不断迭代为AIGC发展奠定了基础能力

2021年,Open AI将跨模态深度学习模型CLIP(Contrastive Language-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP模型能够将文字和图像进行关联。例如,将文字“狗”和狗的图像进行关联,并且关联的特征较为丰富,从而推动CLIP模型成为AIGC的重要组成部分。目前,CLIP模型具备两个优势,一方面能够同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP模型广泛利用互联网上的图片,这些图片一般带有相关文本描述,成为CLIP天然的训练样本。据不完全统计,CLIP模型搜集网络上超过40亿个“文本-图像”训练数据,为后续AIGC尤其是输入文本生成图像/视频应用的落地奠定了基础。

在此之前 ,“ 对抗生成网络 ”GAN(Generative Adverserial Network, 以下简称“ GAN ”)虽然也是很多AIGC采用的主流框架之一,但GAN具有三个不足:一是对输出结果的控制力较弱,容易产生随机图像;二是生成的图像分别率较低;三是由于GAN需要用判别器来判断生产的图像是否与其他图像属于同一类别,导致生成的图像是对现有作品的模仿,创新性不足。因此依托GAN模型难以创作出新图像,也不能通过文字提示生成新图像。

AIGC相关深度学习模型汇总表

序号

深度学习模型

出现时间

特点

1

GAN(Generative Adversarial Network,)

2014年

1.生成器用来生成图片,判别器用来判断图片质量,两者互相平衡之后得到结果。

2.对输出结果的控制力较弱,容易产生随机图像、分辨率比较低。

2

CLIP(Contrastive Language-Image Pre-Training)

2021年

1.进行自然语言理解和计算机视觉分析。

2.使用已经标注好的"文字-图像"训练数据。一方面对文字进行模型训练。另一方面对图像进行另一个模型的训练,不断调整两个模型内部参数,使得模型分别输出的文字特征值和图像特征值并确认匹配。

3

Diffusion

2022年

1.通过增加噪声破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像。

2.经过训练,该模型可以应用这些去噪方法,从随机输入中合成新的“干净”数据。

Diffusion扩散化模型出现较晚,但真正实现让文本生成图像的AIGC应用为大众所熟知,也是2022年下半年Stable Diffusion应用的重要推手。Diffusion模型有两个特点,一方面,给图像增加高斯噪声,通过破坏训练数据来学习,然后找出如何逆转这种噪声过程以恢复原始图像,经过训练,该模型可以从随机输入中合成新的数据。另一方面,Stable Diffusion把模型的计算空间从像素空间经过数学变换,降维到可能性空间(Latent Space)的低维空间里,这一转化大幅降低了计算量和计算时间,使得模型训练效率快速提高。Diffusion算法模型的创新与应用推动了AIGC技术的突破性进展。

总的来看,AIGC在2022年实现快速迭代,主要是在深度学习模型方面有了长足进步。首先CLIP模型基于海量互联网图片进行训练,推动AI绘画模型进行组合创新。其次Diffusion扩散化模型实现算法创新。最后使用潜空间降维的方法来降低Diffusion模型在内存和时间消耗较大的问题。因此,AIGC绘画之所以能够帮助用户进行辅助创作,背后离不开大量深度学习模型的不断完善推动和基础作用。

      1.2 开源策略成为应用开发普及的“必选项”

在算法模型方面,AIGC的发展离不开开源模式的推动。以深度学习模型CLIP为例,开源模式加速CLIP模型的广泛应用,使之成为当前最为先进的图像分类人工智能,并让更多机器学习从业人员将CLIP模型嫁接到其他AI应用。同时,当前AIGC绘画最热门的应用Stable Diffusion已经正式开源(包括模型权重和代码),通过视觉、语言等多源知识指引扩散模型学习,强化扩散模型对于语义的精确理解,以提升生成图像的可控性和语义的一致性。Stable Diffusion的开源直接引发2022年下半年AIGC引发广泛关注,短短几个月时间内出现大量二次开发,从模型优化到应用拓展,大幅降低用户使用AIGC进行创作的门槛,提升创作效率,并长期位居GitHub热榜第一名。

AIGC绘画应用系统汇总表

序号

名称

创立时间

企业

特点

1

Disco Diffusion

2022年2月

谷歌

开源

2

DALL-E 2

2022年4月

Open AI

(微软投资)

注册制,用完系统赠送点数后需自行购买,生产绘画版权归

3

Make-A-Scene

2022年7月

Meta

不开源

4

Midjourney

2022年4月

Midjourney

社区模式,将应用加载到聊天服务器上

5

Stable Diffusion

2022年7月

Stability.AI

完全开源方式发展

在训练数据集方面,机器学习离不开大量数据学习。LAION作为全球非营利机器学习研究机构,在2022年3月开放了当前规模最大的开源跨模态数据库LAION-5B,使得近60亿个“文本-图像”可以用来训练,从而进一步加快AI图像生成模型的成熟,帮助研究人员加快推动从文字到图像的生成模型。基于CLIP和LAION的开源模式构建起当前AI图像生成应用的核心。未来,随着模型稳定,开源将成为AIGC成熟的催化剂,源模式有望让相关模型成为海量应用、网络和服务的基础,应用层面的创造力有望迎来拐点。

  2 AIGC为创作领域带来的效率与模式的创新

创造力曾被认为是少数幸运儿拥有的天赋,但随着深度学习的爆发,协助创作者提升创作效率成为可能。目前来看,AIGC在工业设计、动漫设计、摄影艺术、游戏制作等场景,能够激发设计者创作灵感,提升内容生产效率。

某AIGC绘图网站上输入Cyberpunk后,搜索到的AIGC生成绘画

      2.1 应用效率提升是当前AIGC落地关键

在捕捉灵感方面,AIGC协助有经验的创作者捕捉灵感,构建新的创新互动形式。例如在游戏行业,制作人灵感往往难以用文字准确表达,与美术工作人员经常由于沟通产生理解误差。通过AIGC系统可以在设计初期,生成大量草图,在此基础上制作人与美术人员可以更好地理解并确认彼此的需求。同时,创作灵感难以琢磨,可以提前通过AIGC来寻找“感觉”,进一步降低美术创作者大量前期工作和项目成本。例如,制作人可先构建完整的背景故事,之后由AIGC生成系列画作,再由专业的美术人员进行筛选、处理、整合,并将整个故事和画面进一步完善提升。

在提升效率方面,AIGC的出现将会让创作者拥有一个更加高效的智能创作工具,在内容创作环节进行优化,而非成为竞争对手。例如在极短的项目筹备时间内,AIGC可以大幅提升效率,验证了AI投入到工业化使用的可行性。尤其是对于艺术、影视、广告、游戏、编程等创意行业的从业者来说,可以辅助从业者进行日常工作,并有望创造出更多惊艳的作品。同时,还可以进一步降低成本和效率,为规模化生产构建市场增量。

      2.2 创意与实现步骤分解实现进一步细化分工

在创意构思阶段,AIGC构建了新的创意完善通路,传统的创作过程中消化、理解以及重复性工作将有望交由AIGC来完成,最终创意过程将变为“创意-AI-创意”的模式。

在创意实现阶段,创作者和AIGC的关系类似于摄影师和照相机。摄影师构建拍摄思路并进行规划,对相机进行参数配置,但不用了解相机的工作原理与机制,一键生成高质量的内容。同样,创作者构思并进行规划,对AI模型进行参数配置,不需要了解模型的原理,直接点击输出内容即可。创意和实现呈现出分离状态,实现过程变为一种可重复劳动,可以由AIGC来完成,并逐步将成本推向趋近于零。

      3 推动AIGC良性发展的意见和建议

Gartner预计,到2025年,生成式人工智能将占所有生成数据的10%。根据《Generative AI :A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。AIGC在引发全球关注的同时,知识产权、技术伦理将面临诸多挑战和风险,同时AIGC距离通用人工智能还有较大的差距。

      3.1 从“大模型”到“广应用”,探索可行商业模式

基于深度学习算法数据越多,模型鲁棒性越强的特点,当前的大模型规 模只增不减,比拼规模已经成为标配。例如,Open AI推出的GPT-3参数已经超过1750亿个。但“数据投喂”并非一种技术路径上的创新,更多的是在工程领域的微调。需要指出的是,模型规模越大,其实越难以在现实场景中落地部署。同时“海量数据”并不等同于“海量高质量数据”,有可能会导致反向效果产生。

AIGC的发展离不开预训练大模型的不断精进。大模型虽然在很多领域都表现出良好的使用效果,但是这些效果作为展示甚至噱头之后,很难形成良性的商业价值,与大模型的训练成本、基础设施投入更是相差甚远。如何推动“大模型”向“大应用”来转变,正在成为关键的考验。AIGC的破圈以及引发的关注,可以看到大模型商业化的潜力正在清晰化,一方面大模型企业可以根据C端用户实际“按需提供服务”和商业转化。另一方面带动对云计算、云存储的使用量上升。将AIGC从“尝鲜试试看”变成大众频繁使用的需求,再到与具体行业和领域深度结合,依托我国丰富的产业需求和应用场景,有望为大模型商业化和长期价值探索一条新路径。

      3.2 注重知识产权保护,尝试探索新价值创新

AIGC的飞速发展和商业化应用,对大量依靠版权为主要营收的企业带来冲击。具体来看:一方面,AIGC难以被称为“作者”。根据我国《著作权法》的 规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。另一方面,AIGC产生的“作品”尚存争议。根据我国《著作权法》和《著作权法实施条例》的规定,作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。

目前已经有业内人士尝试探索将创作者的“创意”进行量化,甚至定价,有助于打造AIGC的商业模式。这其中“注意力机制”将成为AIGC潜在的量化载体。例如国内有机构专家提出,可以通过计算输入文本中关键词影响的绘画面积和强度,我们就可以量化各个关键词的贡献度。之后根据一次生成费用与艺术家贡献比例,就可以得到创作者生成的价值。最后在与平台按比例分成,就是创作者理论上因贡献创意产生的收益。

例如某AIGC平台一周内生成数十万张作品,涉及这位创作者关键词的作品有30000张,平均每张贡献度为0.3,每张AIGC绘画成本为0.5元 ,平台分成30%,那么这位创作者本周在该平台的收益为:30000*0.3*0.5*(1-30%)=3150元的收益,未来参与建立AI数据集将有望成为艺术家的新增收益渠道。

      3.3 距离通用人工智能还有较大差距

当前热门的AIGC系统虽然能够快速生成图像,但是这些系统是否能够真正理解绘画的含义,从而能够根据这些含义进行推理并决策,仍是未知数。一方面,AIGC系统对输入的文本和产生的图像不能完全关联起来。例如,用户对AIGC系统进行测试,输入“骑着马的宇航员”和“骑着宇航员的马”内容时,相关AIGC系统难以准确生成对应的图像。因此,当前的AIGC系统还并没有深刻理解输入文本和输出图像之间的关系。另一方面,AIGC系统难以了解生成图像背后的世界。了解图像背后的世界,是判断AIGC是否具备通用人工智能的关键。目前来看,AIGC系统还难以达到相关的要求。比如,在Stable Diffusion 输入“画一个人,并把拿东西的部分变成紫色”,在接下来的九次测试过程中,只有一次成功完成,但准确性还不高。显然,Stable Diffusion并不理解人的双手是什么。

知名AI专家发出的调查也印证了同样的观点,有86.1%的人认为当前的AIGC系统对世界理解的并不多,持相同观点的人还包括Stable Diffusion的首席执行官。

    3.4 注重创作伦理引发安全风险

部分开源的AIGC项目,对生成的图像监管程度较低。一方面,部分数据集系统利用私人用户照片进行AI训练,侵权人像图片进行训练的现象屡禁不止,这些数据集正是AIGC等图片生成模型的训练集之一。例如,部分数据集在网络上抓取了大量病人就医照片进行训练,且没有做任何打码模糊处理,对用户隐私保护堪忧 。另一方面,一些用户利用AIGC生成虚假名人照片等违禁图片,甚至会制作出暴力和性有关的画作,LAION-5B数据库包含色情、种族、恶意等内容,目前海外已经出现基于Stable Diffusion模型的色情图片生成网站。

由于AI本身还不具备价值判断能力,为此一些平台已经开始进行伦理方面的限制和干预。例如DALL·E2已经开始加强干预,减少性别偏见的产生、防止训练模型生成逼真的个人面孔等,但相关法律法规的空白和AIGC应用研发者本身的不重视将引发对AI创作伦理的担忧。

      4 结束语

2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真。这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。新技术会淘汰适应性差的人,但是那些拥抱变革、适应力强的人,最终 往往能驾驭新技术、发现新机遇,从此获得新收益。新的生产方式会被替代,新的工作岗位、新产业甚至新的艺术表现形式,会从变革中诞生。

      参考文献:

[1] (英)内森·贝奈奇.2022年剑桥AI全景报告[Z],2022(10):4-6.

[2] 史海天.从第一性原理出发,分析AI会如何改变视觉内容制作和分发[J].36氪,2022(10)

[3] 量子位.AIGC/AI生成内容产业展望报告[Z],2022(10)

[4] 风辞远.AI大模型的白垩纪.脑极体[J],2022(10)

[5] Rokey.AI时代的巫师与诅咒[J].Rokey的Blog,2022(10)

    原文刊载于《互联网天地》2022年11期,作者单位:腾讯政策发展中心,中国信息通信研究院办公室

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

AIGC发展路径思考:大模型工具化普及迎来新机遇相关推荐

  1. B端产品经理的发展路径思考(间歇性更新完毕)

    (以下文中会用第一人称讲述故事,纯属捏造,如有雷同,圈子真小) 我每次工作压力大,就会提笔码几个文字,换点自信心.也是我"反思昨天的路,展望明天的路"的方式.估计哥们又开始调侃了, ...

  2. 安搭Share:主播探店为实体店发展迎来新机遇

    随着线上线下的消费模式的发展,线上消费的便利,实体店的沉寂,在这个大环境下,如何让实体店焕发新活力呢?或许直播带货.主播探店为实体店发展迎来新机遇. 实体店.卖场.景点等直播场景出现在镜头前,线下商家 ...

  3. ChatGPT泄露用户聊天记录标题;Adobe加入AIGC战局;阿里大模型前带头人杨红霞加盟字节跳动丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 诸葛智能推出"诸葛CDP 2.0"等三大产品升级 3月22日,容联云旗下场景化数据智能服务商"诸葛智 ...

  4. 《文心千帆大模型平台开放测试,为企业和个人提供全流程大模型工具链》

    文章目录 每日一句正能量 前言 文心千帆大模型平台的结构 文心千帆大模型平台的功能 文心千帆大模型平台体验 文档 IDC「AI大模型评估报告」,文心大模型全班第一 文心大模型3.5,功能全面升级 检索 ...

  5. 一周 AIGC 丨国内掀起大模型军备竞赛,第一季度推出超 150 个 AI 聊天机器人

    国内互联网圈好久没有这么热闹了,要感谢漂洋过海的 ChatGPT.它让互联网大厂意识到,除了和小区门口卖菜的大妈争夺流量,原来还有更有意义的事情可做,于是一股脑扎进来掀起大模型军备竞赛.它还让隐退的互 ...

  6. 大模型竞逐,再造AI新格局

    作者 | 辰纹 来源 | 洞见新研社 "面对AI时代,所有产品都值得用大模型重做一次." 这是阿里巴巴集团董事会主席兼CEO.阿里云智能集团CEO张勇在2023阿里云峰会上对AIG ...

  7. 视觉大模型DINOv2:自我监督学习的新领域

    如果你对自监督学习感兴趣,可能听说过Facebook人工智能的DINO(无标签知识蒸馏).我们在以前的文章中也介绍过它.DINOv2不仅是一个新版本而且带来了新的改进,并为判别性自监督学习设定了更高的 ...

  8. [文心大模型]还愁过年没有新头像吗?现在教你生成自己的专属兔年头像!

    ★★★ 本文源自AI Studio社区精品项目,[点击此处]查看更多精品内容 >>> 新年到,福气到,是时候给自己换一个福气满满兔兔头像啦! 兔年好运到,好事来得早!朋友微微笑,喜庆 ...

  9. 大数据浪潮下,「管理会计」迎来新机遇

    每一个企业级的人 都置顶了 中国软件网 中国软件网 为你带来最新鲜的行业干货 本文作者:刘学习 邮箱:lxx@soft6.com "管理会计在央企落地生根,开花结果,源于管理会计的价值创造. ...

最新文章

  1. 总点第一个视频产生选择偏差?Youtube用“浅塔”来纠正
  2. logback:用slf4j+logback实现多功能日志解决方案
  3. Laravel - Artisan 个人常用总结
  4. [转]阿拉伯数字转一二三和壹贰叁
  5. PHP自动加载类的实例
  6. Linux内核笔记--内存管理之用户态进程内存分配
  7. 怎样配oracle环境,oracle配置会话环境(set命令)
  8. 单链表(不带头结点)
  9. CString转化问题
  10. 在Xshell中直接上传或下载文件
  11. 跨编程语言平台的通信
  12. Win2008r2 由ESXi 转换到 HyperV的处理过程
  13. 栅栏密码--Python解密脚本
  14. 【每周论文阅读-第四周】proposal-level 特征聚合视频目标检测方法02
  15. Recovery启动流程(1)--- 应用层到开机进入recovery详解
  16. mysql获取当前日期的前一天_MySql取得日期(前一天、某一天)
  17. 手机页面点击电话进入拨号界面---a链接的tel属性
  18. SpringBoot 中dependencies飘红
  19. 计算机开机出现ROM,电脑无法开机并显示EXITING INTEL PXE ROM如何解决
  20. 浅入浅出Caffeine cache

热门文章

  1. MMKV的简单实用一
  2. 什么是 IT 运营管理 (ITOM)
  3. Mysql 民族数据库
  4. 单例模式之懒汉式单例模式
  5. Mysql tinyint(1)与tinyint(4)的区别
  6. 全球数字高程模型(数据)
  7. 如何区分单色LCD液晶屏的显示模式和玻璃型号
  8. 将String字符串转化为int
  9. php输入框里的提示文字,input标签输入框带提示文字方法
  10. VB.NET模拟LED数字钟