遥遥无期还是近在咫尺？长文展望「大模型」商业化前景

‍‍

‍‍【栏目：工程系统】从2018年谷歌提出BERT预训练语言模型至今，作为深度学习领域的集大成者，超大规模预训练模型（简称：“大模型”）仅仅走过了三年的发展历程。

大模型技术不仅是学术界重点投入的领域，产业领域也在期待其能够在各个场景加速落地。大模型不仅能够提升应用服务的智能水平，甚至还有望催生新的场景和产业模式。

本文主要分析目前大模型适合落地的场景和应用模式，并展望未来的产业发展态势，以期为读者带来一些思考。

撰文：戴一鸣

责编：贾伟

李静云、张大魁等亦对本文有贡献

大模型技术发展情况

超大规模预训练模型是采用超大参数规模（超过亿级别），依赖强大算力，在海量数据上进行预训练的AI模型。预训练后的大模型具有较为通用的能力，可以通过微调，甚至不微调，而在细分任务上超越以往单一领域专用AI模型性能。

目前，在这一领域已诞生大量的模型，主要集中在自然语言处理领域，其中有谷歌提出的BERT、T5等，FaceBook提出的RoBERTa等，OpenAI提出的GPT-3等，参数规模在数十亿到千亿不等。在多模态任务领域，近年来也诞生了一批值得关注的模型，如OpenAI在今年1月提出的DALL·E等。

我国在大模型领域也取得了许多成就，知名模型包括清华大学等提出的ERNIE、百度的ERNIE2.0、阿里提出的PLUG等、华为云等提出的盘古NLP，以及智源研究院研发的悟道1.0、悟道2.0模型。大模型技术目前呈现百花齐放、百家争鸣的发展格局。

研发更大、更通用的模型，对于科研机构和企业都是沉重的负担，例如GPT-3模型的训练成本就超过了1200万美元，OpenAI和微软更是斥巨资打造专用AI超算支撑研发工作。大模型“烧钱”是业界的普遍共识，这也驱动研发机构加快商业变现步伐。而下游场景的企业也急需要能够降低AI研发成本，进一步提升AI能力的强大技术。大模型不再是机构“秀肌肉”的玩具，而是真正成为智能应用和服务的基础技术，推动产业智能化发展。

产业落地情况

当前全球大模型商业落地仍处于早期探索阶段。

一方面，研发机构熟悉大模型基本技术，但缺乏有效落地场景，需要与下游场景企业合作建立大模型商业模式；

另一方面，绝大多数下游场景的企业没有足够的算力和开发资源定制/微调大模型。

这造成了一种基于API而非开源模型的产业格局：大模型是否开源本身并不关键，研发机构只需要开放满足应用需求的API，由企业提供反馈，将模型融入企业本身的业务环节中。

目前大模型领域商业落地较为成功的案例是GPT-3。在OpenAI在公开GPT-3论文后，也同时开放了模型的API申请通道，鼓励研究者、开发者、企业从业者研究“好玩”的GPT-3应用，以此促动大模型的产业场景发展。

在开源社区培养了一批GPT-3的开发和用户人群后，OpenAI对外开放API商业运营计划，让GPT-3成为营收来源，据OpenAI统计，截至今年3月，全球已有300多个APP使用了GPT-3的技术，全球开发者数量上万，模型每天生成45亿个词汇，而且数量还在不断增长。

仅开放商业API或许还不能满足OpenAI的盈利需求，面对微软10亿美元的投资，OpenAI也“投桃报李”，将GPT-3模型优先使用授权打包奉上，微软可以自由微调。

在数据分析领域，大模型能够根据数据科学家的需求自动生成分析检索代码，降低了数据分析的技术门槛，使企业业务人员直接进行大型分析和决策。如微软的Microsoft Power App数据分析平台中就集成了GPT-3模型。

图注：GPT-3能够在微软数据分析平台中根据自然语言指令生成对应的代码，加快数据检索效率

产业模式

目前主要有两种大模型产业落地模式，一是将大模型作为智能系统中的一个组成部分，二是直接基于大模型形成产业体系。

集成于已有智能系统中，实现降本增效

企业在获得大模型时，首先考虑的是将模型集成于已有的产品或服务中，通过提升某一个环节的智能能力，实现整体系统的效率提升，降低成本。例如，原本生产体系中需要人力投入的环节，可由大模型代替或辅助。

围绕大模型形成独立的产业体系

更重要的是，大模型也可脱离已有的智能产业独立发展。未来将可能围绕大模型建立独立的产业体系，形成智能能力（简称“智力”）的生产和消费模式。

正如智源研究院理事长张宏江所言：“如果将 AI 比作电力，那么大模型则相当于「发电机」，能将智能在更大的规模和范围普及。”

大模型的智能能力在未来将成为一种公共基础资源，像电力或自来水一样随取随用。

每个智能终端、每个APP，每个智能服务平台，都可以像接入电网一样，接入由IT基础设施组成的“智力”网络（俗称“智网”），让智能能力完成日常中方方面面的任务，帮助人类从枯燥重复的工作中解放出来，实现生产力的发展。

图注：电网和“智网”的类比

基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随取随用的资源，但目前仍然做不到像电力一样的方便取用。这是因为云计算本质上需要云和用户进行双向的资源交换，用户需要经过繁琐的数据准备、计算过程定义等过程，将数据和算法转移到云端，再由云端完成任务后传回本地。

而基于大模型的“智网”则不需要用户定义计算过程，只需要准备好数据，大模型强大的能力能够在少量微调（few-shot）甚至不微调（zero-shot）的情况下直接完成用户所需的工作，就像是家用电器只需要电力驱动电机，具体用途则由电器本身的属性定义，实现“动力”和“用途”的隔离。

这一智能能力生产和消费的网络，未来或将成为人类社会产业发展的主流模式。

常见落地领域

预训练语言模型

尽管GPT-3的案例说明，大模型的应用前景非常惊人，但是对于模型适合落地的应用场景和领域，目前产业界并没有定论。对于不同类型的大模型，其产业落地的进程有所区别。

对于BERT、GPT-3等预训练语言模型，其在对话、文本改写补全、风格变换、文本生成等任务上具有明显优势，因此适合许多文字相关的场景，如媒体、社交、营销、教育等领域。此外，大模型普遍采用Transformer技术架构，适合处理各类时序数据，因此也可以扩展到代码补全等场景。

据gpt3demo（一个收录GPT-3应用的网站）统计，目前GPT-3的衍生应用已有180多个，其中主要包括文本类应用，如办公、新闻、博客、电邮等场景的写作应用；代码开发辅助工具，如自动代码补全、低代码应用等；营销领域，如广告生成、客服机器人、推荐等；以及文娱等，如作曲、游戏应用等。

图注：gpt3demo网站收录的模型应用（部分）

多模态预训练模型

多模态模型由于学习了图-文等数据，因此相比语言模型在更复杂场景具有应用优势，特别是需要创意生成的领域，如艺术设计、广告等。例如，DALL·E模型能够根据文本指令，生成对应的图像，产生很多人类想不到的奇思妙想。

如果日后模型具有学习视频、音频等数据的能力，其在文化娱乐产业的应用水平将进一步提升。

图注：DALL·E生成的“牛油果形状的椅子”

多任务统一模型

面向未来产业界更为复杂的智能决策场景，基于多种网络数据预训练，具有决策能力的大模型可能是下一步发展的重点。例如，谷歌在今年的IO大会上公开了MUM（多任务统一模型：Mutitask Unified Model）的发展情况。

据谷歌透露，MUM模型能够理解75种语言，并预训练了大量的网页数据，擅长理解和解答复杂的决策问题，并能够从跨语言多模态网页数据中寻找信息。

谷歌展示了MUM模型通过用户英文提问搜索日文信息源，并提供旅行攻略的过程。说明当大模型学习更为丰富的模态数据后，其在处理复杂信息理解和生成任务时会有更强的表现。

图注：MUM模型展示根据用户提问搜索对应旅行攻略的过程

大模型能够落地应用的领域，本质上和其预训练的数据模态、数据类型密切相关。例如面向目前对视觉通用任务处理的需求，“视觉大模型”——即采用Transformer架构，但学习大量的图像和视频数据，让模型产生视觉通用能力的模型应运而生，这是已有的多模态模型还做不到的。

考虑到视觉任务在日常生活和产业发展中占据更大的比重，笔者认为，如果视觉大模型能够达到产业落地所需的精度，其落地场景和商业化进程或许会超过语言大模型。

困难与挑战

总体而言，大模型落地困难主要在于：

一是模型智能能力不足，不足以驱动下游应用服务（家用电器）运作；
二是产业模式发展不够成熟，模型和应用服务之间尚未建立成熟的互动机制，即使智能能力接入，下游应用无法将智能能力转换为实际的能力和服务。
此外，大模型加剧了伦理、数据隐私安全等方面的矛盾，但相应的监管机制尚不健全。

目前阻碍大模型广泛落地的主要原因包括三个方面因素。

技术方面，大模型存在性能、配套服务等方面的不足。大模型的推理性能达不到日常应用的水平，这主要是因为模型不具有常识，无法进行逻辑推理，因此会产生很多语法正确但没有任何意义的句子/图片。这需要模型进一步加强对常识的学习和理解能力，如引入知识图谱等，帮助模型真正“理解”所学所说的内容。

产业方面，目前围绕大模型的产业模式仍处于初步发展阶段。对于将大模型集成在已有的技术体系中，产业界目前没有明确的定论，采用API、本地部署微调模型、基于模型公开架构进行自研等模式均具有一定的优势，但投入也相应增加，企业尚且对大模型技术还不够了解，更不用说确定一种符合自身产业发展的模式。

此外，目前企业普遍缺乏领域定义明确，积累较好的数据集。许多场景或限定不够明确，或缺乏基础数据积累，连基础的AI应用都可能无法满足，更不用说落地大模型了。

产业领域的落地问题目前已有一些解决方案。例如，GPT-3公开API的时候，采用的是申请试用机制，允许部分开发者尝鲜。待模型能力和API开发逐步完善后，再将商业化的模型API公开。此外，OpenAI为GPT-3开发了一个API平台，让付费用户可以在平台上管理已获得的API和能力，为用户提供定制化、精细化的服务。

监管方面，关于大模型能否在一些场景进行落地，目前国内外都缺乏相应的政策、法规和应对机制，从规避风险的角度，许多企业不愿意贸然引入大模型技术。

一是在数据隐私方面，模型如果采用互联网公开数据训练，在特定领域的微调，是否对某些信息的版权造成侵害？
二是模型的推理结果不是完全确定的，在媒体、教育等领域，监管机构无法对其生成的结果进行提前审核，落地风险较大。
三是模型本身可能存在偏见等问题，在一些领域落地可能加剧歧视和社会不公。

在降低模型风险这一方面，目前最容易解决的方法都是技术手段。例如，研究者可以提出能够对模型内容进行审查、管理和矫正的数据集和预训练策略，降低产生不良信息。

从AI治理的角度出发，监管需要跑在产业落地之前。大模型在数据隐私方面的监管需要AI科研机构、企业和监管部门共同合作。仅仅由监管部门单独制定的监管政策，可能更多从降低风险的角度出发，在严格避免风险的同时，也可能会阻碍大模型商业落地的进程。

产业链展望

在不久的未来，大模型产业结构将进一步分化，形成“上游-中游-下游”三层的产业链格局。总体架构如下：

图注：大模型产业链

上游产业

上游产业包括支撑大模型研发、运行等的一系列产业的总称，总体上可分为硬件、软件两部分。其中，硬件上包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算环境、数据库组件、容器和虚拟化技术等。

中游产业

中游产业主要围绕大模型技术研发、管理和运维发展。技术研发方面，主要包括算法研发所需的编程环境（语言）、算法框架等工具，甚至可能出现专业的模型测评机构。同时，可能出现一批基于模型技术开发平台、服务和软件开发的企业。

下游产业

下游产业主要是大模型重点落地的场景，这些场景可以和教育、营销、社交、娱乐等产业结合，形成丰富的产业形态。根据目前大模型落地应用情况，未来主要发展的下游场景包括：

1. 内容生产：大模型将集成在文本、PPT、表格工具，具有更为智能的能力，能够在软件内进行转写、摘录、自动补全、拼写检查、自动配图、自动翻译等高级能力。此外，一些专业领域内的软件和服务将快速发展，如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等，形成自动化的内容生产体系。

2. 创意设计：大模型将具备更强的概念组合和创造能力，能够根据人类的提示自动产出概念设计等结果，其创新能力和效率或许将超过设计师水平。

3. 对话引擎：大模型将成为专业场景和日常场景对话机器人背后的底层技术，通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容，支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式，学习专业领域知识，在特定专业领域提供支持和服务，成为智能客服。

4. 智能检索：通过学习海量的互联网网页数据，结合大模型的生成能力，可为用户提供更为直观，便于理解的检索结果，满足数据挖掘分析、信息检索等需求。

5. 辅助开发：大模型不仅可以学习语言，对于代码等序列化数据也具有学习能力，其可以在代码检查、代码补全等方面发挥重要作用。

图注：“悟道”模型产业生态合作意向单位

结语

大模型技术的蓬勃发展，正在推动智能产业的快速发展。目前大模型产业落地仍处于较为初级的发展状态，主要存在的问题包括技术性能不足、产业模式不成熟、监管体系尚未建立等。

大模型产业落地需要时间和投入，随着未来产业发展模式的成熟，围绕上中下游将诞生丰富的大模型产业链，全社会都将从大模型这一智能社会的基础平台中受益。

关于智源源创计划

对于实验室出身的你，源创计划为你对接产业，提供真实需求场景，帮助你快速找到产品和市场的契合点。智源更理解技术精髓和应用场景的可能性。同时，源创计划会联合产业界为你提供一对一创业导师。

对于产业界出身的你，我们依托智源对AI技术最深刻的理解和AI技术最前沿的把握，与你一起为产业注入人工智能技术。源创计划将提供科学家网络，协助你做好技术选型和技术人才对接。

在底层资源方面，源创计划提供一系列智源创投基金支持，大规模预训练模型专业技术，以及开放数据集。

首批成员招募开启

欢迎加入预训练模型交流群！

‍

遥遥无期还是近在咫尺？长文展望「大模型」商业化前景相关推荐

「大模型」之所短，「知识图谱」之所长
近两年,人工智能领域的大模型可谓炙手可热.以自然语言处理领域为例,自BERT横空出世,在各种评测上分数一飞冲天,在斯坦福阅读理解评测集上超越人类水平之后,各种越来越大的自然语言处理模型不断涌现,并在各 ...
如果用「上瘾模型」打开「创造营2021」，会发现什么玄机？
随着「青春有你3」和「创造营4」的热播,两档偶像综艺的爆火让更多人看到了国内偶像市场的潜力,一时间掀起了选秀热潮,一瞬间仿佛大家都是秀粉. 国内偶像经济行业的春天已经到来,偶像是经纪公司精心包装过的商 ...
「とても」「あまり」「大変」的用法区别
这三个日语词汇都可以表示程度很甚的意思,有时三者可以互相替换使用,有时则不行.其具体的区别如下: とても一).用肯定句结句,表示程度很甚,与「大変」的意思相近,「大変」具有夸张性.惊奇.感叹等语气, ...
如何准备大厂技术面试？偷学「大师兄」秘籍！
春暖花开的时节,各大厂的春招面试正如火如荼地进行着.相信同学们也在面试这块做了许多准备,「小新」也不例外,扬言要进入某巴巴,从此走上人生巅峰,那么,参加大厂的面试需要注意些什么呢? 「小新」从来不打无 ...
python编写赛车_「世界模型」实现，一步步让机器掌握赛车和躲避火球的技能
前段时间,由谷歌大脑研究科学家 David Ha 与瑞士 AI 实验室 IDSIA 负责人 Jürgen Schmidhuber(他也是 LSTM 的提出者)共同提出的「世界模型」让人工智能在「梦境」 ...
Percy Liang、李飞飞等百余位学者联名发布：「基础模型」的机遇与挑战
撰文:赵言,秦红川,程晨校对:贾伟随着BERT.GPT-3.DALL-e等超大模型的兴起,自监督学习+预训练模型微调适配方案,逐渐成为主流.这种范式会先在超大规模海量数据上进行自监督的模型预训练, ...
AI版「盗梦空间」？谷歌大脑「世界模型」可实现在其梦境中对智能体进行训练
图源:pixabay 原文来源:arXiv 原文链接:https://arxiv.org/pdf/1803.10122.pdf 作者:David Ha.Jurgen Schmidhuber 「雷克世界 ...
谷歌Jeff Dean团队发文，探讨「学习模型」如何替代传统索引结构
原文来源:arxiv-vanity 作者:Tim Kraska.Alex Beutel.Ed H. Chi.Jeffrey Dean.Neoklis Polyzotis 「雷克世界」编译:嗯~阿童木呀 ...
DeepMind最新研究：如何将「大语言模型」训练到最优？
来源:AI科技评论作者:维克多 Transformer的提出距离我们已经有5年的时间,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况.如何训练出最优性能的大模型? 最近,DeepM ...

遥遥无期还是近在咫尺？长文展望「大模型」商业化前景

遥遥无期还是近在咫尺？长文展望「大模型」商业化前景相关推荐

最新文章

热门文章