‍‍

‍‍【栏目:工程系统】从2018年谷歌提出BERT预训练语言模型至今,作为深度学习领域的集大成者,超大规模预训练模型(简称:“大模型”)仅仅走过了三年的发展历程。

大模型技术不仅是学术界重点投入的领域,产业领域也在期待其能够在各个场景加速落地。大模型不仅能够提升应用服务的智能水平,甚至还有望催生新的场景和产业模式。

本文主要分析目前大模型适合落地的场景和应用模式,并展望未来的产业发展态势,以期为读者带来一些思考。

撰文:戴一鸣

责编:贾   伟

李静云、张大魁等亦对本文有贡献

01

大模型技术发展情况

超大规模预训练模型是采用超大参数规模(超过亿级别),依赖强大算力,在海量数据上进行预训练的AI模型。预训练后的大模型具有较为通用的能力,可以通过微调,甚至不微调,而在细分任务上超越以往单一领域专用AI模型性能。

目前,在这一领域已诞生大量的模型,主要集中在自然语言处理领域,其中有谷歌提出的BERT、T5等,FaceBook提出的RoBERTa等,OpenAI提出的GPT-3等,参数规模在数十亿到千亿不等。在多模态任务领域,近年来也诞生了一批值得关注的模型,如OpenAI在今年1月提出的DALL·E等。

我国在大模型领域也取得了许多成就,知名模型包括清华大学等提出的ERNIE、百度的ERNIE2.0、阿里提出的PLUG等、华为云等提出的盘古NLP,以及智源研究院研发的悟道1.0、悟道2.0模型。大模型技术目前呈现百花齐放、百家争鸣的发展格局。

研发更大、更通用的模型,对于科研机构和企业都是沉重的负担,例如GPT-3模型的训练成本就超过了1200万美元,OpenAI和微软更是斥巨资打造专用AI超算支撑研发工作。大模型“烧钱”是业界的普遍共识,这也驱动研发机构加快商业变现步伐。而下游场景的企业也急需要能够降低AI研发成本,进一步提升AI能力的强大技术。大模型不再是机构“秀肌肉”的玩具,而是真正成为智能应用和服务的基础技术,推动产业智能化发展。

02

产业落地情况

当前全球大模型商业落地仍处于早期探索阶段。

一方面,研发机构熟悉大模型基本技术,但缺乏有效落地场景,需要与下游场景企业合作建立大模型商业模式;

另一方面,绝大多数下游场景的企业没有足够的算力和开发资源定制/微调大模型。

这造成了一种基于API而非开源模型的产业格局:大模型是否开源本身并不关键,研发机构只需要开放满足应用需求的API,由企业提供反馈,将模型融入企业本身的业务环节中。

目前大模型领域商业落地较为成功的案例是GPT-3。在OpenAI在公开GPT-3论文后,也同时开放了模型的API申请通道,鼓励研究者、开发者、企业从业者研究“好玩”的GPT-3应用,以此促动大模型的产业场景发展。

在开源社区培养了一批GPT-3的开发和用户人群后,OpenAI对外开放API商业运营计划,让GPT-3成为营收来源,据OpenAI统计,截至今年3月,全球已有300多个APP使用了GPT-3的技术,全球开发者数量上万,模型每天生成45亿个词汇,而且数量还在不断增长。

仅开放商业API或许还不能满足OpenAI的盈利需求,面对微软10亿美元的投资,OpenAI也“投桃报李”,将GPT-3模型优先使用授权打包奉上,微软可以自由微调。

在数据分析领域,大模型能够根据数据科学家的需求自动生成分析检索代码,降低了数据分析的技术门槛,使企业业务人员直接进行大型分析和决策。如微软的Microsoft Power App数据分析平台中就集成了GPT-3模型。

图注:GPT-3能够在微软数据分析平台中根据自然语言指令生成对应的代码,加快数据检索效率

03

产业模式

目前主要有两种大模型产业落地模式,一是将大模型作为智能系统中的一个组成部分,二是直接基于大模型形成产业体系。

集成于已有智能系统中,实现降本增效

企业在获得大模型时,首先考虑的是将模型集成于已有的产品或服务中,通过提升某一个环节的智能能力,实现整体系统的效率提升,降低成本。例如,原本生产体系中需要人力投入的环节,可由大模型代替或辅助。

围绕大模型形成独立的产业体系

更重要的是,大模型也可脱离已有的智能产业独立发展。未来将可能围绕大模型建立独立的产业体系,形成智能能力(简称“智力”)的生产和消费模式。

正如智源研究院理事长张宏江所言:“如果将 AI 比作电力,那么大模型则相当于「发电机」,能将智能在更大的规模和范围普及。”

大模型的智能能力在未来将成为一种公共基础资源,像电力或自来水一样随取随用。

每个智能终端、每个APP,每个智能服务平台,都可以像接入电网一样,接入由IT基础设施组成的“智力”网络(俗称“智网”),让智能能力完成日常中方方面面的任务,帮助人类从枯燥重复的工作中解放出来,实现生产力的发展。

图注:电网和“智网”的类比

基于大模型形成的大规模智能网络和云计算完全不同。云计算尽管也将算力比作随取随用的资源,但目前仍然做不到像电力一样的方便取用。这是因为云计算本质上需要云和用户进行双向的资源交换,用户需要经过繁琐的数据准备、计算过程定义等过程,将数据和算法转移到云端,再由云端完成任务后传回本地。

而基于大模型的“智网”则不需要用户定义计算过程,只需要准备好数据,大模型强大的能力能够在少量微调(few-shot)甚至不微调(zero-shot)的情况下直接完成用户所需的工作,就像是家用电器只需要电力驱动电机,具体用途则由电器本身的属性定义,实现“动力”和“用途”的隔离。

这一智能能力生产和消费的网络,未来或将成为人类社会产业发展的主流模式。

04

常见落地领域

预训练语言模型

尽管GPT-3的案例说明,大模型的应用前景非常惊人,但是对于模型适合落地的应用场景和领域,目前产业界并没有定论。对于不同类型的大模型,其产业落地的进程有所区别。

对于BERT、GPT-3等预训练语言模型,其在对话、文本改写补全、风格变换、文本生成等任务上具有明显优势,因此适合许多文字相关的场景,如媒体、社交、营销、教育等领域。此外,大模型普遍采用Transformer技术架构,适合处理各类时序数据,因此也可以扩展到代码补全等场景。

据gpt3demo(一个收录GPT-3应用的网站)统计,目前GPT-3的衍生应用已有180多个,其中主要包括文本类应用,如办公、新闻、博客、电邮等场景的写作应用;代码开发辅助工具,如自动代码补全、低代码应用等;营销领域,如广告生成、客服机器人、推荐等;以及文娱等,如作曲、游戏应用等。

图注:gpt3demo网站收录的模型应用(部分)

多模态预训练模型

多模态模型由于学习了图-文等数据,因此相比语言模型在更复杂场景具有应用优势,特别是需要创意生成的领域,如艺术设计、广告等。例如,DALL·E模型能够根据文本指令,生成对应的图像,产生很多人类想不到的奇思妙想。

如果日后模型具有学习视频、音频等数据的能力,其在文化娱乐产业的应用水平将进一步提升。

图注:DALL·E生成的“牛油果形状的椅子”

多任务统一模型

面向未来产业界更为复杂的智能决策场景,基于多种网络数据预训练,具有决策能力的大模型可能是下一步发展的重点。例如,谷歌在今年的IO大会上公开了MUM(多任务统一模型:Mutitask Unified Model)的发展情况。

据谷歌透露,MUM模型能够理解75种语言,并预训练了大量的网页数据,擅长理解和解答复杂的决策问题,并能够从跨语言多模态网页数据中寻找信息。

谷歌展示了MUM模型通过用户英文提问搜索日文信息源,并提供旅行攻略的过程。说明当大模型学习更为丰富的模态数据后,其在处理复杂信息理解和生成任务时会有更强的表现。

图注:MUM模型展示根据用户提问搜索对应旅行攻略的过程

大模型能够落地应用的领域,本质上和其预训练的数据模态、数据类型密切相关。例如面向目前对视觉通用任务处理的需求,“视觉大模型”——即采用Transformer架构,但学习大量的图像和视频数据,让模型产生视觉通用能力的模型应运而生,这是已有的多模态模型还做不到的。

考虑到视觉任务在日常生活和产业发展中占据更大的比重,笔者认为,如果视觉大模型能够达到产业落地所需的精度,其落地场景和商业化进程或许会超过语言大模型。

05

困难与挑战

总体而言,大模型落地困难主要在于:

  • 一是模型智能能力不足,不足以驱动下游应用服务(家用电器)运作;

  • 二是产业模式发展不够成熟,模型和应用服务之间尚未建立成熟的互动机制,即使智能能力接入,下游应用无法将智能能力转换为实际的能力和服务。

  • 此外,大模型加剧了伦理、数据隐私安全等方面的矛盾,但相应的监管机制尚不健全。

目前阻碍大模型广泛落地的主要原因包括三个方面因素。

技术方面,大模型存在性能、配套服务等方面的不足。大模型的推理性能达不到日常应用的水平,这主要是因为模型不具有常识,无法进行逻辑推理,因此会产生很多语法正确但没有任何意义的句子/图片。这需要模型进一步加强对常识的学习和理解能力,如引入知识图谱等,帮助模型真正“理解”所学所说的内容。

产业方面,目前围绕大模型的产业模式仍处于初步发展阶段。对于将大模型集成在已有的技术体系中,产业界目前没有明确的定论,采用API、本地部署微调模型、基于模型公开架构进行自研等模式均具有一定的优势,但投入也相应增加,企业尚且对大模型技术还不够了解,更不用说确定一种符合自身产业发展的模式。

此外,目前企业普遍缺乏领域定义明确,积累较好的数据集。许多场景或限定不够明确,或缺乏基础数据积累,连基础的AI应用都可能无法满足,更不用说落地大模型了。

产业领域的落地问题目前已有一些解决方案。例如,GPT-3公开API的时候,采用的是申请试用机制,允许部分开发者尝鲜。待模型能力和API开发逐步完善后,再将商业化的模型API公开。此外,OpenAI为GPT-3开发了一个API平台,让付费用户可以在平台上管理已获得的API和能力,为用户提供定制化、精细化的服务。

监管方面,关于大模型能否在一些场景进行落地,目前国内外都缺乏相应的政策、法规和应对机制,从规避风险的角度,许多企业不愿意贸然引入大模型技术。

  • 一是在数据隐私方面,模型如果采用互联网公开数据训练,在特定领域的微调,是否对某些信息的版权造成侵害?

  • 二是模型的推理结果不是完全确定的,在媒体、教育等领域,监管机构无法对其生成的结果进行提前审核,落地风险较大。

  • 三是模型本身可能存在偏见等问题,在一些领域落地可能加剧歧视和社会不公。

在降低模型风险这一方面,目前最容易解决的方法都是技术手段。例如,研究者可以提出能够对模型内容进行审查、管理和矫正的数据集和预训练策略,降低产生不良信息。

从AI治理的角度出发,监管需要跑在产业落地之前。大模型在数据隐私方面的监管需要AI科研机构、企业和监管部门共同合作。仅仅由监管部门单独制定的监管政策,可能更多从降低风险的角度出发,在严格避免风险的同时,也可能会阻碍大模型商业落地的进程。

06

产业链展望

在不久的未来,大模型产业结构将进一步分化,形成“上游-中游-下游”三层的产业链格局。总体架构如下:

图注:大模型产业链

上游产业

上游产业包括支撑大模型研发、运行等的一系列产业的总称,总体上可分为硬件、软件两部分。其中,硬件上包括通用计算芯片、AI计算加速芯片、计算服务器、存储服务器、高速互联网络等。软件包括云计算环境、数据库组件、容器和虚拟化技术等。

中游产业

中游产业主要围绕大模型技术研发、管理和运维发展。技术研发方面,主要包括算法研发所需的编程环境(语言)、算法框架等工具,甚至可能出现专业的模型测评机构。同时,可能出现一批基于模型技术开发平台、服务和软件开发的企业。

下游产业

下游产业主要是大模型重点落地的场景,这些场景可以和教育、营销、社交、娱乐等产业结合,形成丰富的产业形态。根据目前大模型落地应用情况,未来主要发展的下游场景包括:

1. 内容生产:大模型将集成在文本、PPT、表格工具,具有更为智能的能力,能够在软件内进行转写、摘录、自动补全、拼写检查、自动配图、自动翻译等高级能力。此外,一些专业领域内的软件和服务将快速发展,如博客文章撰写、新闻快讯撰写、百科撰写、小说补写、课程题目编写等,形成自动化的内容生产体系。

2. 创意设计:大模型将具备更强的概念组合和创造能力,能够根据人类的提示自动产出概念设计等结果,其创新能力和效率或许将超过设计师水平。

3. 对话引擎:大模型将成为专业场景和日常场景对话机器人背后的底层技术,通过预训练技术支持模型产生流畅、符合上下文语境、具有一定常识的聊天内容,支持娱乐形象或虚拟陪伴机器人。但同时模型也能够通过微调等方式,学习专业领域知识,在特定专业领域提供支持和服务,成为智能客服。

4. 智能检索:通过学习海量的互联网网页数据,结合大模型的生成能力,可为用户提供更为直观,便于理解的检索结果,满足数据挖掘分析、信息检索等需求。

5. 辅助开发:大模型不仅可以学习语言,对于代码等序列化数据也具有学习能力,其可以在代码检查、代码补全等方面发挥重要作用。

图注:“悟道”模型产业生态合作意向单位

07

结语

大模型技术的蓬勃发展,正在推动智能产业的快速发展。目前大模型产业落地仍处于较为初级的发展状态,主要存在的问题包括技术性能不足、产业模式不成熟、监管体系尚未建立等。

大模型产业落地需要时间和投入,随着未来产业发展模式的成熟,围绕上中下游将诞生丰富的大模型产业链,全社会都将从大模型这一智能社会的基础平台中受益。


关于智源源创计划

对于实验室出身的你,源创计划为你对接产业,提供真实需求场景,帮助你快速找到产品和市场的契合点。智源更理解技术精髓和应用场景的可能性。同时,源创计划会联合产业界为你提供一对一创业导师。

对于产业界出身的你,我们依托智源对AI技术最深刻的理解和AI技术最前沿的把握,与你一起为产业注入人工智能技术。源创计划将提供科学家网络,协助你做好技术选型和技术人才对接。

在底层资源方面,源创计划提供一系列智源创投基金支持,大规模预训练模型专业技术,以及开放数据集。

首批成员招募开启


欢迎加入预训练模型交流群!

遥遥无期还是近在咫尺?长文展望「大模型」商业化前景相关推荐

  1. 「大模型」之所短,「知识图谱」之所长

    近两年,人工智能领域的大模型可谓炙手可热.以自然语言处理领域为例,自BERT横空出世,在各种评测上分数一飞冲天,在斯坦福阅读理解评测集上超越人类水平之后,各种越来越大的自然语言处理模型不断涌现,并在各 ...

  2. 如果用「上瘾模型」打开「创造营2021」,会发现什么玄机?

    随着「青春有你3」和「创造营4」的热播,两档偶像综艺的爆火让更多人看到了国内偶像市场的潜力,一时间掀起了选秀热潮,一瞬间仿佛大家都是秀粉. 国内偶像经济行业的春天已经到来,偶像是经纪公司精心包装过的商 ...

  3. 「とても」「あまり」「大変」的用法区别

    这三个日语词汇都可以表示程度很甚的意思,有时三者可以互相替换使用,有时则不行.其具体的区别如下: とても 一).用肯定句结句,表示程度很甚,与「大変」的意思相近,「大変」具有夸张性.惊奇.感叹等语气, ...

  4. 如何准备大厂技术面试?偷学「大师兄」秘籍!

    春暖花开的时节,各大厂的春招面试正如火如荼地进行着.相信同学们也在面试这块做了许多准备,「小新」也不例外,扬言要进入某巴巴,从此走上人生巅峰,那么,参加大厂的面试需要注意些什么呢? 「小新」从来不打无 ...

  5. python编写赛车_「世界模型」实现,一步步让机器掌握赛车和躲避火球的技能

    前段时间,由谷歌大脑研究科学家 David Ha 与瑞士 AI 实验室 IDSIA 负责人 Jürgen Schmidhuber(他也是 LSTM 的提出者)共同提出的「世界模型」让人工智能在「梦境」 ...

  6. Percy Liang、李飞飞等百余位学者联名发布:「基础模型」的机遇与挑战

    撰文:赵言,秦红川,程晨 校对:贾伟 随着BERT.GPT-3.DALL-e等超大模型的兴起,自监督学习+预训练模型微调适配方案,逐渐成为主流.这种范式会先在超大规模海量数据上进行自监督的模型预训练, ...

  7. AI版「盗梦空间」?谷歌大脑「世界模型」可实现在其梦境中对智能体进行训练

    图源:pixabay 原文来源:arXiv 原文链接:https://arxiv.org/pdf/1803.10122.pdf 作者:David Ha.Jurgen Schmidhuber 「雷克世界 ...

  8. 谷歌Jeff Dean团队发文,探讨「学习模型」如何替代传统索引结构

    原文来源:arxiv-vanity 作者:Tim Kraska.Alex Beutel.Ed H. Chi.Jeffrey Dean.Neoklis Polyzotis 「雷克世界」编译:嗯~阿童木呀 ...

  9. DeepMind最新研究:如何将「大语言模型」 训练到最优?

    来源:AI科技评论   作者:维克多 Transformer的提出距离我们已经有5年的时间,随着模型规模的不断增长,性能提升也逐渐出现边际效益递减的情况.如何训练出最优性能的大模型? 最近,DeepM ...

最新文章

  1. 分类问题-样本权重(sample_weight)和类别权重(class_weight)
  2. Jupyter Notebook各种使用方法
  3. Balsamiq Mockups --- 产品设计的利器
  4. 六十.完全分布式 、 节点管理 、 NFS网关
  5. python 安装serial模块
  6. 【PHP】curl_init() 如何排错????
  7. 关于mysql数据库的外键插入报错:Cannot add or update a child row: a foreign key constraint fails,完整性问题
  8. 阿里巴巴分布式事务利器Seata环境准备
  9. hive插件 ranger_Apache Ranger及Hive权限控制
  10. 华为手机充满有提醒吗_2020手机充电速度排名:最快21分钟充满,华为第15名
  11. 初识大数据(四. 大数据与人工智能的关系)
  12. 【图像增强】基于matlab暗通道图像去雾【含Matlab源码 1226期】
  13. ios设置中性黑体_iOS 自定义-苹方字体的使用
  14. (客户端)发送请求====>(到服务器端) 过程分析
  15. java字符串下标替换_java字符串下标替换
  16. 你还在为找素材发愁吗?自媒体高手都知道的免费自媒体素材网
  17. gyp ERR! stack Error: Can't find Python executable python, you can set the PYT HON env variable.
  18. google工具栏新览
  19. 手机android怎么开机画面,Android使用BroadcastReceiver实现手机开机之后显示画面的功能...
  20. matlab 坐标不用科学计数法,matlab不用科学计数法

热门文章

  1. video 微信 标签层级过高_基于大数据的用户标签体系建设思路和应用
  2. c语言判断2 1000素数,2是不是素数(C语言判断一个数为素数)
  3. vue插槽面试题_Vue 的slot插槽 及一个奇怪的面试题
  4. linux下载python的es库,Elasticsearch py客户端库安装及使用方法解析
  5. an初始java运行环境错误_【环境问题】STS(eclipse)启动出现错误提示:an error hava occured,see the log......
  6. Linux宏定义屏蔽打印信息,宏定义实现调试信息的打印
  7. 下列关于python字典变量的定义中错误的是_python练习题-day14
  8. 浮点类型和布尔类型(Java)
  9. 【c语言】测量字符串长度
  10. linux查看vsftpd目录,vsFTPd常用功能之设置虚拟路径和查看日志信息