国际最顶尖的AI技术发展,愈像一场比拼资金与人才的竞赛
从2020年开始,国际最顶尖的AI技术发展,愈来愈像一场比拼资金与人才的军备竞赛。
2020年,OpenAI发布NLP预训练模型GPT-3,光论文就有72页,作者多达31人,该模型参数1750亿,耗资1200万美元;
2021年1月,谷歌发布首个万亿级模型Switch Transformer,宣布突破了GPT-3参数记录;
4月,华为盘古大模型参数规模达到千亿级别,定位于中文语言预训练模型;
11月,微软和英伟达在烧坏了4480块CPU后,完成了5300亿参数的自然语言生成模型(MT-NLG),一举拿下单体Transformer语言模型界“最大”和“最强”两个称号;
今年1月,Meta宣布要与英伟达打造AI超级计算机RSC,RSC每秒运算可达50亿次,算力可以排到全球前四的水平。
除此之外,阿里、浪潮、北京智源研究院等,均发布了最新产品,平均参数过百亿。
看起来,这些预训练模型的参数规模没有最大,只有更大,且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现,一次次刷新人们的认知。
本文,我们试图回答三个问题:
1. AI大模型,越大越好吗?
2. 大模型的技术瓶颈在哪里?
3. 它是实现强人工智能的希望吗?
一、大力出奇迹
人工智能的上一个里程碑出现在2020年。
这一年,由OpenAI公司开发的GPT-3横空出世,获得了“互联网原子弹”,“人工智能界的卡丽熙”,“算力吞噬者”,“下岗工人制造机”,“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于:
有开发者给GPT-3 做了图灵测试,发现GPT-3对答如流,正常得不像个机器。“如果在十年前用同样的问题做测试,我会认为答题者一定是人。现在,我们不能再以为AI回答不了常识性的问题了。”
艺术家和程序员 Mario Klingemann,想让 GPT-3写一篇论述“上Twitter重要性”的短文。他的输入条件是 1)题目:“上 Twitter 的重要性”;2)作者姓名:“Jerome K. Jerome”;3)文章开头的第一个字 "It"。
GPT-3不仅行文流畅,更是在字里行间暗讽,Twitter是一种所有人都在使用的、充斥着人身攻击的社交软件。
更高级的玩法是,开发者在GPT-3上快速开发出了许多应用,例如设计软件、会计软件、翻译软件等。
从诗词剧本,到说明书、新闻稿,再到开发应用程序,GPT-3似乎都能胜任。
为什么相较于以往的AI模型,GPT-3表现得如此脱俗?答案无他,“大力出奇迹”。
1750亿参数、训练成本超过1200万美元、论文长达 72 页,作者多达 31 人,就连使用的计算也是算力排名全球前五的“超级计算机”,拥有超过 285000个CPU,10000个GPU和每秒400G网络。
“壕无人性”的结果,创造出两个里程碑意义:
首先,它本身的存在,验证了参数增长、训练数据量增大,对AI模型的重要意义,“炼大模型”,的确能让AI取得突破性效果;
其次,它使用了小样本学习(Few-shot Learning)方法,令预训练模型在不必使用大量标记的训练数据,并持续微调的情况下,仅仅只要给出任务描述,并给出几个从输入到输出示例,便能自动执行人物。这意味着,它将突破AI碎片化难题,让后续开发者得以在巨人肩膀上发展,而不用针对一个个场景“平地起高楼”。
GPT-3之后,AI大模型军备赛才真正加速打响。一年之内,有头有脸的巨头争相拿出了成绩,秀组足肌肉。国外有谷歌、微软、Meta等巨头,国内如华为、阿里、浪潮等企业均下场参战,模型平均参数上百亿。
从规模上看,巨头的模型一个比一个厉害,突破竞速赛好不热闹。不过“内里”有差别,不同模型参数无法简单对比。
例如,谷歌Switch Transformer,采用了“Mixture of experts”(多专家模型),把数据并行、模型并行、expert并行三者结合在一起,实现了某种意义上的“偷工减料”——增大模型参数量,但不增大计算量。不过,降低计算量后的效果有无损失,谷歌论文中没有过多正面提及。
再例如,浪潮发布的“源1.0”,参数规模2457亿,采用了5000GB中文数据集,是一个创作能力、学习能力兼优的中文AI大模型。据开发者介绍,由于中文特殊的语言特点,会为开发者带来英文训练中不会遇到的困难。这意味着,想要做出和GPT-3同样效果的中文语言模型,无论是大模型本身,还是开发者,都需要付出更大的力气。
不同模型各有侧重点,但秀肌肉的意图是通用的——做大模型,大力出奇迹。
国际最顶尖的AI技术发展,愈像一场比拼资金与人才的竞赛相关推荐
- AI 技术发展飞快,高校 AI 教师的知识储备能满足学生旺盛的求知欲吗?
2019 年,AI 技术以惊人的速度发展:2020 年,AI 技术成熟的时机已经到来,随之而来的,是越来越旺盛的 AI 人才需求. 近日,国家正式发布了一份<2020 年人工智能产业人才发展报告 ...
- 驾乘 AI 技术发展浪潮,全球最大中文 IT 社区 CSDN 宣布战略升级为 AI 社区
[北京·2018年1月16日]全球最大的中文 IT 技术社区 CSDN 在蔓兰酒店举办" AI 生态赋能 2018 论坛暨 CSDN AI 新战略发布会",与数百位来自人工智能产业 ...
- (原创)我对未来的人类的发展,以及AI技术发展的一些思考。
最近AI非常的火,不仅仅是阿尔法狗的成功,因为它击败了人类最强的大脑,颠覆了人类几千年来的对传统的认识,也让人类意识 到了一个问题:天外有天,人外有AI. 那么AI究竟会对人类的未来造成什么深远的影响 ...
- 李航:未来若干年,AI 技术发展可能会进入平缓期
一阵凉风吹过人工智能,让这个曾是燥热的领域逐渐冷却下来,留下的是扎实地在做研究的人.机构.企业.先后在 NEC 公司中央研究所.微软亚洲研究院.华为诺亚方舟实验室从事和领导 AI 技术研发,现任字节跳 ...
- 新冠疫情对AI技术发展的影响
1.疫情的现况 随着新冠病毒在2020年初被发现,迄今为止,新冠病毒遍布全球,国内已经基本控制,但是国外的形势依旧很严峻,特别是欧美地区.如今,新冠病毒产生了变异,形势变得愈发紧张,又让人们产生了未有 ...
- 漆远:小数据学习和模型压缩存挑战,场景成为 AI 技术发展关键
"蚂蚁金服是一家技术驱动的公司,我们做的事情,是使 AI 技术成为普惠金融的支点."蚂蚁金服副总裁.首席科学家漆远博士,在有中国" AI 春节"之称的新智元20 ...
- Jeff Dean万字长文:2020谷歌10大领域AI技术发展
点击上方,选择星标或置顶,每天给你送干货! 新智元报道 来源:GoogleAI Blog 编辑:QJP.小匀 Jeff Dean发了一篇几万字长文,回顾了这一年来谷歌在各个领域的成就与突破,并 ...
- 选型宝访谈:微软CRM X 全球顶尖AI技术=?
写在前面 在人工智能时代,微软凭借深厚的底蕴和顶尖的AI技术,不断赋予CRM和ERP新的含义,不论是在功能模块.行业应用上,还是在云端人工智能应用方面. 何倩怡(Cathy He) 微软(中国)商用解 ...
- 【计算机导论调研报告】AI技术的发展
[计算机导论调研报告]AI技术的发展 1.前言 2.调研目标 3.调研主要内容 3.1.人工智能背景及行业发展现状 3.2.调研事件中涉及到的相关技术 3.3.调研事件中争议的焦点 4.调研结论与建议 ...
最新文章
- 鸟哥的Linux私房菜(基础篇)- 第十九章、认识与分析登录文件
- 22款终端生产力工具,效率飞起!
- 【PP操作手册】创建和下达返修生产订单
- [2]-使用busybox-1.17.2制作文件系统
- [dts]Device Tree机制【转】
- .Net Core2.0下使用Dapper遇到的问题
- java txt 按行读取_java读取按行txt文件
- paip.python错误解决16
- 清理localstorage_清除浏览器localstorage的数据
- 2022年R2移动式压力容器充装上岗证题库及在线模拟考试
- ICO图标在线生成,php生成ICO图标在线制作源码
- python 古典密码第一弹(凯撒密码,Playfair密码,维吉尼亚密码)
- 量化交易 米筐 因子的打分对比(因子的对比与挑选)
- halcon学习拓展系列—《halcon精髓之坐标系仿射篇》
- 爬虫实战|从笔趣阁爬取书籍并简单保存
- MP1584EN降压型转换器学习
- 水浒二十八回--施恩重霸孟州道 武松醉打蒋门神
- c语言imagesize怎么用里面的参数如何填写,【学习笔记】【C语言】sizeof
- 若依进销存系统---采购入库单
- 电脑很流畅,但是一登qq就特别卡