【CSDN 编者按】提及 AI,脑海里似乎总是正面的印象,各种技术的发展也越来越离不开 AI。但你是否知道, 训练 一个 AI 模型需要经历什么,它的能量消耗又有多少?

整理 | 弯月  责编 | 郑丽媛

头图 | CSDN 下载自东方 IC

出品 | CSDN(ID:CSDNnews)

根据最新的研究结果,训练一个普通的 AI 模型消耗的能源相当于五辆汽车一生排放的碳总量,而 BERT 模型的碳排放量约为 1400 磅二氧化碳,这相当于一个人来回坐飞机横穿美国。为何 AI 模型会如此费电,它们与传统的数据中心计算有何不同?

训练效率低下

传统数据中心负责处理的工作包括视频流,电子邮件和社交媒体。AI 所需的计算量则更多,因为它需要读取大量的数据、持续学习,直到完成训练。

与人类的学习方式相比,AI 的训练效率非常低下。现代 AI 使用人工神经网络,这是模拟人脑神经元的数学计算。每两个相邻神经元的连接强度都是神经网络上的一个参数,名叫权重。神经网络的训练则需要从随机权重开始,一遍遍地运行和调整参数,直到输出与正确答案一致为止。

常见的一种训练语言神经网络的方法是,从维基百科和新闻媒体网站下载大量文本,然后把一些词语遮挡起来,并要求 AI 猜测被遮挡起来的词语。刚开始的时候,AI 会全部搞错,但是,经过不断地调整后,AI 会逐渐学习数据中的模式,最终整个神经网络都会变得非常准确。

相信你听说过 BERT 模型,基于变换器的双向编码器表示技术(Bidirectional Encoder Representations from Transformers,简称 BERT),这是一项由 Google 提出的自然语言处理(NLP)的预训练技术。该模型使用了来自维基百科和其他文章的 33 亿个单词,而且在整个训练期间,BERT 读取了该数据集 40 次。相比之下,一个 5 岁的孩子学说话只需要听到 4500 万个单词,比 BERT 少3000倍。

寻找最佳结构

语言模型构建成本如此之高的原因之一在于,在开发模型期间,上述训练过程需要反复多次。因为研究人员需要将神经网络调整到最优,即确定神经元的个数、神经元之间的连接数以及各个权重。他们需要反复尝试很多组合,才能提高神经网络的准确度。相比之下,人类的大脑不需要寻找最佳结构,经过几亿年的进化,人类大脑已具备这种结构。

随着各大公司和学术界在 AI 领域的竞争愈演愈烈,不断提高技术水平的压力也越来越大。在自动翻译等难度巨大的任务中,如果能将准确度提高 1%,也将被视为重大的进步,可以作为宣传产品的筹码。然而,为了获得这 1% 的提升,研究人员需要尝试成千上万的结构来训练模型,直到找到最佳模型。

随着模型不断发展,模型的复杂度逐年攀高。另一款与 BERT 类似的最新语言模型 GPT-2,其神经网络包含 15 亿个权重。而 GPT-3 由于其高精度,引起了业界的轰动,但其权重高达 1750 亿个。

此外,AI 模型的训练需要在专用硬件(例如图形处理器)上进行,这些硬件的功耗普遍高于传统 CPU。如果你的笔记本电脑加载了优质的显卡,可以玩很多高端游戏,那么你肯定会注意到这台机器产生的热量也比普通电脑高很多。

所有这些都表明,开发先进的 AI 模型需要大量的碳排放量。除非我们能够利用百分百可再生能源,否则真的怀疑 AI 的进步与减少温室气体排放以及减缓气候变化,孰重孰轻?是否真的可以功过相抵?

最后,开发 AI 的耗资如此巨大,能够承担得起各项费用的公司与机构实在少之又少,最终究竟应该开发哪种模型的决定权无疑也落到了这群人的手中。

AI 模型训练应该适可而止

本文并不是要否定人工智能研究的未来,只不过在训练 AI 模型的时候,我们需要采用更高效的方法,而且应该做到适可而止。

随着 AI 模型训练方法的效率提升,相信训练的成本也会下降。同时,我们需要在训练模型的成本和使用模型的成本之间权衡取舍。例如,在 AI 模型准确度到达一定高度后,每提升 1% 都需要付出巨大的精力,而实际得到的收益却很少。不追求极致,更多地使用“适可而止”的模型,不仅可以降低碳排放量,而且也能为我们带来更大获益。

参考链接:https://levelup.gitconnected.com/test-driven-development-is-overrated-ad9f0491c11d

程序员如何避免陷入“内卷”、选择什么技术最有前景,中国开发者现状与技术趋势究竟是什么样?快来参与「2020 中国开发者大调查」,更有丰富奖品送不停!

戳:https://bss.csdn.net/m/topic/dev_survey2020

1 个 AI 模型 = 5 辆汽车终身碳排量,AI 为何如此耗能?相关推荐

  1. 阿里云12年数据智能工程,突破世界级超大规模中文AI模型

    当今世界,人工智能无疑是最具想象力和吸引力的科技之一.从电影<人工智能>到<终结者>,从图灵测试到无人驾驶汽车,人们在丰富想象和具体实践中,不断拉近最终实现通用人工智能的距离. ...

  2. HuggingGPT进化,一键控制10万多个AI模型

    本文 机器之心  编辑:张倩.蛋酱 通过 Transformers Agents,你可以控制 10 万多个 Hugging Face 模型完成各种多模态任务. 从聊天到编程再到支持各种插件,强大的 C ...

  3. InfoWorld文章丨将数据编排技术用于AI模型训练

    This article was originally published on InfoWorld on March 22, 2022. Reprinted with permission. IDG ...

  4. 用飞桨框架2.0造一个会下五子棋的AI模型——从小白到高手的训练之旅

    点击左上方蓝字关注我们 [飞桨开发者说]洪伟,建筑行业BIM工程师.一级注册建造师,飞桨开发者,人工智能技术爱好者,相信"AI,正在让世界变得更美好",感兴趣的方向有:强化学习(R ...

  5. AI平民化之路 - 华为云ModelArts和AI Gallery体验指南

    在校期间主学机器学习和算法,在一次偶然的机会接触了大数据,而后便入门大数据,至今也从事大数据平台开发工作.可是,仍然对AI技术念念不忘呀,平常也会做点机器学习相关的小东西,尝试一些demo,想着某一天 ...

  6. 16万辆汽车已经用上中国“车规AI第一芯”,量产还在加速

    贾浩楠 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 上海车展上,一众自动驾驶供应商们,为智能电动车的"入场券"争先恐后. 而这种大背景下,中国汽车AI芯片的知名玩家 ...

  7. AI一分钟|潘建伟团队首次实现18个量子比特纠缠;特斯拉第二季度共交付40740辆汽车...

    ▌潘建伟团队刷新世界纪录:首次实现 18 个量子比特纠缠 国科大网站发文称,中国科学技术大学潘建伟教授及其同事陆朝阳.刘乃乐.汪喜林等通过调控六个光子的偏振.路径和轨道角动量三个自由度,在国际上首次实 ...

  8. Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI

      视学算法报道   编辑:桃子 好困 袁榭 拉燕 [新智元导读]2022年2月24日凌晨,在Meta AI实验室讨论会上,小扎亲自带队公布了多项技术内容:语音生成元宇宙场景的Builder Bot. ...

  9. AI模型走下高科技神坛、走进大规模量产、深入渗透产业界丨百度研究院2020十大预测...

    乾明 发自 凹非寺  量子位 报道 | 公众号 QbitAI "2020年,全球范围内将出现多家AI模型工厂.AI数据工厂." 这一观点并不是"某专家"拍脑袋给 ...

最新文章

  1. 将python3.7降为3.5_python3.7降至3.5【python cookbook】python访问子字符串
  2. php屏蔽审查元素,HTML网站右键禁用F12代码 屏蔽审查元素 防止修改页面代码
  3. Hi3531与Hi3520 GPIO口的对比及驱动的修改
  4. mysql数据恢复时显示多线程恢复_MySQL多线程备份恢复工具mydumper,myloder
  5. python画图去掉边框
  6. 二维数组七行七列C语言,C语言中级教程 再谈数组-7.ppt
  7. H5(仅仅是个地址)
  8. OSPF邻接关系建立
  9. restclient发送json_如何使用restclient来发送post请求参数
  10. java 蔡学镛_蔡学镛谈“Linux + Java 会得到什么”
  11. vue中的浏览量_vue项目中统计页面访问量PV UV
  12. 图的广度和深度优先路径搜索算法(python实现)
  13. 大奖赛现场统分。已知某大奖赛有n个选手参赛,m(m2)个评委为参赛选手评分(最高10分,最低0分)。统分规则为:在每个选手的m个得分中,去掉一个最高分和一个最低平 每日一题--2020049--
  14. QT 代码添加QScrollArea
  15. 瀑布模型原型模型迭代模型螺旋模型的适用场景
  16. 用Python求解线性规划问题
  17. Ural 1671. Anansi's Cobweb
  18. 简易考试系统(java、头歌实验)
  19. GDT(全居描述符表)和LDT(局部描述符表)
  20. ssh服务器banner信息,几种情况下的banner信息修改

热门文章

  1. 【编程珠玑】第六章 程序性能分析
  2. zend studio怎么打开一个已有项目
  3. 最佳ASP.net之LINQ学习资料
  4. EBS MOAC深入研究(转)
  5. extract()和extact_first()的区别
  6. CALL TRANSACTION 和 SUBMIT 事务码之间的跳转
  7. 为什么你还一直在穷打工?
  8. android获得手机号码代码
  9. 《机器学习实战》学习总结(四)逻辑回归原理
  10. c java 引用类型_java中的引用类型