来源:新智元

【导读】AI 最近的发展似乎都是靠大规模的深度学习模型推动的,所以斯坦福最近成立一个基础模型研究中心CRFM来专门研究大规模的深度学习模型。但业界普遍不看好斯坦福的这个操作,认为深度学习根本就没办法成为基础模型,斯坦福表示,道理我都懂,这个模型可以应个急嘛!

也许你没有感受到,但人工智能再一次掀起了范式转换革命。

八月,斯坦福大学的研究人员在arxiv 上传了一篇报告,宣布人工智能的新时代已经到来,一个建立在巨大的神经网络和数据海洋之上的时代。

随着模型(例如,BERT、DALL-e、GPT-3)的兴起,这些模型在大规模的大数据上进行训练,并且能够适应广泛的下游任务,这些模型可以作为其他任务的「基础模型」,基础模型的含义就是这些模型是不完整的,但它是必不可少的。

该报告提供了基础模型的机会和风险,包括他们的能力,例如,语言、视觉、机器人、推理、人类交互,技术原理,例如,模型体系结构、训练程序、数据、系统、安全性、评估、理论)到它们的应用,如法律、医疗保健、教育,和社会影响,如不平等、滥用、经济和环境影响、法律和道德考虑。

虽然基础模型是基于标准的深度学习和转移学习,但是它们的大规模导致它们可以在关键领域和诸多任务中重要的性能提升。

但这种同质化(homogenization)的使用需要谨慎,因为基础模型的缺陷是由所有适应模型继承的。

尽管基础模型即将普及,但我们目前对它们的工作原理却没有一个清晰的认识,当别的模型无法成功时,基础模型可以应急来处理一些需要AI 处理的问题。

并且表示,斯坦福大学的一个新研究中心,即基础模型研究中心CRFM (Center for Research on Foundation Models),将建立并研究这些人工智能的「基础模型」。

作者包含了数十位斯坦福的老师们,如李飞飞等都参与了作者署名,并且作者单位也已经增加了CRFM。

这一想法一经发表,很多人立刻跳出来反对,即使在纪念新中心CRFM正式成立而组织的研讨会上,依然有很多人持反对意见:包括质疑神经网络模型的能力是否真的那么强大、还有神经网络让人类无法理解的行为。

另一些比较柔和的反对派表示,应当把更多精力放在研究如何使机器更加智能的方法上。

https://crfm.stanford.edu/

UC 伯克利大学的AI 领域教授Jitendra Malik 在视频讨论中表示,基础(foundation)这个词完完全全的错误!

Malik 承认,斯坦福大学研究人员指出的那些能够回答问题或从提示中生成文本的大型语言模型效果很好,在实际应用中有很大用途。但他还是认为进化生物学表明,语言的建立不仅仅需要智力,还需要物理世界、其他同类真实的互动。

目前研究这些模型都空中楼阁,并没有任何他们所谓的「基础」,在这些模型中使用的语言没有根据,生成或是问答都是虚假的,他们并没有真正的理解。

近年来,越来越大的人工智能模型在感知、机器人技术以及语言等领域取得了一些令人印象深刻的进步。

大型语言模型也是谷歌和Facebook等大型科技公司的基础,这些公司在搜索、广告和内容调节等领域使用大型语言模型。构建和训练大型语言模型需要数百万美元的云计算能力,也只有大公司才掏得起这个费用。

高昂的费用也限制了大规模模型的开发和使用,所以训练模型仅限于少数十分有钱的科技公司。

但大型模型也存在问题,语言模型从他们接受训练的数据中继承了那些带有偏见和冒犯性的文本,并且机器对常识或真假信息都没有判断的能力。

如果给出提示,大型语言模型可能会吐出令人不快的语言或错误信息,而且也不能保证这些大型模型将继续在机器智能方面取得进展。

斯坦福大学的提案使研究界产生了分歧。

亚利桑那州立大学教授Subbarao Kambhampati认为,称它们为「基础模型」完全就是没搞清楚状况,从这些模型到更通用的 AI 形式没有明确的方法,目前还处于探索中。

俄勒冈州州立大学教授、人工智能促进协会前主席托Thomas Dietterich表示,他「非常尊重」斯坦福新中心背后的研究人员,他也相信他们真正关心、也清除这些模型可能带来的问题。

但 Dietterich 想知道基础模型的想法是否是为了为构建和工作所需的资源筹集资金,他表示对斯坦福给这些模型取了一个好听的名字,并创建了一个中心表示很惊讶,这有种插旗的感觉,可能对筹款方面有好处吧。

斯坦福大学李飞飞曾经还提议创建一个国家人工智能云(Nation AI Cloud),以便为从事人工智能研究项目的学者提供行业规模的计算资源。

华盛顿大学语言学系教授 Emily M. Bender 表示,她担心基础模型的想法反映了投资行业更青睐于模型,而非data-centric的 AI 方法。

Bender 表示,研究大型 AI 模型带来的风险尤为重要。她与他人合著了一篇于 3 月发表的论文,该论文引起了人们对大型语言模型问题的关注,并促成了两名谷歌研究人员的离职。

但她说,AI 的发展应该来自多个学科,而非只是模型改进。所有这些相邻的、非常重要的领域都缺乏资金,在我们将资金投入云端之前,她还希望看到资金投入其他学科。

新斯坦福研究中心主任Percy Liang 认为,他听到了批评,但认为有些人可能误解了该项目的目标。

Percy Liang是斯坦福大学计算机科学副教授,2004年于麻省理工学院取得学士学位,2011年于加州大学伯克利分校取得博士。主要研究方向为自然语言处理(对话系统,语义分析等方向)及机器学习理论。他的两个研究目标是

1、使机器学习更加健壮、公平和可解释;

2、使计算机更容易通过自然语言进行通信。

Percy 的团队推出的 SQuAD 阅读理解挑战赛是行业内公认的机器阅读理解标准水平测试,也是该领域的顶级赛事,被誉为机器阅读理解界的 ImageNet(图像识别领域的顶级赛事)。

Percy说,被称为基础的大型机器学习模型看起来独特而重要,因为它们能够处理现实世界的复杂性,正如大型语言模型的能力所证明的那样。他说反馈是健康学术辩论的一部分,也欢迎所有这些批评。

Percy补充说,斯坦福大学的研究人员完全意识到这些模型的局限性,并在他们的研究论文中描述了一些。他们也不相信这些模型是在人工智能领域取得进一步飞跃所需要的。这只是一种不受限制的原始潜力,我们需要找到一种方法来利用和遏制。

参考资料:

https://www.wired.com/story/stanford-proposal-ai-foundations-ignites-debate/

https://crfm.stanford.edu/report.html

https://arxiv.org/abs/2108.07258

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 年薪制,博士38万/年,硕士23万/年,南方某高校

  • 香港大学赵恒爽助理教授招收CV/ML等方向全奖博士生、博士后

  • MLP进军下游视觉任务!目标检测与分割领域最新MLP架构研究进展!

  • 北京大学智能计算与感知实验室招收博士、硕士、本科实习生

  • 北京大学崔斌教授组招收图机器学习、AutoML等方向科研实习生

  • 香港科技大学Minhao Cheng助理教授招收全奖博士生、硕士生

  • 清华大学智能产业研究院AI医疗团队招聘知识图谱方向实习生

  • 博士申请 | 香港中文大学LaVi实验室招收2022年秋季入学博士生、硕士生

  • 周志华教授:如何做研究与写论文?(附完整的PPT全文)

  • 都2021 年了,AI大牛纷纷离职!各家大厂的 AI Lab 现状如何?

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

重磅!DLer-计算机视觉&Transformer群已成立!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

斯坦福CRFM遭业界炮轰:深度学习做不了基础模型!相关推荐

  1. 如何用深度学习做自然语言处理?这里有份最佳实践清单

    如何用深度学习做自然语言处理?这里有份最佳实践清单 By 机器之心2017年7月26日 14:16 对于如何使用深度学习进行自然语言处理,本文作者 Sebastian Ruder 给出了一份详细的最佳 ...

  2. 【干货】怎样用深度学习做语音识别

    [新智元导读]吴恩达曾经预测当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式.归功于深度学习,这4%的准确率的提升使得语音识别从难以实际应用的技术变成有无限的应用潜力 ...

  3. 用深度学习做命名实体识别(五)-模型使用

    通过本文,你将了解如何基于训练好的模型,来编写一个rest风格的命名实体提取接口,传入一个句子,接口会提取出句子中的人名.地址.组织.公司.产品.时间信息并返回. 核心模块entity_extract ...

  4. 手把手教你用深度学习做物体检测(二):数据标注

      "本篇文章将开始我们训练自己的物体检测模型之旅的第一步-- 数据标注."   上篇文章介绍了如何基于训练好的模型检测图片和视频中的物体,若你也想先感受一下物体检测,可以看看上篇 ...

  5. 用深度学习做命名实体识别(四)——模型训练

    通过本文你将了解如何训练一个人名.地址.组织.公司.产品.时间,共6个实体的命名实体识别模型. 准备训练样本 下面的链接中提供了已经用brat标注好的数据文件以及brat的配置文件,因为标注内容较多放 ...

  6. 手把手教你用深度学习做物体检测(四):模型使用

    上一篇<手把手教你用深度学习做物体检测(三):模型训练>中介绍了如何使用yolov3训练我们自己的物体检测模型,本篇文章将重点介绍如何使用我们训练好的模型来检测图片或视频中的物体.   如 ...

  7. 劲爆!有人不用深度学习做强AI?道翰天琼认知智能机器人平台API接口大脑为您揭秘

    劲爆!有人不用深度学习做强AI?道翰天琼认知智能机器人平台API接口大脑为您揭秘 认知智能是计算机科学的一个分支科学,是智能科学发展的高级阶段,它以人类认知体系为基础,以模仿人类核心能力为目标,以信息 ...

  8. 我用深度学习做个视觉AI微型处理器!

    Datawhale干货 作者:张强,Datawhale成员 讲多了算法,如何真正将算法应用到产品领域?本文将带你从0用深度学习打造一个视觉AI的微型处理器.文章含完整代码,知识点相对独立,欢迎点赞收藏 ...

  9. 聊一聊深度学习做寿命预测

    本博客的码字背景 最近马上就研三了,回顾一路从小白开始入门深度学习做机械核心零部件寿命预测的历程吧. 1.本科期间未接触过python,深度学习相关的内容. 2.研究生在寿命预测方向入门画的时间比较长 ...

最新文章

  1. C#.NET 上传图片时怎样限制文件格式
  2. 指针的本质--u_char*指针在Nginx源码中的应用及原因
  3. Genome Biology | 基于RNA-seq的孟德尔疾病变异分析
  4. 用RSA实现Web单点登录密码的加密传输
  5. 【RAC】使用一条“ps”命令获取Linux环境下全部RAC集群进程信息
  6. python历年来经典项目实例-【实战案例】利用Python输出精美表格的5个案例,过程详细...
  7. 你所需要的MySQL检索语句(DQL)都在这儿(小白都能懂的哦)
  8. VTK:图表之AdjacencyMatrixToEdgeTable
  9. 【win10】如何在桌面上,显示我的电脑
  10. 如何设置Windows版Go —快速简便的指南
  11. mysql外键读锁_MySQL的锁
  12. sp_help 查看表结构 alter column修改字段长度
  13. 使用cdn和npm引入的区别_带你体验 Vue2 和 Vue3 开发组件有什么区别
  14. 消息队列常见的使用场景
  15. CodeSmith激活教程
  16. Android 单个指定蓝牙设备通讯流程
  17. 金庸武侠、四大名著的语言风格
  18. 21_RS485简单讲解
  19. html圆形分成六份,在ai里怎么把一个圆平均分成几份
  20. 玩转Oracle服务器连接

热门文章

  1. python 进程池pool简单实例
  2. Linux内核编译过程分析
  3. C#调用非托管代码找不到入口点解决办法
  4. pb连接多个数据库 有关问题2
  5. Apache 与Tomcat
  6. python中mid_使用Python进行新浪微博的mid和url互相转换实例(10进制和62进制互算)...
  7. 模型评估指标micro avg、macro avg和weighted avg的计算方式及区别
  8. python编写单实例总结
  9. pd.read_csv读取txt时整型变成浮点型问题解决
  10. java中class对象的理解 讲得相当不错 很接地气 引用下