编译 | 禾木木

出品 | AI科技大本营(ID:rgznai100)

大约一年前,总部位于纽约布鲁克林的自然语言处理初创公司 Hugging Face 推出了 BigScience。这是一个拥有 900 多名研究人员的国际项目,旨在更好地理解自然语言模型原理和提高大型语言模型的质量。大型语言模型(LLM)能够实现基于文本的数据集识别、预测和生成语言的算法,已经吸引了商业和技术爱好者的广泛关注。但是,它们背后没有像 OpenAI 和 DeepMind 这样的资源,开发 LLM 所需要的昂贵硬件成本仍然是研究人员的困难。

从欧洲核研究组织(CERN)及大型强子对接机等项目中收获得灵感,BigScience 的目标是创建 LLM 和大型文本数据集,并将这些数据集最终向更广泛的人工智能社区开放。这些模型将在法国巴黎附近的 Jean Zay 超级计算机上进行训练,这也是迄今为止全球最强大的机器设备之一。

对企业巨头们的影响可能还不清楚,但 BigScience 这样的努力实际是在降低 LLM 的接触门槛、提升模型开发透明度。除了由开放 AI 研究小组 EleutherAI 创建的几个模型之外,很少有经过培训的 LLM 可供研究或部署到生产中。OpenAI 拒绝将其最强大的 GPT-3 模型开源,反而是将源代码独家授权给了微软。与此同时,像英伟达等厂商虽然发布了性能不错的 LLM 代码,但是将这些 LLM 的训练留给了具有足够强大硬件的用户。

刚刚离开 Meta(前 Facebook)AI 研究部门、转投 Hugging Face 担任研究主管的 Douwe Kiela 表示:“很明显,直接跟业界巨头对抗并非明智之举。但作为弱势一方,我们可以找寻 Hugging Face 最与众不同的优势。初创企业更具活力,工作进程更快,而且对于开源的关注也让我们能够与来自学界乃至其他领域的研究人员们建立起强大的社区合作关系。这一切,都是在为 AI 技术的大众化与公平化进程而努力。”

LLM 大众化

LLM 与其他任何语言模型一样,也需要根据文本示例理解单词出现的几率。较为简单的模型会在特定语境下浏览,而大型模型则直接去理解句子甚至是段落。示例以训练数据集中的文本形式出现,包含从社交媒体、维基百科、书籍、GitHub 等软件托管平台以及公共网络上抓取到的 TB 级、甚至是 PB 级数据素材。

我们往往无法使用现成商用硬件训练最先进的 LLM 模型,部署最先进的 LLM 的障碍才是巨大的。像英伟达及微软的 Megatron 530B LLM 整个训练周期耗费可能高达数百万美元,这还不包含模型存储所带来的费用。接下来则是推理阶段,即通过运行训练后模型获得预测结果。根据估计,在单一 AWS 实例上运行 GPT-3 的成本至少为 87000 美元。

年初发布的 EleutherAi 模型与训练数据集倒是做出了一些更加可行的商业化。但此次 BigScience 的适用范围更广,不仅涵盖 LLM 的训练与发布,同时也解决了不少重大技术缺陷。

解决不平等问题

从计算的角度来看,LLM的好处并不是严格地分布不均的。英语法 LLM 的数量远远超过其他语言培训的 LLM,少数西欧语言(特别是德语,法语和西班牙语)占据了主导地位。正如哈佛大学、乔治梅森(George Mason)和卡耐基梅隆大学(Carnegie Mellon)近期共同发布了一项关于语言技术的研究,语言使用者的"经济实力"往往会推动模型的发展,而不是人口需求。

用英语以外的语言训练的大型多语言和单语模型虽然很少开源,但正变得比以前更常见,部分归功于企业利益。但是,由于公共数据源中的系统性偏差,非英语模型的表现并不总是与英语模型一样好。例如,基于维基百科的数据集内不同语种的素材规模差异巨大,而且在待完善内容方面的立项百分比、编辑次数和用户浏览量上也截然不同。相当一部分使用特定语种的群体根本无法访问维基百科。此外,阿拉伯语和乌尔都语版本的电子书大多为图像扫描件、而非纯文本,在使用光学字符识别工具转录过程中其精度可能低至 70%。

作为其工作的一部分,BigScience表示,它已经制作了分布在世界各地的近200种语言资源的目录。该项目的贡献者还创建了最大的阿拉伯语公共自然语言目录之一,称为Masader,拥有200多个数据集。

结语

在商业应用中,BIgScience 的工作很有可能会激发出原有 LLM 无法利用的全新 AI 驱动产品。语言模型已成为医疗保健、金融服务等行业的关键工具,可用于处理专利、从科学论文中获得见解,推荐新闻文章等。但是,规模较小的组织也越来越多地被排除在 AI 的前沿进步之外。

在 John Snow Labs 与 Gradient Flow 在 2021 年的一项调查中,受访企业普遍将准确性列为语言模型评估中的重要要素,其次是生产就绪性和可扩展性。最大的挑战体现为成本、维护与数据共享。

尽管 LLM 有潜在的危害,仍然在基础知识层面也仍然没有找到可行的出路,经常会自主打破语义规则并无休止地原地转圈。例如,模型经常会在没有转义的情况下改变对话主题,或者说出自相矛盾的言论。LLM 在道德、历史和法律问题上的了解也堪称浅薄,甚至会在无意间暴露出公共训练数据集中的个人信息。

Kiela 表示“在 Hugging Face 各研究团队的共同努力下,我们希望在 Meta 式的自下而上探索,与 DeepMind/OpenAI 式的自上而下研究之间找到完美的平衡点。在自下而上时,我们往往会遇到不必要的摩擦、竞争与资源争用问题。至于自上而下,研究人员的自由意志与创造力则会受到打压。我们的员工来自谷歌、Meta 以及整个学术界,所以当下正是最好的探索时机。我们希望创造出一种新的开创性研究环境,给传统实验思维带来一点有益的启发和补充。”

原文链接:

https://venturebeat.com/2022/01/10/inside-bigscience-the-quest-to-build-a-powerful-open-language-model/

GPT-3 不够 Open,BigScience 构建开放语言模型,规模小 16 倍相关推荐

  1. 《预训练周刊》第34期:使用图像级监督检测两万个类别、BigScience寻求建立强大的开放语言模型...

    No.34 智源社区 预训练组 预 训 练 研究 观点 资源 活动 关于周刊 本期周刊,我们选择了11篇预训练相关的论文,涉及图像处理.图像理解.语言模型调优.常识问答.大模型隐私泄漏.文本分类.多模 ...

  2. 用LangChain构建大语言模型应用

    用LangChain构建大语言模型应用 自 ChatGPT 发布以来,大型语言模型 (LLM) 广受欢迎.尽管您可能没有足够的资金和计算资源从头开始训练自己的大语言模型,但您仍然可以使用预训练的大语言 ...

  3. 线性瘤是良性吗_良性聚会:露营者如何构建开放源代码工具来解决时区

    线性瘤是良性吗 by Michael D. Johnson 迈克尔·约翰逊(Michael D.Johnson) 良性聚会:露营者如何构建开放源代码工具来解决时区 (Meeting for Good: ...

  4. 燃烧吧!开发者们,一起在云端构建开放成熟的 ARM 生态!

    充斥在各种工作.生活场景中的智能手机.平板.IoT设备.智能家电.智能机械等电子设备,对绝大多数人来说并不陌生,而这些设备背后的基础支撑力之一--ARM 架构芯片,其性能和功耗的优势也在逐渐升级,向传 ...

  5. 百度超级链正式发布开放网络白皮书,致力于构建开放共赢区块链新生态

    阅读原文获取"白皮书" 8月4日,百度超级链开放网络白皮书线上发布会正式启动.发布会深度揭秘百度超级链的产品战略.开放网络技术理念和生态合作方案. 百度一直相信区块链是未来链接信任 ...

  6. 构建开放的软件团队文化

    文 / 许正华 伴随着软件开发敏捷化趋势的发展,"以人为本"的软件团队建设理念越来越得到广泛的重视,但在这方面的研究.探讨与实践则显得乏善可陈,现在是到了个体.团队.组织甚至是社会 ...

  7. 金融壹账通黄宇翔:构建开放体系是中小银行“弯道超车”的绝好机会

    2019独角兽企业重金招聘Python工程师标准>>> 跨界融合.开放共享是当下每个行业都在着力推行的事,银行业也不例外.当登录银行APP也能网购,当拿着银行卡也能刷开小区的门禁,当 ...

  8. 精斗云面向企业应用开发者,构建开放服务生态

    智能时代到来,互联网.云计算.大数据.人工智能等新技术层出不穷,现代商业模式与商业行为已发生巨变,企业如何迎接新挑战? 面对不断变化的新科技.新模式.新领域,企业如何适应技术发展并转化为企业源源不断的 ...

  9. 小程序 数据库 时间_使用云开发数据库构建更生动的小程序

    导语 长连接服务被广泛应用在消息提醒.即时通讯.推送.直播弹幕.游戏等场景.本篇文章将介绍云开发数据库的长连接服务--实时数据推送,使用它来构建更生动的小程序.什么是实时数据推送? 通过云开发数据库的 ...

最新文章

  1. android binder
  2. RocketMQ:NameServer架构设计以及启动关闭流程源码分析
  3. 阿里云服务器ssh连接经常断开
  4. vue中mode的设置
  5. 《Hack与HHVM权威指南》——1.1 为什么使用类型检查器
  6. 网页现现实理服务器没有响应,前端_网页编程 HTTP协议(进阶)
  7. Android kotlin中配置protobuf
  8. 自然语言处理基本概念及基础工具
  9. 扒一扒,互联网大厂内部都用什么软件沟通?
  10. SketchUp2019下载SU2019下载安装教程SketchUp草图大师2019下载安装详细教程
  11. 24核超级计算机,24核装备 Intel发布最强14nm至强处理器
  12. 12306用户名密码泄露,这回貌似是躺枪
  13. OpenVINO整活(一) 输入分辨率
  14. 物联网卡和流量卡网速对比,看看谁更强?
  15. obj文件转gltf文件
  16. 【分治算法】大整数乘法
  17. struts2远程代码执行漏洞合集
  18. 怎么提高mysql多表查询效率_MySQL创建index提高多表查询效率
  19. Linux perf: 为什么采样频率设置为99Hz而不是100Hz?
  20. C语言进阶——地址和指针

热门文章

  1. pkg mysql 在macOS 上的管理
  2. Spring集成Redis方案(spring-data-redis)(基于Jedis的单机模式)(待实践)
  3. 开源硬件:极客们的伟大理想
  4. 2007年11月网络工程师考试试题
  5. 设置Button控件创建完毕时触发的事件.
  6. 用计算机解组合题,计算机组成原理试题解析5
  7. nero linux iso,NeroLINUX下载_NeroLINUX官方下载_NeroLINUX4.0.0.0-华军软件园
  8. python中列表和集合_15个例子掌握Python列表,集合和元组
  9. 暑期集训1:C++STL 例1:UVA-10815
  10. 多线程threading