铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI

放出124M和355M的中小规模预训练模型后,横扫7大语言任务、效果足够以假乱真的逆天模型GPT-2又开源了。

此前,OpenAI因为担心这个语言模型效果太好被滥用,一直藏着掖着开源,还被网友调侃为“ClosedAI。

刚刚,OpenAI首次放出774M的GPT-2大型预训练模型。官方表示,这是1558M完整版放出前,最后一版了。挤牙膏式开源,是OpenAI没错了。

研究人员表示,正在考虑开源完整版模型,也就是说,能完成阅读理解、常识推理、文字预测、文章总结等多种任务的AI模型,也有机会完全为你所用了。

心心念念的最强语言模型又有大开源,关注语言研究的AIer甚至有些不敢相信自己的眼睛:

不敢相信我现在看到的是真的!!好嗨呦!!!

全面上新

发布半年来,GPT-2的热度猛增不减。

作为一个没有经过任何领域数据专门训练的模型,它的表现比那些专为特定领域打造的模型还要好,横扫各大语言建模任务,还能胜任编造新闻、阅读理解、常识推理、摘要总结等任务。

这个庞大的算法使用语言建模作为训练信号,以无监督的方式在大型数据集上训练一个Transformer,然后在更小的监督数据集上微调这个模型,以帮助它解决特定任务。

研究人员说模型太强让自己有些心慌,于是分阶段放出,根据反响确定是否放出更完整的版本。

但OpenAI关于GPT-2的研究还没有止步,和今天774M模型一起问世的,还有一份OpenAI对GPT-2的发布策略及社会影响报告:

他们最关心的点,很大一部分在于对社会是否会带来大程度上负面影响。

研究人员表示,通过合作伙伴Sarah Kreps和Miles McCain在康奈尔大学外交事务部发表的研究表明,GPT-2合成的假文本与人类亲自撰写的文本相当。

在测试中,72%的参与者曾把GPT-2的假文章当成是来自《纽约时报》报道。甚至在AI2的调查中显示,一个基于GPT-2的“GROVER”系统撰写的新闻比人类的作品逻辑更合理。

这让他们不得不更加谨慎。

除了这个774M的大型与训练模型,此前根本不敢想的1558M的完整版模型已经在路上了。

预计几个月内就会发布

研究人员表示,制定了非商业法律协议,促进各个组织之间的模型共享,也联合了一些机构对模型进一步调研:

人类对GPT-2产生虚假信息的敏感性、可能会被极端分子怎样应用、生成文本的偏差……都会影响最终发布的时间。

GPT-2の各类妙用

发布半年来,不少网友基于GPT-2进行了各类开发,脑洞之大可能连OpenAI都想象不到。

GPT-2其实还学了好几种编程语言。比方,JavaScript。

纽约大学工程学院的助理教授Brendan Dolan-Gavitt发现,GPT-2在学会写英文的同时,还悄悄学了一些js脚本语言。

MIT的研究科学家、深度学习课老师Lex Fridman做了一个新应用:

DeepTweets,能通过一个人以往的推特内容进行内容模仿,自动生成新的伪推特。

GPT-2还有了更易用的封装版本,新加坡高中生开源轻量级GPT-2“客户端”。

轻松上手,轻量级,速度快。这就是这只名叫gpt2-client的包装器的突出特性。

一位来自加拿大的大四学霸,开发了一款“Deep TabNine”代码补全工具,实现了这一大胆的想法:

补全代码,支持23种编程语言、5种编辑器,使用简单,效果惊艳。

今日头条发布内容健康度检测工具“灵犬3.0”,能够识别这些低俗内容、暴力内容和标题党,同时应用了BERT和半监督技术,并且在此基础上使用了专门的中文语料,使得计算效率能达到实用水平。

宝藏区

博客地址:

代码收好:

调研报告:

最后,推荐一个Adam King发布的和GPT-2一起玩耍的界面,现场体验774M模型生成效果:

https://talktotransformer.com/

直播 | Style-Gan的架构与实现

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

语言模型GPT-2挤牙膏式开源,放出774M预训练模型,称是倒数第二版相关推荐

  1. kali2021.1安装pdtools挤牙膏式爬坑日记

    kali2021.1安装pdtools挤牙膏式爬坑日记 本人电脑为macOS Big Sur 11.1 parallels Desktop为16.1.1 首先,感谢两位大佬的博客,由于我出现的问题比较 ...

  2. 金融领域首个开源中文BERT预训练模型,熵简科技推出FinBERT 1.0

    出品 | AI科技大本营 头图 | CSDN付费下载于东方IC 为了促进自然语言处理技术在金融科技领域的应用和发展,熵简科技 AI Lab 近期开源了基于 BERT 架构的金融领域预训练语言模型 Fi ...

  3. 交互式多模型_26亿参数,智源、清华开源中文大规模预训练模型

    近日,北京智源人工智能研究院和清华大学研究团队联合发布了以中文为核心的大规模预训练语言模型 CPM-LM,参数规模达 26 亿,预训练中文数据规模 100 GB. 26亿参数,智源.清华开源中文大规模 ...

  4. 在终端设备上实现语音识别:ARM开源了TensorFlow预训练模型

    林鳞 编译整理 量子位 出品 | 公众号 QbitAI 关键词识别(Keyword Spotting,KWS)是语音识别领域的一个子领域,在用户在智能设备上进行语音交互时起到重要作用. △ 关键词识别 ...

  5. 百度万亿级图检索引擎发布!四大预训练模型开源,还“发糖”15亿元

    金磊 梦晨 发自 凹非寺 量子位 报道 | 公众号 QbitAI 又一年520,又一年情-- Stop!不是这种打开方式. 瞧~同样是为了"过节",却吸引了五湖四海的开发者聚集在此 ...

  6. 中文预训练模型ZEN开源,效果领域内最佳,创新工场港科大出品

    允中 发自 凹非寺  量子位 报道 | 公众号 QbitAI 改进策略简单有效.收敛速度快,同时小数据效果出色. 这就是中文预训练模型ZEN. 在中文任务中,ZEN不仅性能优于BERT,也比之前中文预 ...

  7. 【LLM系列之GPT】GPT(Generative Pre-trained Transformer)生成式预训练模型

    GPT模型简介 GPT(Generative Pre-trained Transformer)是由OpenAI公司开发的一系列自然语言处理模型,采用多层Transformer结构来预测下一个单词的概率 ...

  8. 逆天语言模型GPT-2最新开源:345M预训练模型和1.5B参数都来了

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI 逆天的语言模型GPT-2又有最新开源进展了! GPT-2,这个造假新闻编故事以假乱真,能完成阅读理解.常识推理.文字预测.文章总结等多种任务 ...

  9. 莆田版GPT-3开源:同等复现预训练模型GPT Neo

    GPT-3开源了?Eleuther AI推出的名为GPT-Neo的开源项目:公开发布的GPT-3同等复现预训练模型(1.3B & 2.7B),可在Colab上完成微调. --当然此 GPT-3 ...

最新文章

  1. C++ 判断字符串是否为空
  2. Python自然语言处理
  3. IIS中保持HTTP连接
  4. 粒子滤波实现物体跟踪
  5. c程序编写x的y次方的方法
  6. K-Means ++ 算法
  7. 线性代数第九版pdf英文_斯坦福CS229机器学习课程的数学基础(线性代数)翻译完成...
  8. 【Vue】class style:Vue中的两种样式处理方法
  9. 给ApplicationContext容器中添加组件的方法(@Bean的使用)
  10. ubuntu切换python版本
  11. 提升写作效率,让 Word 更好地为你所用
  12. 无人自助便利店采用射频识别技术 30秒钟就能完成付款
  13. SpringBoot 2.3 新特性之优雅停机
  14. Graphics2D 使用详解 【转】
  15. WordPress主题CorePress
  16. quill-editor使用方法,图片base64位转为url缩减字符长度,以及显示文字个数,光标位置等
  17. 终端连接工具Tabby的下载、安装与配置
  18. 导航网站盈利模式存在问题分析
  19. layui.table 头部工具栏与行工具栏的实例
  20. ASP.Net Core 2.2 MVC入门到基本使用系列 (四)

热门文章

  1. 第七篇:SpringBoot 2.x集成Lombok
  2. Kotlin 一个好用的新功能:Parcelize
  3. redis 用setbit(bitmap)统计活跃用户
  4. 网络视频会议整体解决方案
  5. eclipse 设置PythonIDE
  6. JavaScript实用的一些技巧
  7. 可转债数据一览表集思录_学习先进的可转债投资策略
  8. 360浏览器急速模式_国产平台:360安全浏览器扩展使用教程
  9. Kali Linux常用服务配置教程安装及配置DHCP服务
  10. css如何设置图转30度,使用CSS实现左右30度的摆钟