语言模型GPT-2挤牙膏式开源，放出774M预训练模型，称是倒数第二版

铜灵发自凹非寺
量子位出品 | 公众号 QbitAI

放出124M和355M的中小规模预训练模型后，横扫7大语言任务、效果足够以假乱真的逆天模型GPT-2又开源了。

此前，OpenAI因为担心这个语言模型效果太好被滥用，一直藏着掖着开源，还被网友调侃为“ClosedAI。

刚刚，OpenAI首次放出774M的GPT-2大型预训练模型。官方表示，这是1558M完整版放出前，最后一版了。挤牙膏式开源，是OpenAI没错了。

研究人员表示，正在考虑开源完整版模型，也就是说，能完成阅读理解、常识推理、文字预测、文章总结等多种任务的AI模型，也有机会完全为你所用了。

心心念念的最强语言模型又有大开源，关注语言研究的AIer甚至有些不敢相信自己的眼睛：

不敢相信我现在看到的是真的！！好嗨呦！！！

全面上新

发布半年来，GPT-2的热度猛增不减。

作为一个没有经过任何领域数据专门训练的模型，它的表现比那些专为特定领域打造的模型还要好，横扫各大语言建模任务，还能胜任编造新闻、阅读理解、常识推理、摘要总结等任务。

这个庞大的算法使用语言建模作为训练信号，以无监督的方式在大型数据集上训练一个Transformer，然后在更小的监督数据集上微调这个模型，以帮助它解决特定任务。

研究人员说模型太强让自己有些心慌，于是分阶段放出，根据反响确定是否放出更完整的版本。

但OpenAI关于GPT-2的研究还没有止步，和今天774M模型一起问世的，还有一份OpenAI对GPT-2的发布策略及社会影响报告：

他们最关心的点，很大一部分在于对社会是否会带来大程度上负面影响。

研究人员表示，通过合作伙伴Sarah Kreps和Miles McCain在康奈尔大学外交事务部发表的研究表明，GPT-2合成的假文本与人类亲自撰写的文本相当。

在测试中，72%的参与者曾把GPT-2的假文章当成是来自《纽约时报》报道。甚至在AI2的调查中显示，一个基于GPT-2的“GROVER”系统撰写的新闻比人类的作品逻辑更合理。

这让他们不得不更加谨慎。

除了这个774M的大型与训练模型，此前根本不敢想的1558M的完整版模型已经在路上了。

预计几个月内就会发布。

研究人员表示，制定了非商业法律协议，促进各个组织之间的模型共享，也联合了一些机构对模型进一步调研：

人类对GPT-2产生虚假信息的敏感性、可能会被极端分子怎样应用、生成文本的偏差……都会影响最终发布的时间。

GPT-2の各类妙用

发布半年来，不少网友基于GPT-2进行了各类开发，脑洞之大可能连OpenAI都想象不到。

GPT-2其实还学了好几种编程语言。比方，JavaScript。

纽约大学工程学院的助理教授Brendan Dolan-Gavitt发现，GPT-2在学会写英文的同时，还悄悄学了一些js脚本语言。

MIT的研究科学家、深度学习课老师Lex Fridman做了一个新应用：

DeepTweets，能通过一个人以往的推特内容进行内容模仿，自动生成新的伪推特。

GPT-2还有了更易用的封装版本，新加坡高中生开源轻量级GPT-2“客户端”。

轻松上手，轻量级，速度快。这就是这只名叫gpt2-client的包装器的突出特性。

一位来自加拿大的大四学霸，开发了一款“Deep TabNine”代码补全工具，实现了这一大胆的想法：

补全代码，支持23种编程语言、5种编辑器，使用简单，效果惊艳。

今日头条发布内容健康度检测工具“灵犬3.0”，能够识别这些低俗内容、暴力内容和标题党，同时应用了BERT和半监督技术，并且在此基础上使用了专门的中文语料，使得计算效率能达到实用水平。

宝藏区

博客地址：

代码收好：

调研报告：

最后，推荐一个Adam King发布的和GPT-2一起玩耍的界面，现场体验774M模型生成效果：

https://talktotransformer.com/

— 完 —

直播 | Style-Gan的架构与实现

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !