文章目录
前言
关于GPT-2
各个版本的GTP-2
中文版GTP-2
语料链接
15亿参数版GPT-2
OpenGPT-2
前言
GPT-2这个名字不知有多少人知道。但有很多人应该都知道埃隆 • 马斯克的OpenAI吧。

OpenAI,由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后,决定共同创建OpenAI,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得·泰尔(Peter Thiel)以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

对,就是这个公司。GPT-2就是他们著名的研究项目之一。GPT-2通过深度学习来使机器模拟生成一段文字。散文、诗歌、古诗、新闻、说明文等等都不在话下,并且完全区分不出是机器写的还是人写的。一旦将此项目开源,肯定会有人使用此项目造价,整个社会将没有信任。而正是因为这个原因,OpenAI取消了此项目的开源。但是,仍有一些人复制出了GPT-2。而今天,咱们就来聊聊这个项目并且透漏一下其他版本开源的地址。

关于GPT-2
刚才只是浅谈了一下GTP-2,现在来正式介绍一下。

GPT-2,逆天的语言AI模型,编故事以假乱真,问答翻译写摘要都行。问世之后横扫各大语言建模任务,引发了大量关注以及研究者跟进研究。之后,围绕着GPT-2产生了各种实用性应用:比如能够自动补全代码的Deep TabNine;高中生开源轻量级GPT-2“客户端”等等。现在,又有两个围绕这一语言AI模型的成果出现。一是中文版GPT-2开源(非官方),可以写诗,新闻,小说、剧本,或是训练通用语言模型;二是,两名硕士研究生花5万美元复制了OpenAI一直磨磨唧唧开源的15亿参数版GPT-2。

各个版本的GTP-2
顺便在此处说明了一下。我的这篇文章不仅仅是要公布出来,还要留给我自己参考一下,尤其是一些内容值得参考。

中文版GTP-2
GPT-2发布以来,虽然关注甚多,但在中文语境中的应用非常少。最直接的因素,就在于没有中文版,或者说是没有人基于中文语料去大规模复现。现在,有人这样做了。一位名叫”Zeyao Du“(位于南京)的开发者,在GitHub上开源了的GPT-2 Chinese。可以用于写诗、新闻、小说和剧本,或是训练通用语言模型。

项目中默认使用BERT的tokenizer处理中文字符,支持字为单位或是分词模式或是BPE模式,并支持大语料训练。目前项目主要架构已经稳定,具体的训练语料,作者也附上了相应的语料链接:

语料链接
语料名称    链接
大规模中文自然语言处理语料    https://github.com/brightmart/nlp_chinese_corpus
中文文本分类数据集    http://thuctc.thunlp.org/#获取链接
斗破苍穹语料    https://github.com/GaoPeng97/transformer-xl-chinese/tree/master/data/doupo
15亿参数版GPT-2
此模型大大恢复了原版。能够实现逆天效果GPT-2模型,用到了15亿个参数。在发布这一模型的时候,OpenAI说,这个模型实在太厉害了,要慢慢开源。于是就开始了“挤牙膏”开源之旅,从今年2月到现在,才开源到了7.74 亿参数版本。这一路上,有不少人都表示非常难以忍耐。慕尼黑工业大学的一名大三本科生,在两个月的时间里,付出了200个小时的时间,花费了大约6000人民币,复现了GPT-2项目,并在7月初放出了15亿参数的版本。至于效果如何,并没有太多展示。但要注意的是,此项目仅有英文版。

OpenGPT-2
现在,又有人忍不住了。有两名布朗大学的硕士研究生,搞出了一个15亿参数的GPT-2模型,命名OpenGPT-2,还放出来了效果对比。

搞出来之后,他们在博客中说,其实想要复制GPT-2并不难,绝大多数感兴趣的人都可以复制。比如,他们就可以复现论文中的很多结果,而且并没有语言建模的经验。当然,得有钱。他们完整复制出来,花了大约5万美元,还只是云端训练成本。具体的复制难点有两个,一是模型,二是数据。

模型上面,他们基于Grover模型,并写出了论文,对代码库进行修改,来实现GPT-2的语言建模训练的目标。因为Grover的模型是在类似的大型语料库上训练的,所以很多代码和超参数都可以重复使用。他们并没有大幅改变其中的超参数。

数据集方面,在很大程度上都保证了与OpenAI的处理方式相同,但并不能保证其中细节相同,最后得出了数据集OpenWebTextCorpus。

但是呢,想有这个模型的你,得先做心理准备。原作者把项目放在了谷歌Colab上。

名称    链接
Google Colab    https://colab.research.google.com/drive/1esbpDOorf7DQJV8GXWON24c-EQrSKOit
模型权重    https://drive.google.com/drive/u/0/folders/1KfK5MXtvgH8C615UUZoKPIUVJYIdJxX1
如此做出来的模型,效果如何?从下图上来看,在多个数据集上困惑度都与GPT-2原版接近:

也就是说,定性维度上,就仁者见仁智者见智了,在Reddit上有人支持,但也有人觉得他们的模型效果不好。

这两位硕士研究生,也在博客中放了一个与官方GPT-2一样的案例:
给出 Recycling is good for the world. NO! YOU COULD NOT BE MORE WRONG!!的提示。

OpenGPT-2给出的结果如下:

That´s because recycling is all about selling to customers who cannot afford to recycle. If you don’t have any interest in recycling, in whatever form, then you could well be doing your own global environmental benefit if you just got rid of it.
Let me explain. Recycling takes time, money and energy, and it doesn’t really solve the problem.
If you go to recycling drop-off shops and they just sort out your recyclables for you then it means there is no need to sell them again to the local recycling company; they just take it back from you and you can just dump it.
There is nothing clever about this approach, in fact it just shuffles the problem around instead of solving it.
……

有一些语句,体现出了那种非常亲近人的感觉。很像真人写的。
————————————————
版权声明:本文为CSDN博主「index out of range」的原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_45415111/article/details/103100757

谈GPT-2(附大量网址)相关推荐

  1. 好消息:Sci-Hub解封了!可以看2021新文献了!附可用网址

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 好消息! 昨天, Sci-hub 的十周年生日,加之刚好它在印度的诉讼禁令也已解除,所以创始人Alex ...

  2. Qt安装及配置_很详细(附下载网址)

    一.下载软件 1.qt-creator-win-opensource-2.3.1.exe  下载网址:http://download.csdn.net/detail/huoguofeng/383885 ...

  3. Sci-Hub十周年迎来解封!科研er的福音!附可用网址!

    9月果然是好月份,在月初我们不仅迎来了Sci-Hub十周岁生日,更是迎来了解封的好消息!作为一个科研er真是太激动了! 为了庆祝10周年,创始人Alexandra Elbakyan表示将在Sci-Hu ...

  4. 张峥、小白谈GPT与人工智能:可能是好事,也可能不是

    张峥.小白(章静绘) 最近几个月,以ChatGPT为代表的聊天机器人引起全世界的广泛关注.GPT是如何工作的?它会有自我意识吗?人工智能将对我们的社会.文化.知识系统造成何种冲击和重构?奇点到了吗?未 ...

  5. 2021年盐城高考成绩查询系统,2021年盐城工学院录取结果查询,附查询网址入口

    一.2020年盐城工学院录取结果查询 2020年安徽高考结束后很多考生都想知道,今年盐城工学院 录取结束结果什么时候可以查询,下面是盐城工学院录取结果的查询网址: 盐城工学院录取结果查询网址入口:ht ...

  6. 2021年高考临沂成绩查询,2021年临沂大学录取结果查询,附查询网址入口

    一.2020年临沂大学录取结果查询 2020年安徽高考结束后很多考生都想知道,今年临沂大学 录取结束结果什么时候可以查询,下面是临沂大学录取结果的查询网址: 临沂大学录取结果查询网址入口:https: ...

  7. 2021年本溪高中高考成绩查询入口,2021年本溪中考录取结果查询,什么时候出来附查询网址入口...

    中考志愿填报结束后很多小伙伴们都在焦急的等待录取结果,那么2019年本溪中考录取结果什么时候出来呢?本溪中考录取结果什么时候公布,如何查询呢,以及本溪中考录取结果查询方式和入口是什么?本文小编就问你整 ...

  8. myeclipse 9.0正式版,提供个可下载的网址(附激活方法+汉化包),MyEclipse官方网站打不开(解决办法)

    MyEclipse 9.0 for Windows 下载地址: http://downloads.myeclipseide.com/downloads/products/eworkbench/heli ...

  9. 浅谈GWAS分析后的富集分析操作(GO/KEGG)

    浅谈GWAS分析后的富集分析操作(GO/KEGG) 作者:刘济铭 ######################## 在我们完成全基因组关联分析后,常常筛选得到特定性状的基因集,接下来,通常我们需要开展 ...

最新文章

  1. JAVA实现 springMVC方式的微信接入、实现消息自动回复
  2. 英伟达一大波硬件来袭:今日GTC发布专业GPU与DPU,为收购ARM将在英国建超算
  3. 02- 流行歌曲 最新热门
  4. 用Freemind画“脑图”
  5. 数据结构-队列之顺序队列
  6. 编制一个函数jsValue(),求出千位数上的数减百位数上的数减十位数上的数减个位数上的数大于零的个数cnt,再求出所有满足此条件的四位数的平均值pjz1,以及不满足此条件的四位数的平均值pzj2
  7. 牛客网刷题(纯java题型 211~240题)
  8. SAP License:SAP概念辨识
  9. 【PAT】1001 害死人不偿命的(3n+1)猜想
  10. python标准库——datetime模块
  11. IMX8 Audio声卡
  12. maven项目中:java.io.IOException: java.io.FileNotFoundException--- (文件名、目录名或卷标语法不正确。)
  13. 【中医学】8 中药-1
  14. html字体库的是引入----阿里妈妈
  15. NPOI 多个Excel合并为一个Excel
  16. 计算机专业教师技能比赛,青年教师展风采,技能比赛促提升
  17. view的superview的变换
  18. word自动添加题注,带章节编号并根据章节重新开始编号
  19. 新疆苹果服务器不稳定,乌鲁木齐市民反映:苹果系统升级后自动选择新疆时区...
  20. Windows下查看Android手机APP日志

热门文章

  1. LightGBM和XGBoost使用scale_pos_weight处理不平衡数据源码分析
  2. 多线程 阻塞队列中的poll与take区别
  3. GBDT算法原理及附有源码实现的 转
  4. 机器学习理论导引 线上阅读
  5. Class.forName( )你搞懂了吗?——转
  6. ArXiv 2020 年 Top10 论文 | 智源社区AI周刊#054
  7. 论坛报名 | 寻找机器感知的最新突破
  8. 著名统计学家Donald B. Rubin:机器是否可以思考甚至具有意识?
  9. 一本可能提升思考水平 10 倍的书
  10. 如何规划令人流连忘返的网站?