目录

  • 总结
  • GPT: Improving Language Understanding by Generative Pre-Training
  • GPT-2: Language Models are Unsupervised Multitask Learners
  • GPT-3: Language Models are Few-Shot Learners

内容整理自:https://www.bilibili.com/video/BV1AF411b7xQ?spm_id_from=333.999.0.0
大家有时间还是去看李沐大佬讲,才一个半小时,收获很多~~~

总结

GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于:
模型一个比一个大,数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot

GPT: Improving Language Understanding by Generative Pre-Training

论文:链接(使用通用的预训练模型来提升语言理解能力)

目前NLU(Natural Language Understanding)方向的局限性:有标签的数据相对较少,限制了模型性能的提升。