AutoRegressive Language Model

  • 回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。AutoRegressive,(AR)模型又称为时间序列模型,数学表达式为:
    y ( t ) = ∑ i = 1 n a i y ( t − i ) + e ( t ) y(t)=\sum_{i=1}^na_iy(t-i)+e(t) y(t)=i=1∑n​ai​y(t−i)+e(t)其中,n表示n阶自回归,AR是一种线性预测。
  • 语言模型(Language Model),语言模型简单来说就是一串词序列的概率分布。具体来说,语言模型的作用是为一个长度为m的文本确定一个概率分布P,表示这段文本存在的可能性。

1 ELMO

  • 《Deep Contextualized Word Representations》
  • 《Semi-supervised sequence tagging with bidirectional language models》
  • It is made in two directions, from left to right and right to left, in two language model directions. And it is an autoregressive LM with two directions respectively, and then splicing the hidden node states of the two directions of LSTM Together to reflect the two-way language model.
    The schematic diagram is as follows:



2 GPT

  • 《Improving Language Understanding by Generative Pre-Training》
  • It has a Multi-layer unidirectional Transformer structure. First, train and generate language models through unlabeled text. Then, fine-tuning the model through labeled data according to specific NLP tasks (such as text implication, QA, text classification, etc).
    The schematic diagram is as follows:



3 DARN

  • We need to perform the decoding part of the top-down traversal model to generate a sample, starting from the deepest hidden layer and sampling a unit layer by layer. Training DARN by minimizing the stored total information used to reconstruct the original input and following the minimum description length principle.
    The schematic diagram is as follows:

4 BERT

  • 《Attention is all you need》

【NLP】AutoRegressive Language Model相关推荐

  1. 【PyTorch】语言模型/Language model

    1 模型描述 (1)语言模型的定义,来自于维基百科 统计式的语言模型是一个几率分布.语言模型提供上下文来区分听起来相似的单词和短语.例如,短语"再给我两份葱,让我把记忆煎成饼"和& ...

  2. 【NLP】一份相当全面的BERT模型精讲

    本文概览: 1. Autoregressive语言模型与Autoencoder语言模型 1.1 语言模型概念介绍 Autoregressive语言模型:指的是依据前面(或后面)出现的单词来预测当前时刻 ...

  3. 【NLP】XLnet:GPT和BERT的合体,博采众长,所以更强

    前面介绍过BERT,作为一种非常成功的预训练模型,取得了非常不错的成绩,那么,他还有改进的空间吗? 本文介绍BERT的改进版,XLnet.看看它用了什么方法,改进了BERT的哪些弱点. 作者& ...

  4. 【NLP】 深入浅出解析BERT原理及其表征的内容

    本篇介绍目前NLP领域里影响力最大的预训练模型BERT.首先,大致介绍了BERT里有什么:接着,介绍了BERT的结构和其预训练的方式:最后,再总结BERT的表征的内容和分布. 作者&编辑 | ...

  5. 【NLP】语言模型和迁移学习

    10.13 Update:最近新出了一个state-of-the-art预训练模型,传送门: 李入魔:[NLP]Google BERT详解​zhuanlan.zhihu.com 1. 简介 长期以来, ...

  6. 【NLP】Google BERT详解

    版权声明:博文千万条,版权第一条.转载不规范,博主两行泪 https://blog.csdn.net/qq_39521554/article/details/83062188 </div> ...

  7. UNISAR: A Unified Structure-Aware Autoregressive Language Model for Text-to-SQL

    简介     Text2SQL(也称为NL2SQL)是一项将用户的自然语句转为可执行 SQL 语句的技术,对改善用户与数据库之间的交互方式有很大意义.Text2SQL的本质,是将用户的自然语言语句转化 ...

  8. 【NLP】一文汇总自然语言处理主要研究方向

    NLP专栏已经发了相当数目的文章,从基础的机器学习到最新的预训练语言模型:从简单的文本分类到复杂的信息抽取.聊天机器人.今天我们做一个回顾和总结,聊聊我们从事的自然语言处理研究或者工作,究竟是怎么一回 ...

  9. 【NLP】关于Transformer的常见问题及解答

    作者 | Adherer 编辑 | NewBeeNLP PDF版文末自行下载哈~ 写在前面 前些时间,赶完论文,开始对 Transformer.GPT.Bert 系列论文来进行仔仔细细的研读,然后顺手 ...

最新文章

  1. CUDA Samples: matrix multiplication(C = A * B)
  2. RabbitMQ(二):RabbitMQ高级特性
  3. 沙盒单机网站代表-Steam【推荐】
  4. 最全的数据结构解析与归纳
  5. .NET 5.0预览版6发布:支持Windows ARM64设备
  6. [Unity脚本运行时更新]C#7.2新特性
  7. LeetCode(225)——用队列实现栈(JavaScript)
  8. echarts-X轴不从0刻度开始 代码实现
  9. 3Ddungeon-------三维搜索-----偷个懒 把 亡命逃窜 的代码修改了一下 拿来用了
  10. 聊聊flink的RestartStrategies
  11. java反汇编_Java虚拟机学习总结(3)——JDK内置工具(jps、jstack、jmap、jstat)使用详解...
  12. Unicode编码详解
  13. 经纬度距离计算小工具_一个NB工具大合集打网站,总有一款是你需要的
  14. 大批驱动管理软件(免安装版)
  15. linux之网络基础
  16. 课堂派“互动课件”文件下载
  17. 平均年薪23万!为什么却很少见程序员炫富?
  18. 华为 Gauss数据库十问
  19. 小米 MIUI系统 安装包 刷机
  20. Mac 安卓投屏Scrcpy使用

热门文章

  1. babel—ES6代码转换为ES5代码
  2. 神经网络模型入门及蠓虫分类问题简单实战
  3. jquery ajax,ashx,json用法小结
  4. Map 和ConcurrentMap 线程不安全和线程安全证明
  5. KubernetesDatabase-k8s中helm方式安装postgresql及pgadmin
  6. 亚像素边缘提取的例子
  7. 缓存雪崩的基于事前+事中+事后三个层次的完美解决方案
  8. PYQT5安装时,labelImg执行pyrcc5 -o libs/resources.py resources.qrc 报错:File does not exist ‘resources.qrc‘
  9. 【面试】被问“怎么进行接口测试”的知识点大全
  10. 国家自然科学基金成果填写经验