文章目录

1 单词作为语言模型的基本单位的缺点
2 character level modeling
3预训练句子向量
- 3.1 skip-thought
- 3.2 InferSent
- 3.3 句子向量评价数据集
4 预训练文档向量
5 ELMO

1 单词作为语言模型的基本单位的缺点

单词量有限，遇到没有见过的单词只能以UNK表示。
模型参数量太大。
对于很多语⾔，例如英语来说，很多时候单词是由⼏个subword拼接⽽成的。
可能的解决方案：subword ； wordpiece

2 character level modeling

Ling et. al, Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation
⽤BiLSTM把单词中的每个字⺟encode到⼀起。

Yoon Kim et. al, Character-Aware Neural Language Models
使用CNN，将一个单词经过模型变成一堆的character。

使⽤subword作为模型的基本单元。subword是将一个单词分成几个子单词

Compositional Morphology for Word Representations and Language Modelling

imperfection = im + perfect + ion
perfectly = perfect + ly

Byte Pair Encoding
Neural Machine Translation of Rare Words with Subword Units
参考博客：url
1 有一张字母表。所有键盘能打印出来的，都算字母。
2 在训练数据集中，找出每一个单词。
例如：我们原始词表如下：
{'l o w e r ': 2, 'n e w e s t ': 6, 'w i d e s t ': 3, 'l o w ': 5}
每个字母中间加上空格。

3 将一个单词中经常出现在一起的字符,统计出来。key是单词拆分层字母，value是出现次数。
第一步发现 s和t同时出现次数最高，所以单词表中w i d e s t 变成了 w i d e st。（st挨在一起）
接着又发现e st 出现次数最高…

这样做的好处是可以控制词表大小，迭代一次，增加一个单词。
理论上来讲，所有的单词都可以使用单词表中的词查找出来。例如 happiest 可以等于 h a p p iest。过LSTM的时候，其embedding等于 emb(h), emb(a), emb§, emb§, emb(i), emb(est)。
查找代码实现：huggingface transformers,找bert相关代码。

中文词向量
腾讯有公开的版本。词向量这样的方法不再流行。
Is Word Segmentation Necessary for Deep Learning of Chinese Representations?
大牛 Jiwei Li Shannon.AI
不需要了

3预训练句子向量

文本分类：

文本通过某种方式变成一个向量：wordavg,lstm,cnn
最后是一个linear layer 300维的句子向量
过一个softmax，做分类

训练一个和Resnet一样的东西，能够取代从文本到向量的这一段。然后应用到其他任务中。
有很多人提出了一些实现方法。

3.1 skip-thought

Kiros et. al, Skip-Thought Vectors

skip-thought与skip-gram的思想相似。两个句⼦如果总是在同⼀个环境下出现，那么这两个句⼦可能有某种含义上的联系。用中心句预测上一句和下一句。

如何把句子map成一个向量：compositional model，RNN, LSTM, CNN, WordAvg, GRU

论文中，把中心句用一个GRU作为编码器编码了，使⽤编码器最后⼀个hidden state来表示整个句⼦。然后使⽤这个hidden state作为初始状态来解码它之前和之后的句⼦。用了解码器。前一句和后一句的解码器不同。

解码器在这里是语言模型。编码器的hidden state参与了每一个门的计算。

我们就可以把encoder当做feature extractor了。

类似的工作还有fastsent。

3.2 InferSent

论文：Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

给定两个句⼦，判断这两个句⼦之间的关系
entailment 承接关系
neutral 没有关系
contradiction ⽭盾
(non_entailment)

3.3 句子向量评价数据集

SentEval ： SentEval: An Evaluation Toolkit for Universal Sentence Representations
句子任务：句子分类sentiment；句子相似度SNLI

senteval的framework：使用你的模型将句子变成向量，senteval会帮你评分。

这个方法被GLUE替换了。刷GLUE榜单。

4 预训练文档向量

基本不做了。事实上研究者在句⼦向量上的各种尝试是不太成功的。主要体现在这些预训练向量并不能⾮常好地提升。
模型在各种下游任务上的表现，⼈们⼤多数时候还是从头开始训练模型。
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data：用文档向量和查询向量计算相关性，用搜索结果排序。

5 ELMO

ELMO paper: https://arxiv.org/pdf/1802.05365.pdf

contextualized word vectors：这是word2vector的加强版。
目前发现word2vector效果不够好。
contextualized word vectors真的有用。
Deep contextualized word representations震惊朋友圈的文章。

先说任务名称：
SQuAD：QA的任务斯坦福大学收集的数据集
SNLI：句子相似性
SRL：
coref：一个名字一个代词，指的是不是同一个主体
NER：命名实体识别
SST-5：斯坦福，情感分类5分类数据集

baseline +ELMO之后分值大幅提升。

ELMO是什么？
是从语言模型学到的embedding。
ELMO有三层。第一层是character CNN，第二层和第三层是LSTM。
EMLO就是对三层做加权平均，得到contextural word vector。

使用方式是：
训练文本->ELMO->词向量->下游任务
$γ\gamma$ 和 $s$ 是可以作为参数，参与训练的。

⼤规模⽆监督预训练语⾔模型与应⽤（上）相关推荐

干货！半监督预训练对话模型 SPACE
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 如何将人类先验知识低成本地融入到预训练模型中一直是个NLP的难题.在本工作中,达摩院对话智能团队提出了一种基于半监督预训练的新训练范式, ...
何恺明一作，刷新7项检测分割任务，无监督预训练完胜有监督
点击我爱计算机视觉标星,更快获取CVML新技术本文转自机器之心. 机器之心报道机器之心编辑部 Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法.在 7 ...
Supervised pre-trainning有监督预训练
如我们有一个分类任务,数据库很小,这时还是需要通过预训练来避免深度模型的过拟合问题的,只不过预训练是通过在一个大的数据库上(比如imagenet),通过有监督的训练来完成的.这种有监督预训练加小的数据 ...
NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...
大连理工IIAU Lab提出SSLSOD：自监督预训练的RGB-D显著性目标检测模型(AAAI 22)
作者丨Lart 编辑丨极市平台导读本文在显著性目标检测任务(SOD)中,首次引入自监督预训练.凭借提出的有效的前置任务(pretext task),在仅使用少量无标签的RGB-D数据进行预训练的情 ...
UP-DETR：收敛更快！精度更高！华南理工微信开源无监督预训练目标检测模型...
关注公众号,发现CV技术之美 0 写在前面基于Transformer编码器-解码器结构的DETR达到了与Faster R-CNN类似的性能.受预训练Transformer在自然语言处理方面取得巨大成 ...
MICCAI 2020 | 基于3D监督预训练的全身病灶检测SOTA（预训练代码和模型已公开）...
关注公众号,发现CV技术之美 ▊ 研究背景介绍由于深度学习任务往往依赖于大量的标注数据,医疗图像的样本标注又会涉及到较多的专业知识,标注人员需要对病灶的大小.形状.边缘等信息进行准确的判断,甚至需要 ...
花书+吴恩达深度学习（二十）构建模型策略（超参数调试、监督预训练、无监督预训练）
目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...
中文预训练ALBERT模型来了：小模型登顶GLUE，Base版模型小10倍、速度快1倍
(图片由AI科技大本营付费下载自视觉中国) 作者 | 徐亮(实在智能算法专家) 来源 | AINLP(ID:nlpjob) 谷歌ALBERT论文刚刚出炉一周,中文预训练ALBERT模型来了,感兴趣的 ...

⼤规模⽆监督预训练语⾔模型与应⽤（上）