文章目录

  • 1 单词作为语言模型的基本单位的缺点
  • 2 character level modeling
  • 3预训练句子向量
    • 3.1 skip-thought
    • 3.2 InferSent
    • 3.3 句子向量评价数据集
  • 4 预训练文档向量
  • 5 ELMO

1 单词作为语言模型的基本单位的缺点

单词量有限,遇到没有见过的单词只能以UNK表示。
模型参数量太大。
对于很多语⾔,例如英语来说,很多时候单词是由⼏个subword拼接⽽成的。
可能的解决方案:subword ; wordpiece

2 character level modeling

Ling et. al, Finding Function in Form: Compositional Character Models for Open Vocabulary Word Representation
⽤BiLSTM把单词中的每个字⺟encode到⼀起。

Yoon Kim et. al, Character-Aware Neural Language Models
使用CNN,将一个单词经过模型变成一堆的character。

使⽤subword作为模型的基本单元。subword是将一个单词分成几个子单词

Compositional Morphology for Word Representations and Language Modelling

imperfection = im + perfect + ion
perfectly = perfect + ly

Byte Pair Encoding
Neural Machine Translation of Rare Words with Subword Units
参考博客:url
1 有一张字母表。所有键盘能打印出来的,都算字母。
2 在训练数据集中,找出每一个单词。
例如:我们原始词表如下:
{'l o w e r ': 2, 'n e w e s t ': 6, 'w i d e s t ': 3, 'l o w ': 5}
每个字母中间加上空格。

3 将一个单词中经常出现在一起的字符,统计出来。key是单词拆分层字母,value是出现次数。
第一步发现 s和t同时出现次数最高,所以单词表中w i d e s t 变成了 w i d e st。(st挨在一起)
接着又发现e st 出现次数最高…

这样做的好处是可以控制词表大小,迭代一次,增加一个单词。
理论上来讲,所有的单词都可以使用单词表中的词查找出来。例如 happiest 可以等于 h a p p iest。过LSTM的时候,其embedding等于 emb(h), emb(a), emb§, emb§, emb(i), emb(est)。
查找代码实现:huggingface transformers,找bert相关代码。

中文词向量
腾讯有公开的版本。词向量这样的方法不再流行。
Is Word Segmentation Necessary for Deep Learning of Chinese Representations?
大牛 Jiwei Li Shannon.AI
不需要了

3预训练句子向量

文本分类:

  • 文本通过某种方式变成一个向量:wordavg,lstm,cnn
  • 最后是一个linear layer 300维的句子向量
  • 过一个softmax,做分类

训练一个和Resnet一样的东西,能够取代从文本到向量的这一段。然后应用到其他任务中。
有很多人提出了一些实现方法。

3.1 skip-thought

Kiros et. al, Skip-Thought Vectors

skip-thought与skip-gram的思想相似。两个句⼦如果总是在同⼀个环境下出现,那么这两个句⼦可能有某种含义上的联系。用中心句预测上一句和下一句。

如何把句子map成一个向量:compositional model,RNN, LSTM, CNN, WordAvg, GRU

论文中,把中心句用一个GRU作为编码器编码了,使⽤编码器最后⼀个hidden state来表示整个句⼦。然后使⽤这个hidden state作为初始状态来解码它之前和之后的句⼦。用了解码器。前一句和后一句的解码器不同。

解码器在这里是语言模型。编码器的hidden state参与了每一个门的计算。

我们就可以把encoder当做feature extractor了。

类似的工作还有fastsent。

3.2 InferSent

论文:Supervised Learning of Universal Sentence Representations from Natural Language Inference Data

给定两个句⼦,判断这两个句⼦之间的关系
entailment 承接关系
neutral 没有关系
contradiction ⽭盾
(non_entailment)

3.3 句子向量评价数据集

SentEval : SentEval: An Evaluation Toolkit for Universal Sentence Representations
句子任务:句子分类sentiment;句子相似度SNLI

senteval的framework:使用你的模型将句子变成向量,senteval会帮你评分。

这个方法被GLUE替换了。刷GLUE榜单。

4 预训练文档向量

基本不做了。事实上研究者在句⼦向量上的各种尝试是不太成功的。主要体现在这些预训练向量并不能⾮常好地提升。
模型在各种下游任务上的表现,⼈们⼤多数时候还是从头开始训练模型。
Learning Deep Structured Semantic Models for Web Search using Clickthrough Data:用文档向量和查询向量计算相关性,用搜索结果排序。

5 ELMO

ELMO paper: https://arxiv.org/pdf/1802.05365.pdf

contextualized word vectors:这是word2vector的加强版。
目前发现word2vector效果不够好。
contextualized word vectors真的有用。
Deep contextualized word representations震惊朋友圈的文章。

先说任务名称:
SQuAD:QA的任务 斯坦福大学收集的数据集
SNLI:句子相似性
SRL:
coref:一个名字一个代词,指的是不是同一个主体
NER:命名实体识别
SST-5:斯坦福,情感分类5分类数据集

baseline +ELMO之后分值大幅提升。

ELMO是什么?
是从语言模型学到的embedding。
ELMO有三层。第一层是character CNN,第二层和第三层是LSTM。
EMLO就是对三层做加权平均,得到contextural word vector。

使用方式是:
训练文本->ELMO->词向量->下游任务
γ\gammaγsss是可以作为参数,参与训练的。

⼤规模⽆监督预训练语⾔模型与应⽤(上)相关推荐

  1. 干货!半监督预训练对话模型 SPACE

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 如何将人类先验知识低成本地融入到预训练模型中一直是个NLP的难题.在本工作中,达摩院对话智能团队提出了一种基于半监督预训练的新训练范式, ...

  2. 何恺明一作,刷新7项检测分割任务,无监督预训练完胜有监督

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转自机器之心. 机器之心报道 机器之心编辑部 Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法.在 7 ...

  3. Supervised pre-trainning有监督预训练

    如我们有一个分类任务,数据库很小,这时还是需要通过预训练来避免深度模型的过拟合问题的,只不过预训练是通过在一个大的数据库上(比如imagenet),通过有监督的训练来完成的.这种有监督预训练加小的数据 ...

  4. NeurIPS 2022 | 清华提出P2P:基于预训练图像模型的点到像素提示学习方法

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...

  5. 大连理工IIAU Lab提出SSLSOD:自监督预训练的RGB-D显著性目标检测模型(AAAI 22)

    作者丨Lart 编辑丨极市平台 导读 本文在显著性目标检测任务(SOD)中,首次引入自监督预训练.凭借提出的有效的前置任务(pretext task),在仅使用少量无标签的RGB-D数据进行预训练的情 ...

  6. UP-DETR:收敛更快!精度更高!华南理工微信开源无监督预训练目标检测模型...

    关注公众号,发现CV技术之美 0 写在前面 基于Transformer编码器-解码器结构的DETR达到了与Faster R-CNN类似的性能.受预训练Transformer在自然语言处理方面取得巨大成 ...

  7. MICCAI 2020 | 基于3D监督预训练的全身病灶检测SOTA(预训练代码和模型已公开)...

    关注公众号,发现CV技术之美 ▊ 研究背景介绍 由于深度学习任务往往依赖于大量的标注数据,医疗图像的样本标注又会涉及到较多的专业知识,标注人员需要对病灶的大小.形状.边缘等信息进行准确的判断,甚至需要 ...

  8. 花书+吴恩达深度学习(二十)构建模型策略(超参数调试、监督预训练、无监督预训练)

    目录 0. 前言 1. 学习率衰减 2. 调参策略 3. 贪心监督预训练 4. 贪心逐层无监督预训练 如果这篇文章对你有一点小小的帮助,请给个关注,点个赞喔~我会非常开心的~ 花书+吴恩达深度学习(十 ...

  9. 中文预训练ALBERT模型来了:小模型登顶GLUE,Base版模型小10倍、速度快1倍

    (图片由AI科技大本营付费下载自视觉中国) 作者 | 徐亮(实在智能算法专家)  来源 | AINLP(ID:nlpjob) 谷歌ALBERT论文刚刚出炉一周,中文预训练ALBERT模型来了,感兴趣的 ...

最新文章

  1. 映入眼帘的JSON-fastjson常见用法
  2. GPT-3距离下一代AI生态平台还有多远?
  3. 阻抗匹配工具_工具 | 9R Fret Polishing Wheels 品丝抛光轮
  4. LINQ根据某字段GroupBy
  5. 史上最全Python课程整理——我是如何从编程小白到Python研发工程师的
  6. 运营必备,系统运营知识有这篇就够了!
  7. 【项目管理】知识域在过程组中的体现
  8. 前端读者 | 从一行代码里面学点JavaScript
  9. IIS6.0相关漏洞复现
  10. 瞅瞅Levels.fyi发布的2020年度程序员收入报告
  11. 【hud3966】树剖模板05
  12. 北大元培学院数学与计算机,通识教育试验的尴尬 北京大学元培学院近距离观察...
  13. AD软件——设计总结(差分布线,蛇形布线)
  14. Yii Framework 开发教程(35) Zii组件-Button示例
  15. 使用python批量修改图片名称
  16. 计算机excel基础知识教程,EXCEL基本操作技巧 一
  17. 运算符优先级(总结)关于与的区别 ||与|的区别
  18. 基于TMI8421的3D打印机步进电机解决方案
  19. 传统企业想要实现数字化转型,主要包含以下几大趋势?
  20. 【Unity】由预制体实例获取预制体资源及预制体资源路径

热门文章

  1. 查看SELinux状态
  2. Spring自动装配----注解装配----Spring自带的@Autowired注解
  3. oracle 本地使用命令导入数据到远程主机
  4. SpringBoot如何切换Redis默认库
  5. html检查输入为空,html input输入验证不为空
  6. php 顺序结构,顺序存储结构php实现
  7. springboot health检查
  8. C# CKEditor、CKFinder集成使用
  9. jquery调用WCF
  10. js声明php变量,vue.js怎样声明变量