有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

作图属实不易!

ELMo 讲解

ELMo 的核心思想是,基于深度语言模型进行训练,学习不同语境下的词向量用于更好地配合下游任务。

ELMo 的主要创新点在于结合双向语言模型(Bidirectionbbal Language Model,BiLM)和深度模型以解决一词多义的问题。双向语言模型使得 ELMo 捕捉来自上文和下文的信息;借助深度学习的思想,ELMo 对双向语言模型深度化,通过多层 BiLM 的堆叠来获取不同层次的特征。这两点创新使得作为第二代预训练模型(pre-trained model)之一的 ELMo 不同于第一代预训练模型(如Word2Vec等),第一代预训练模型也被认为是静态模型,它们为一个单词分配一个词向量,这无法处理单词在不同语境下一词多义的情况,而动态模型 ELMo 可以根据每次输入句子的不同,输出不同的词向量,很好地解决了一词多义的问题。

本文不具体区分“词嵌入”和“词表示”等概念,对应英文中的“word embedding”和“word representation”,统一用“词向量”表达,不影响理解。

严谨来说,“word representation”的概念是大于“word embedding”的,“embedding”是“representation”的具体一种,“representation”可以有很多,比如“one-hot”。但是也有很多文献不对二者进行细致区分。

结构

【自然语言处理】ELMo 讲解相关推荐

  1. [深度学习]自然语言处理 --- ELMo

    原文链接:Deep contextualized word representations ELMO,是Embedding from Language Model的缩写( Peters等人,2018年 ...

  2. 自然语言处理 - ELMo

    1. 提出背景 在2013年的word2vec及2014年的GloVe的工作中,每个词对应一个vector,对于多义词无能为力.ELMo的工作对于此,提出了一个较好的解决方案.不同于以往的一个词对应一 ...

  3. 【自然语言处理】BERT 讲解

    有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 在阅读本篇之前建议先学习: [自然语言处理]Seq2Seq 讲解 [自然语言处理]Attention 讲解 [自然语言处理]ELMo 讲解 ...

  4. 如何兼容自训练与预训练:更高效的半监督文本分类模型

    论文标题: Neural Semi-supervised Learning for Text Classification Under Large-Scale Pretraining 论文作者: Zi ...

  5. 用计算机处理信息教学反思,《人工智能处理信息》教学反思

    作业内容 <用智能工具处理信息>教学反思 <用智能工具处理信息>的学习目标是:1.初步了解人工智能的概念.2.知道人工智能的两个研究领域"自然语言理解"和& ...

  6. November 2008

    文哥十一月在听什么? 魔神英雄伝ワタル ed 君に止まらない.mp3 d51 セピア.mp3 zard - 心魅かれてく - 龙珠 gt 开场曲 dan dan.wma セピアの教室.mp3 超魔神英 ...

  7. NLP之PTM:自然语言处理领域—预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transfo→GPT系列/BERT系列等)、关系梳理、模型对比之详细攻略

    NLP之PTM:自然语言处理领域-预训练大模型时代的各种吊炸天大模型算法概述(Word2Vec→ELMO→Attention→Transformer→GPT系列/BERT系列等).关系梳理.模型对比之 ...

  8. 【一文讲解深度学习】语言自然语言处理(NLP)第一篇

    [一文讲解深度学习]语言自然语言处理(NLP) 博主介绍 自然语言处理概述 NLP 的定义 NLP的主要任务 分词 词义消歧 识别物体识别(NER) 词性标注(PoS) 文本分类 语言生成 问答(QA ...

  9. 【自然语言处理】Transformer 讲解

    有任何的书写错误.排版错误.概念错误等,希望大家包含指正. 在阅读本篇之前建议先学习: [自然语言处理]Seq2Seq 讲解 [自然语言处理]Attention 讲解 Transformer 为了讲解 ...

最新文章

  1. linux 任务计划 权限设置,Linux系统 文件权限+计划任务+日志系统
  2. html标准模式与混杂模式,关于Doctype、严格模式与混杂模式
  3. TensorFlow Lattice:灵活、可控、可解释的机器学习
  4. Shell tips
  5. 把项目从VS2005升级到VS2013
  6. mysql设置slave复制_mysql5.5建立主从复制(setupmaster-slavereplication)_MySQL
  7. 深度学习(二)——深度学习常用术语解释, Neural Network Zoo, CNN, Autoencoder
  8. 5 个常用的软件质量指标
  9. sqlserver导入execl数据ACE.OLEDB.12.0错误
  10. notion自建服务器,最详细的NOTION功能模块列表
  11. 你想面试运维看一下你合格了吗?
  12. 设有一个 Student 数据库,包括 数据库,包括 学生 , 课程 , 选修三个关系: 三个关系: 学生 学生:S ( Sno ,Sname ,Ssex ,Sage,Sdept ) 课程 课程:
  13. localdatetime 后一天_LocalDateTime 获取上个月最后第一天及最后一天
  14. 广义线性模型之指数分布族期望和方差的推导
  15. 水花兄弟又凑齐了(20220111 Week2-1)
  16. “黑洞事件”持续发酵,视频版权保护又有哪些门道?
  17. 主板上还剩啥?CPU整合GPU/北桥/南桥
  18. 使用x-switch进行代理
  19. java 自动生成条形码_JAVA生成商品条形码
  20. Linux触摸屏动效

热门文章

  1. PPT中如何制作两圆交叉阴影图
  2. 多线程基础:两种实现方式
  3. 8B/10B编码原理详解、Verilog实现及在JESD204B中的应用
  4. SQL Server 如何启用sa账户
  5. 500以内的蓝牙降噪耳机哪款好?高性价比降噪蓝牙耳机分享
  6. 机器学习之线性回归原理详解、公式推导(手推)、简单实例
  7. java 日期获取时间戳
  8. MATLAB操作:从.mat中删除变量
  9. Android 语音播报 , 百度在线语音合成封装;
  10. Java 利用Calender类制作日历,并且标注日期