导读:一提到NLP算法,必须手推bert模型。当小白问起bert与word2vec之间的区别时,如何简单易懂的说明这个问题呢?接下来,我将尝试说明。
首先,word2vec将中文转变为可计算的向量,需要说明的是使用不同语料训练的word2vec不尽相同,需要看自己的任务文本和通用w2v训练使用的文本差距;bert预训练模型则是根据上下文训练出来的词向量,在同一个语料中每个token是不固定的,关于本部分细节可以查看层次softmax和霍尔曼编码相关知识。bert通过预训练,训练神经网络的隐藏层,使用隐藏层权重作为词向量,使用该模型时候就像查字典,每个token对应一个词向量,每次查完字典以后还要回到模型里再计算,这个计算就可以把整个语境计算进去,因此称为语境化的向量,这也就是大家说的bert是结合了语境了的,就是一个词在不同的句子里且在相同的bert模型中,输出的词向量是不一样的。所以说,bert比word2vec更加先进。
(1)为什么bert有3个嵌入层(Embedding),它们如何实现?
首先3个嵌入层分别为Token Embedding、Segment Embedding和Position Embedding。
首先,bert将输入文本中的每一个词(token)送入token embedding层从而将每一个词转换成词向量的形式,但不同于其它模型,bert多了2个嵌入层即segment embedding和position embedding。
首先说一下,token embedding实现过程,输入文本首先进行tokenization处理,此外,2个特殊的token会被插入tokenization的结果的开头([CLS])和([SEP]),它们为后面分类任务和划分句子对服务。
Token Embedding层将每一个wordpiece token转换成768维的向量。
其次,bert使用segment embeddings实现句子对中2个句子的区分。segment embeddings层只有2种向量表示,前一个向量是把0赋给第一个句子中的各个token,后一个向量把1赋给第二个句子的token。
第三,加入position embedding可以让bert理解,不同句子中出现的同一个单词的含义。
总结:bert能够处理最长512个token的输入序列,position embeddings layer实际上是一个大小为(512,768)的lookup表。
第一个嵌入是为了获得词的向量表示;第二个是为了区分句子对中2个句子的向量表示;第三个是为了让bert学习到输入的顺序属性。

跟着我一起背NLP算法八股文_bert篇相关推荐

  1. 【资源】NLP 算法工程师相关的面试题

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要4分钟 跟随小博主,每天进步一丢丢 作者 | songyingxin https://github.com/songyingxin/NLPer- ...

  2. 收藏 | 700页NLP算法在百度、阿里、腾讯等一线大厂的最佳实践!PDF限时领!

    NLP算法在百度.阿里.腾讯等一线大厂的最佳实践? NLP以及知识图谱在业界的进展? 下阶段我们的发展方向有哪些? 今天,2020 DataFunTalk 精选: <NLP算法在业界的应用实践合 ...

  3. 北京/上海内推 | 字节跳动AI Lab招聘NLP算法模型优化方向实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 字节跳动 日常维护 star 数 1.8k 的开源项目 https://g ...

  4. Java入门算法(动态规划篇2:01背包精讲)

    本专栏已参加蓄力计划,感谢读者支持❤ 往期文章 一. Java入门算法(贪心篇)丨蓄力计划 二. Java入门算法(暴力篇)丨蓄力计划 三. Java入门算法(排序篇)丨蓄力计划 四. Java入门算 ...

  5. nlp算法文本向量化_NLP中的标记化算法概述

    nlp算法文本向量化 This article is an overview of tokenization algorithms, ranging from word level, characte ...

  6. 薪资不逊NLP算法岗,边缘AI火了!

    众所周知,深度神经网络模型被广泛应用在图像分类.物体检测,目标跟踪等计算机视觉任务中,并取得了巨大成功. 随着不同场景的需求变得更加多样,越来越多的IoT设备和场景需要与数据采集点以最接近的低时延来进 ...

  7. 别再搜集面经啦!小夕教你斩下NLP算法岗offer!

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  8. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(19.11.21更新)

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

  9. 别求面经了!小夕手把手教你如何斩下和选择NLP算法岗offer!(2020.4.14更新)...

    推完上一篇文章,订阅号和知乎后台有好多小伙伴跟小夕要面经(还有个要买简历的是什么鬼),然鹅小夕真的没有整理面经呀,真的木有时间(。 ́︿ ̀。).不过话说回来,面经有多大用呢?最起码对于NLP岗位的面 ...

最新文章

  1. 在R中子集化数据框的5种方法
  2. wxWidgets:wxTreeCtrl概述
  3. 01_Nginx安装,nginx下部署项目,nginx.conf配置文件修改,相关文件配置
  4. linux下ls出现文件的后缀有@,* ,/之类的解释
  5. 关于个人防火墙的真相
  6. mysql longblob_Mysql LONGBLOB 类型存储二进制数据 (修改+调试+整理)
  7. Python:字符串、列表、元组、字典之间的相互转换
  8. AutoCAD2012完全自学教程(牟艳霞)PDF+视频+素材+效果
  9. 代码实现抖音时钟罗盘
  10. 弯曲时空量子场论的历史与现状 (上)
  11. android 当手柄打游戏,玩手游需不需要配手柄?谈移动游戏外设的三个机会
  12. Java中的锁有哪些?
  13. 明星危机公关应该怎么做?
  14. 寻找四叶草HTML5小游戏,寻找四叶草作文(8篇)
  15. Firefly-RK3288开发板Android编译环境搭建开荒
  16. 无线路由器经常掉线怎么办
  17. 公司规定所有接口都用 POST请求,这是为什么?
  18. 漫谈 MQ:要消息队列(MQ)有什么用?
  19. 外汇交易方式与赚钱技巧 , 货币对的了解 , 如何建立稳定盈利
  20. MySQL数据库视频教程之扛得住的MySQL数据库架构

热门文章

  1. 中国互联网金融协会挂牌在即
  2. 棋盘覆盖问题 java_Java棋盘覆盖问题
  3. 网页大作业代码自取【HTML+CSS制作美味糖果网站】
  4. 图像处理笔记(2)---- OpenCV imread函数详解
  5. 从零开始,到完全胜任alipay支付模块开发之知识点补充(第一篇)
  6. KIVICUBE,WebAR挺好玩的哈
  7. 北测教育软件测试职业教育专栏开通了
  8. java nested_Java 里的 nested exception 如何理解?
  9. swift - YYCache 之 YYDiskCache
  10. Leetcode215 寻找数组中第K大的数