5.2自然语言处理

觉得有用的话,欢迎一起讨论相互学习~

吴恩达老师课程原地址

2.1词汇表征 Word representation

  • 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示词汇表中的词汇。

    • 这种表示方法最大的缺点是 它把每个词孤立起来,这样使得算法对相关词的泛化能力不强
  • 例如:对于已知句子“I want a glass of orange ___ ” 很可能猜出下一个词是"juice".
  • 如果模型已知读过了这个句子但是当看见句子"I want a glass of apple ___ “,算法也不能猜出下一个词汇是"juice”,因为算法本身并不知道“orange”和“apple”之间的关系。也许比起苹果,橙子与其他单词之间的距离更近。即算法并不能从“orange juice”是一个很常见的短语而推导出“apple juice”也是一个常见的短语。
  • 这是因为任意两个用“one-hot”编码表示的单词的内积都是0。

特征表示:词嵌入 (Featurized representation: word embedding)

  • 使用特征化的方法来表示每个词,假如使用性别来作为一个特征,用以表示这些词汇和 性别 之间的关系。
Man Woman King Queen Apple Orange
Gender -1 1 -0.95 0.97 0.00 0.01
  • 当然也可以使用这种方法表示这些词汇和 高贵 之间的关系。
Man Woman King Queen Apple Orange
Royal 0.01 0.02 0.93 0.95 -0.01 0.00
  • 使用各种特征对词汇表中的单词进行表示
Man Woman King Queen Apple Orange
Gender -1 1 -0.95 0.97 0.00 0.01
Royal 0.01 0.02 0.93 0.95 -0.01 0.00
Age 0.03 0.02 0.7 0.69 0.03 -0.02
Food 0.09 0.01 0.02 0.01 0.95 0.97
  • 假设为了表示出词汇表中的单词,使用300个特征进行描述,则词汇表中的每个单词都被表示为一个300维的向量。此时使用e_NO.表示特定的单词,例如Man表示为 e 5391 e_{5391} e5391,Woman表示为 e 9853 e_{9853} e9853,King表示为 e 4914 e_{4914} e4914
  • 对于词嵌入的表示形式通过大量不同的特征来表示词汇,在填词处理时,会更容易通过Orange juice而联想到 Apple juice.

可视化词向量 (Visualizing word embedding)

Maaten L V D, Hinton G. Visualizing Data using t-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605):2579-2605.

  • 对于词向量的可视化,是将300维的特征映射到一个2维空间中–t-SNE算法

2.2使用词嵌入 Using word embeddings

  • 继续使用实体命名识别(named entity recognition)的例子,示例:"Sally Johnson is an orange farmer"Sally Johnson 是一个种橙子的农民。对于Sally Johnson,我们能很快识别出这是一个人名,这是因为看到了"orange farmer"这个词,告诉我们Sally Johnson是一个农民。
  • 使用词嵌入的方式,很快能够识别出橙子和苹果是同类事物。在句子“Sally Johnson is an orange farmer”中识别出Sally Johnson是一个人名后,在句子“Robert Lin is an apple farmer”中也可以很容易的识别出Robert Lin是一个人名。
  • 词嵌入文本识别的方法基于的是一个巨大的文本库,只有使用巨量的文本作为训练集的基础上,系统才会真正的有效。一个NLP系统中,使用的文本数量达到了1亿甚至是100亿。
    • 在你的识别系统中,也许训练集只有100K的训练数据,但是可以使用迁移学习的方法,从大量无标签的文本中学习到大量语言知识。

将迁移学习运用到词嵌入 (Transfer learning and word embeddings)

  1. 先从一个非常大的文本集中学习词嵌入,或者从网上下载预训练好的词嵌入模型。
  2. 使用词嵌入模型,将其迁移到自己的新的只有少量标注的训练集的任务中。
  3. 优化模型:持续使用新的数据来微调自身的词嵌入模型。
  • 词嵌入技术在自身的标注训练集相对较少时优势最为明显。在 实体命名识别(named entity recognition),文本摘要(text summarization),文本解析(co-reference resolution),指代消解(parsing)中应用最为广泛语言模型(language modeling), 机器翻译(Machine translation)中应用较少 因为这些任务中,你有大量的数据而不一定需要使用到词嵌入技术。

词嵌入与人脸编码(word embeddings and face encoding)

Taigman Y, Yang M, Ranzato M, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]// IEEE Conference on Computer Vision and Pattern Recognition. IEEE Computer Society, 2014:1701-1708.

  • 词嵌入技术与人脸编码技术之间有奇妙的关系,在人脸编码任务中,通过卷积神经网路将两张人脸图片进行编码成为两个128维的数据向量,然后经过比较判断两张图片是否来自于同一张人脸。

    • 对于人脸识别问题,无论这张图片原先是否认识过,经过卷积神经网络处理后,都会得到一个向量表征。
    • 对于词嵌入问题,则是有一个固定的词汇表,对于词汇表中的每个单词学习一个固定的词嵌入表示方法。而对于没有出现在词汇表中的单词,视其为UNK(unknowed word)

[DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding相关推荐

  1. [DeeplearningAI笔记]序列模型2.3-2.5余弦相似度/嵌入矩阵/学习词嵌入

    5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~Follow Me 2.3词嵌入的特性 properties of word embedding Mikolov T, Yih W T, Zwe ...

  2. [DeeplearningAI笔记]序列模型3.2有条件的语言模型与贪心搜索的不可行性

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~Follow Me 3.2选择最可能的句子 Picking the most likely sentence condition lan ...

  3. [DeeplearningAI笔记]序列模型3.3-3.5集束搜索

    5.3序列模型与注意力机制 觉得有用的话,欢迎一起讨论相互学习~ 吴恩达老师课程原地址 3.3 集束搜索Beam Search 对于机器翻译来说,给定输入的句子,会返回一个随机的英语翻译结果,但是你想 ...

  4. 05.序列模型 W2.自然语言处理与词嵌入(作业:词向量+Emoji表情生成)

    文章目录 作业1: 1. 余弦相似度 2. 单词类比 3. 词向量纠偏 3.1 消除对非性别词语的偏见 3.2 性别词的均衡算法 作业2:Emojify表情生成 1. Baseline model: ...

  5. 05.序列模型 W2.自然语言处理与词嵌入

    文章目录 1. 词汇表征 2. 使用词嵌入 3. 词嵌入的特性 4. 嵌入矩阵 5. 学习词嵌入 6. Word2Vec 7. 负采样 8. GloVe 词向量 9. 情感分类 10. 词嵌入除偏 作 ...

  6. 2020-11-11 吴恩达DL学习-C5 序列模型-W2 自然语言处理与词嵌入(2.9 情绪分类-使用RNN模型,考虑词序)

    1.视频网站:mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c 2.详细笔记网站(中文):http://www.ai-sta ...

  7. 5-3 Coursera吴恩达《序列模型》 第三周课程笔记-序列模型和注意力机制

    上一周的课程5-2 Coursera吴恩达<序列模型> 第二周课程笔记-自然语言处理和词嵌入介绍了自然语言处理相关内容,例如词汇表征.词嵌入.嵌入矩阵和负采样等概念,以及Word2Vec和 ...

  8. 吴恩达深度学习课程第五课笔记——序列模型

    文章目录 第五门课 序列模型 (Sequence Models) 第一周 循环序列模型(Recurrent Neural Networks) 1.1 为什么选择序列模型?(Why Sequence M ...

  9. 【吴恩达深度学习笔记】5.2自然语言处理与词嵌入Natural Language Processing and Word Embeddings

    第五门课 序列模型(Sequence Models) 2.1词汇表征(Word Representation) 词嵌入(word embeddings)是语言表示的一种方式,可以让算法自动的理解一些类 ...

最新文章

  1. [IOS]UIWebView实现保存页面和读取服务器端json数据
  2. Python 的函数
  3. 用Maven管理JavaScript资源
  4. oracle常用表查询,ORACLE EBS常用表及查询语句(最终整理版)
  5. java泛型的作用及其基本概念
  6. Qt|OpenGL对obj文件的认识以及如何去解析(opengl+qt构造地球模型)
  7. zz:NETCONF协议详解
  8. 华为数据之道_数字化与数据治理的典范实践者 | 华为数据之道
  9. 字符型数据与整型数据的混合操作
  10. [原创]Tsys 2.0 beta 官方版无法使用自定义SQ
  11. Docker教程小白实操入门(10)--如何删除一个镜像
  12. 三种方法实现多级撤消/重做
  13. mysql什么是主键和外键?
  14. CAJ格式文献转成PDF格式
  15. ppt太大如何压缩到最小
  16. ikbc c104win键盘失灵以及数字键失灵
  17. 大数据相加_大数据的相加和相乘
  18. 2020年9月全国计算机二级c语言题库,2020年9月全国计算机等级考试二级C语言上机题库(共95套全)(76页)-原创力文档...
  19. 神武手游宠物加点方法及属性参考
  20. Android App Widget 开发

热门文章

  1. python处理文件夹图片重命名问题
  2. 如何为PDF文件添加注释?
  3. 解决在ArcToolbox工具运行无结果的问题
  4. 黑马程序员——UI基础纪要
  5. 第十届蓝桥杯国赛C/C++ 大学B组 试题C: 拼接
  6. 基于PHP的养老院管理系统
  7. c语言怎样计算栈的长度,C语言 栈的表示和实现详细介绍
  8. 教师进行计算机培训的意义,对我校教师应用计算机、多媒体进行教学的培训与反思...
  9. HOG 特征提取算法(实践篇)
  10. 计算机专业英语第四版教程课文翻译,计算机专业英语教程(第4版)译文8.1