文章目录

  • 一、前提
  • 二、Text to Sequence(文本处理)
    • 2.1 Tokenization(分词)
    • 2.2 Build Dictionary(建立一个字典)
    • 2.3 One-Hot Encoding
    • 2.4 Align Sequences(对齐序列)
  • 三、Word Embedding: Word to Vector(词嵌入:把单词表示成低维向量)
    • 3.1 One-Hot Encoding(one-hot 编码)
    • 3.2 Word Embedding(词嵌入)
  • 四、Logistic Regression for Binary Classification(用逻辑回归做二分类)
    • 4.1 Performance on the training and validation sets(训练和验证集的表现)
    • 4.2 Performance on test set(测试集表现)
    • 4.3 Logistic Regression for Sentiment Analysis

一、前提

The IMDB Movie Review Dataset

  • 50K movie reviews (text).
  • Each review is labeled with either "positive"or “negative”.
  • It is a binary classification problem.(二分类问题)
  • 25K for training and 25K for test.

http://ai.stanford.edu/~amaas/data/sentiment/

http://s3.amazonaws.com/text-datasets/acllmdb.zip

二、Text to Sequence(文本处理)

文本处理的好坏直接影响机器学习的准确率

2.1 Tokenization(分词)

  • 把文本分隔为单词。
  • 一个token(符号)就是一个单词或者字符。

2.2 Build Dictionary(建立一个字典)

可以首先统计词频,去掉低频词,然后让每一个单词对应每一个正整数,有了字典,就可以把每一个单词映射为每一个整数,这样一句话就可以用正整数的列表表示。而这个列表被称为sequences(序列)

2.3 One-Hot Encoding

如果有必要,可以进一步做one-hot encoding,把单词变为one-hot向量。

2.4 Align Sequences(对齐序列)

训练数据没有对齐,每个序列都有不同的长度,在做机器学习的时候,我们把数据存储在矩阵或者张量中,这就需要把序列对齐,每条序列都有相同的长度。

解决方法如下:

三、Word Embedding: Word to Vector(词嵌入:把单词表示成低维向量)

文本处理已经完成,每一个词都用一个正整数来表示。

3.1 One-Hot Encoding(one-hot 编码)

用one-hot向量来表示一个单词。

3.2 Word Embedding(词嵌入)

Embedding往往表示有降维的意思。

  • d表示词向量的维度,由用户自己决定;
  • v是字典里单词的数量;
  • 矩阵的乘法结果计作向量Xi,其是一个词向量,维度为d;
  • P转置矩阵的每一列都是一个词向量。
  • 参数矩阵p是从训练数据中学习到的,所以学习到的词向量会带有感情色彩。

四、Logistic Regression for Binary Classification(用逻辑回归做二分类)

判断电影评论是正面还是负面的。

4.1 Performance on the training and validation sets(训练和验证集的表现)

4.2 Performance on test set(测试集表现)

4.3 Logistic Regression for Sentiment Analysis

1_文本处理与词嵌入相关推荐

  1. [Embeding-2]文本表示学习-词嵌入入门理解

    转载自Scofield Phil: http://www.scofield7419.xyz/2017/09/25/文本表示学习-词嵌入入门理解/ 之前一段时间,在结合深度学习做NLP的时候一直有思考一 ...

  2. 文本的表示-词嵌入(word embedding)

    文本的理解 文本是常用的序列化数据类型之一.文本数据可以看作是一个字符序列或词的序列.对大多数问题,我们都将文本看作词序列. 深度学习序列模型(如RNN及其变体)能够较好的对序列化数据建模. 深度学习 ...

  3. RNN模型与NLP应用笔记(2):文本处理与词嵌入详解及完整代码实现(Word Embedding)

    一.写在前面 紧接着上一节,现在来讲文本处理的常见方式. 本文大部分内容参考了王树森老师的视频内容,再次感谢王树森老师和李沐老师的讲解视频. 目录 一.写在前面 二.引入 三.文本处理基本步骤详解 四 ...

  4. tensorflow2.0实现IMDB文本数据集学习词嵌入

    1. IMDB数据集示例如下所示 [{"rating": 5, "title": "The dark is rising!", " ...

  5. 深度学习实战-词嵌入计算文本相似性

    使用词嵌入计算文本相似性 文章目录 使用词嵌入计算文本相似性 简介 词嵌入 预训练词嵌入查看文本相似性 Word2vec的数学特性 可视化词嵌入 词嵌入中发现实体类 类内部语义距离 可视化国家数据 补 ...

  6. 吴恩达老师深度学习视频课笔记:自然语言处理与词嵌入

    Word representation:词嵌入(word embedding),是语言表示的一种方式,可以让算法自动理解一些类似的词比如男人.女人,国王.王后等.通过词嵌入的概念,即使你的模型标记的训 ...

  7. 2.2 使用词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授

    使用词嵌入 (Using Word Embeddings) 上一个视频中,你已经了解不同单词的特征化表示了.这节你会看到我们如何把这种表示方法应用到NLP应用中. 我们从一个例子开始,我们继续用命名实 ...

  8. 深度学习笔记 第五门课 序列模型 第二周 自然语言处理与词嵌入

    本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...

  9. 05.序列模型 W2.自然语言处理与词嵌入

    文章目录 1. 词汇表征 2. 使用词嵌入 3. 词嵌入的特性 4. 嵌入矩阵 5. 学习词嵌入 6. Word2Vec 7. 负采样 8. GloVe 词向量 9. 情感分类 10. 词嵌入除偏 作 ...

最新文章

  1. 【卷积神经网络结构专题】经典网络结构之VGG(附代码实现)
  2. elementui el-drawer去除自带黑色边框、允许滚动(亲测有效)
  3. nssl1447-小智的糖果【dp】
  4. idea中tomcat服务器的配置
  5. iOS之CATiledLayer的属性简介和使用
  6. 收集一些非常好用常用的用户函数。分享给大家参考。
  7. apache POI技术的使用
  8. Astah Professional UML 建模工具2022版
  9. 使用萤石云的出现设备不在线问题的解决方法
  10. 关于UI三色配色的心得
  11. vue手机号校验,邮箱校验
  12. 王者服务器维护11月,王者荣耀11月22日版本更新维护 更新内容介绍
  13. 自定义可自由移动的浮窗
  14. r语言dmy()函数转化出现na_R语言入门系列之二
  15. python表白玫瑰花绘制——情人节表白(亲测)
  16. 英特尔酷睿处理器后面的数字和字母含义
  17. 19秋计算机应用基础在线作业2,计算机应用基础19秋在线作业2 Windows 下能浏览并管理文件 驱动器及网络连接的强大工具是...
  18. 在线提取网页视频的网站
  19. 初学者怎么学习Java
  20. 什么是MCSE(微软认证系统工程师)?

热门文章

  1. 马踏棋盘python_马踏棋盘python实现
  2. 统计list里面相同元素个数_Array篇easy难度之求相同元素个数
  3. mysql 备份100G花费时间_利用xtrabackup 全量备份100G的数据恢复到单实例测试
  4. Oracle 21C 新特性:数据泵相关新特性汇总
  5. 【API进阶之路】研发需求突增3倍,测试团队集体闹离职
  6. Centos7使用Yum安装高版本的LNMP
  7. 产品ajax无刷新kesion,KesionCMSV6置标使用手册.doc
  8. weblogic12升级jdk_如何修改WEBLOGIC的JDK版本
  9. 使用Django的models创建mysql数据库
  10. dataframe格式的数据处理