文章目录

一、前提
二、Text to Sequence（文本处理）
- 2.1 Tokenization（分词）
- 2.2 Build Dictionary（建立一个字典）
- 2.3 One-Hot Encoding
- 2.4 Align Sequences（对齐序列）
三、Word Embedding: Word to Vector（词嵌入：把单词表示成低维向量）
- 3.1 One-Hot Encoding（one-hot 编码）
- 3.2 Word Embedding（词嵌入）
四、Logistic Regression for Binary Classification（用逻辑回归做二分类）
- 4.1 Performance on the training and validation sets（训练和验证集的表现）
- 4.2 Performance on test set（测试集表现）
- 4.3 Logistic Regression for Sentiment Analysis

一、前提

The IMDB Movie Review Dataset

50K movie reviews (text).
Each review is labeled with either "positive"or “negative”.
It is a binary classification problem.（二分类问题）
25K for training and 25K for test.

http://ai.stanford.edu/~amaas/data/sentiment/

http://s3.amazonaws.com/text-datasets/acllmdb.zip

二、Text to Sequence（文本处理）

文本处理的好坏直接影响机器学习的准确率

2.1 Tokenization（分词）

把文本分隔为单词。
一个token(符号)就是一个单词或者字符。

2.2 Build Dictionary（建立一个字典）

可以首先统计词频，去掉低频词，然后让每一个单词对应每一个正整数，有了字典，就可以把每一个单词映射为每一个整数，这样一句话就可以用正整数的列表表示。而这个列表被称为sequences（序列）

2.3 One-Hot Encoding

如果有必要，可以进一步做one-hot encoding，把单词变为one-hot向量。

2.4 Align Sequences（对齐序列）

训练数据没有对齐，每个序列都有不同的长度，在做机器学习的时候，我们把数据存储在矩阵或者张量中，这就需要把序列对齐，每条序列都有相同的长度。

解决方法如下：

三、Word Embedding: Word to Vector（词嵌入：把单词表示成低维向量）

文本处理已经完成，每一个词都用一个正整数来表示。

3.1 One-Hot Encoding（one-hot 编码）

用one-hot向量来表示一个单词。

3.2 Word Embedding（词嵌入）

Embedding往往表示有降维的意思。

d表示词向量的维度，由用户自己决定；
v是字典里单词的数量；
矩阵的乘法结果计作向量X_i，其是一个词向量，维度为d；
P转置矩阵的每一列都是一个词向量。
参数矩阵p是从训练数据中学习到的，所以学习到的词向量会带有感情色彩。

四、Logistic Regression for Binary Classification（用逻辑回归做二分类）

判断电影评论是正面还是负面的。

4.1 Performance on the training and validation sets（训练和验证集的表现）

4.2 Performance on test set（测试集表现）

4.3 Logistic Regression for Sentiment Analysis

1_文本处理与词嵌入相关推荐

[Embeding-2]文本表示学习-词嵌入入门理解
转载自Scofield Phil: http://www.scofield7419.xyz/2017/09/25/文本表示学习-词嵌入入门理解/ 之前一段时间,在结合深度学习做NLP的时候一直有思考一 ...
文本的表示-词嵌入（word embedding）
文本的理解文本是常用的序列化数据类型之一.文本数据可以看作是一个字符序列或词的序列.对大多数问题,我们都将文本看作词序列. 深度学习序列模型(如RNN及其变体)能够较好的对序列化数据建模. 深度学习 ...
RNN模型与NLP应用笔记(2)：文本处理与词嵌入详解及完整代码实现（Word Embedding）
一.写在前面紧接着上一节,现在来讲文本处理的常见方式. 本文大部分内容参考了王树森老师的视频内容,再次感谢王树森老师和李沐老师的讲解视频. 目录一.写在前面二.引入三.文本处理基本步骤详解四 ...
tensorflow2.0实现IMDB文本数据集学习词嵌入
1. IMDB数据集示例如下所示 [{"rating": 5, "title": "The dark is rising!", " ...
深度学习实战-词嵌入计算文本相似性
使用词嵌入计算文本相似性文章目录使用词嵌入计算文本相似性简介词嵌入预训练词嵌入查看文本相似性 Word2vec的数学特性可视化词嵌入词嵌入中发现实体类类内部语义距离可视化国家数据补 ...
吴恩达老师深度学习视频课笔记：自然语言处理与词嵌入
Word representation:词嵌入(word embedding),是语言表示的一种方式,可以让算法自动理解一些类似的词比如男人.女人,国王.王后等.通过词嵌入的概念,即使你的模型标记的训 ...
2.2 使用词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授
使用词嵌入 (Using Word Embeddings) 上一个视频中,你已经了解不同单词的特征化表示了.这节你会看到我们如何把这种表示方法应用到NLP应用中. 我们从一个例子开始,我们继续用命名实 ...
深度学习笔记第五门课序列模型第二周自然语言处理与词嵌入
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
05.序列模型 W2.自然语言处理与词嵌入
文章目录 1. 词汇表征 2. 使用词嵌入 3. 词嵌入的特性 4. 嵌入矩阵 5. 学习词嵌入 6. Word2Vec 7. 负采样 8. GloVe 词向量 9. 情感分类 10. 词嵌入除偏作 ...

1_文本处理与词嵌入