1_文本处理与词嵌入
文章目录
- 一、前提
- 二、Text to Sequence(文本处理)
- 2.1 Tokenization(分词)
- 2.2 Build Dictionary(建立一个字典)
- 2.3 One-Hot Encoding
- 2.4 Align Sequences(对齐序列)
- 三、Word Embedding: Word to Vector(词嵌入:把单词表示成低维向量)
- 3.1 One-Hot Encoding(one-hot 编码)
- 3.2 Word Embedding(词嵌入)
- 四、Logistic Regression for Binary Classification(用逻辑回归做二分类)
- 4.1 Performance on the training and validation sets(训练和验证集的表现)
- 4.2 Performance on test set(测试集表现)
- 4.3 Logistic Regression for Sentiment Analysis
一、前提
The IMDB Movie Review Dataset
- 50K movie reviews (text).
- Each review is labeled with either "positive"or “negative”.
- It is a binary classification problem.(二分类问题)
- 25K for training and 25K for test.
http://ai.stanford.edu/~amaas/data/sentiment/
http://s3.amazonaws.com/text-datasets/acllmdb.zip
二、Text to Sequence(文本处理)
文本处理的好坏直接影响机器学习的准确率
2.1 Tokenization(分词)
- 把文本分隔为单词。
- 一个token(符号)就是一个单词或者字符。
2.2 Build Dictionary(建立一个字典)
可以首先统计词频,去掉低频词,然后让每一个单词对应每一个正整数,有了字典,就可以把每一个单词映射为每一个整数,这样一句话就可以用正整数的列表表示。而这个列表被称为sequences(序列)
2.3 One-Hot Encoding
如果有必要,可以进一步做one-hot encoding,把单词变为one-hot向量。
2.4 Align Sequences(对齐序列)
训练数据没有对齐,每个序列都有不同的长度,在做机器学习的时候,我们把数据存储在矩阵或者张量中,这就需要把序列对齐,每条序列都有相同的长度。
解决方法如下:
三、Word Embedding: Word to Vector(词嵌入:把单词表示成低维向量)
文本处理已经完成,每一个词都用一个正整数来表示。
3.1 One-Hot Encoding(one-hot 编码)
用one-hot向量来表示一个单词。
3.2 Word Embedding(词嵌入)
Embedding往往表示有降维的意思。
- d表示词向量的维度,由用户自己决定;
- v是字典里单词的数量;
- 矩阵的乘法结果计作向量Xi,其是一个词向量,维度为d;
- P转置矩阵的每一列都是一个词向量。
- 参数矩阵p是从训练数据中学习到的,所以学习到的词向量会带有感情色彩。
四、Logistic Regression for Binary Classification(用逻辑回归做二分类)
判断电影评论是正面还是负面的。
4.1 Performance on the training and validation sets(训练和验证集的表现)
4.2 Performance on test set(测试集表现)
4.3 Logistic Regression for Sentiment Analysis
1_文本处理与词嵌入相关推荐
- [Embeding-2]文本表示学习-词嵌入入门理解
转载自Scofield Phil: http://www.scofield7419.xyz/2017/09/25/文本表示学习-词嵌入入门理解/ 之前一段时间,在结合深度学习做NLP的时候一直有思考一 ...
- 文本的表示-词嵌入(word embedding)
文本的理解 文本是常用的序列化数据类型之一.文本数据可以看作是一个字符序列或词的序列.对大多数问题,我们都将文本看作词序列. 深度学习序列模型(如RNN及其变体)能够较好的对序列化数据建模. 深度学习 ...
- RNN模型与NLP应用笔记(2):文本处理与词嵌入详解及完整代码实现(Word Embedding)
一.写在前面 紧接着上一节,现在来讲文本处理的常见方式. 本文大部分内容参考了王树森老师的视频内容,再次感谢王树森老师和李沐老师的讲解视频. 目录 一.写在前面 二.引入 三.文本处理基本步骤详解 四 ...
- tensorflow2.0实现IMDB文本数据集学习词嵌入
1. IMDB数据集示例如下所示 [{"rating": 5, "title": "The dark is rising!", " ...
- 深度学习实战-词嵌入计算文本相似性
使用词嵌入计算文本相似性 文章目录 使用词嵌入计算文本相似性 简介 词嵌入 预训练词嵌入查看文本相似性 Word2vec的数学特性 可视化词嵌入 词嵌入中发现实体类 类内部语义距离 可视化国家数据 补 ...
- 吴恩达老师深度学习视频课笔记:自然语言处理与词嵌入
Word representation:词嵌入(word embedding),是语言表示的一种方式,可以让算法自动理解一些类似的词比如男人.女人,国王.王后等.通过词嵌入的概念,即使你的模型标记的训 ...
- 2.2 使用词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授
使用词嵌入 (Using Word Embeddings) 上一个视频中,你已经了解不同单词的特征化表示了.这节你会看到我们如何把这种表示方法应用到NLP应用中. 我们从一个例子开始,我们继续用命名实 ...
- 深度学习笔记 第五门课 序列模型 第二周 自然语言处理与词嵌入
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
- 05.序列模型 W2.自然语言处理与词嵌入
文章目录 1. 词汇表征 2. 使用词嵌入 3. 词嵌入的特性 4. 嵌入矩阵 5. 学习词嵌入 6. Word2Vec 7. 负采样 8. GloVe 词向量 9. 情感分类 10. 词嵌入除偏 作 ...
最新文章
- 【卷积神经网络结构专题】经典网络结构之VGG(附代码实现)
- elementui el-drawer去除自带黑色边框、允许滚动(亲测有效)
- nssl1447-小智的糖果【dp】
- idea中tomcat服务器的配置
- iOS之CATiledLayer的属性简介和使用
- 收集一些非常好用常用的用户函数。分享给大家参考。
- apache POI技术的使用
- Astah Professional UML 建模工具2022版
- 使用萤石云的出现设备不在线问题的解决方法
- 关于UI三色配色的心得
- vue手机号校验,邮箱校验
- 王者服务器维护11月,王者荣耀11月22日版本更新维护 更新内容介绍
- 自定义可自由移动的浮窗
- r语言dmy()函数转化出现na_R语言入门系列之二
- python表白玫瑰花绘制——情人节表白(亲测)
- 英特尔酷睿处理器后面的数字和字母含义
- 19秋计算机应用基础在线作业2,计算机应用基础19秋在线作业2 Windows 下能浏览并管理文件 驱动器及网络连接的强大工具是...
- 在线提取网页视频的网站
- 初学者怎么学习Java
- 什么是MCSE(微软认证系统工程师)?
热门文章
- 马踏棋盘python_马踏棋盘python实现
- 统计list里面相同元素个数_Array篇easy难度之求相同元素个数
- mysql 备份100G花费时间_利用xtrabackup 全量备份100G的数据恢复到单实例测试
- Oracle 21C 新特性:数据泵相关新特性汇总
- 【API进阶之路】研发需求突增3倍,测试团队集体闹离职
- Centos7使用Yum安装高版本的LNMP
- 产品ajax无刷新kesion,KesionCMSV6置标使用手册.doc
- weblogic12升级jdk_如何修改WEBLOGIC的JDK版本
- 使用Django的models创建mysql数据库
- dataframe格式的数据处理