.IMDB，THUCNews数据集下载和探索

IMDB
参考Tensorflow官网代码

模型如下

vocab_size = 10000model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, 16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dense(1, activation=tf.nn.sigmoid))model.summary()

_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
embedding (Embedding)        (None, None, 16)          160000
_________________________________________________________________
global_average_pooling1d (Gl (None, 16)                0
_________________________________________________________________
dense (Dense)                (None, 16)                272
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 17
=================================================================
Total params: 160,289
Trainable params: 160,289
Non-trainable params: 0
_________________________________________________________________

按顺序堆叠各个层以构建分类器：

第一层是 Embedding 层。该层会在整数编码的词汇表中查找每个字词-索引的嵌入向量。模型在接受训练时会学习这些向量。这些向量会向输出数组添加一个维度。生成的维度为：(batch, sequence, embedding)。
接下来，一个 GlobalAveragePooling1D 层通过对序列维度求平均值，针对每个样本返回一个长度固定的输出向量。这样，模型便能够以尽可能简单的方式处理各种长度的输入。
该长度固定的输出向量会传入一个全连接 (Dense) 层（包含 16 个隐藏单元）。
最后一层与单个输出节点密集连接。应用 sigmoid 激活函数后，结果是介于 0 到 1 之间的浮点值，表示概率或置信水平。

流程=》
1、下载数据集，查看数据集格式，标签格式，建立词表，加入[""] ,[""]
[""]
2、建立word_id和id_word，词嵌入，每个句子翻译成数字
3、思考用什么模型去预测，Tensorflow使用的是GlobalAveragePooling1D 降维，然后用两个全连接最后维度是1，与标签维度对应
4、建立优化器model.compile(optimizer=tf.train.AdamOptimizer(), loss='binary_crossentropy', metrics=['accuracy'])
5、训练模型

history = model.fit(partial_x_train,partial_y_train,epochs=40,batch_size=512,validation_data=(x_val, y_val),verbose=1)

THUCNews
相关代码 https://github.com/gaussic/text-classification-cnn-rnn
Text Classification with CNN
处理数据集
read_file(): 读取文件数据;
build_vocab(): 构建词汇表，使用字符级的表示，这一函数会将词汇表存储下来，避免每一次重复处理;
read_vocab(): 读取上一步存储的词汇表，转换为{词：id}表示;
read_category(): 将分类目录固定，转换为{类别: id}表示;
to_words(): 将一条由id表示的数据重新转换为文字;
process_file(): 将数据集从文字转换为固定长度的id序列表示;
batch_iter(): 为神经网络的训练准备经过shuffle的批次的数据。

CNN模型

词嵌入embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)

卷积池化

conv = tf.layers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv')# global max pooling layergmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')

全连接然后找出预测值的最大索引

fc = tf.layers.dense(gmp, self.config.hidden_dim, name='fc1')
fc = tf.contrib.layers.dropout(fc, self.keep_prob)
fc = tf.nn.relu(fc)# 分类器self.logits = tf.layers.dense(fc, self.config.num_classes, name='fc2')self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1)  # 预测类别

建立优化器

# 损失函数，交叉熵cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)self.loss = tf.reduce_mean(cross_entropy)# 优化器self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)

总结
通过以上两个模型，可以看出处理文字任务流程都是：
1、处理数据集，建立词表，建立词汇和数字的映射表
2、词嵌入把句子转化为数字
3、思考用什么模型，把经过转化为数字的句子加入到模型
4、建立优化器
5、训练

.IMDB，THUCNews数据集下载和探索相关推荐

ML之NB、LoR：基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类
ML之NB.LoR:基于NB和LoR算法对Kaggle IMDB影评数据集(国外类似豆瓣电影)情感分析进行分类注:LoR code waiting 目录输出结果核心代码输出结果数据集:Dat ...
【机器学习】 - 各种人脸数据集下载地址及说明汇总
1. Olivetti Faces人脸数据集由40个人组成,共计400张人脸: 每人的人脸图片为10张,包含正脸.侧脸以及不同的表情: 整个数据集就是一张大的人脸组合图片,下载地址:https:// ...
数据集下载地址（转）
以下内容转自https://baijiahao.baidu.com/s?id=1615853849218131902&wfr=spider&for=pc 图像分类领域 1)MNIST ...
国内外深度学习开放数据集下载集合(值得收藏，不断更新)
国内外深度学习开放数据集下载集合(值得收藏,不断更新) 一.Image processing data set 1.MNIST ,是最流行的深度学习数据集之一.这是一个手写数字数据集,包含一个有着 6 ...
各领域公开数据集下载 | 资源
金融交通商业推荐系统医疗健康图像数据视频数据音频数据自然语言处理社会数据处理后的科研和竞赛数据 1 金融 **美国劳工部统计局官方发布数据:**http://dataju.cn/D ...
基于IMDB评论数据集的情感分析
文章目录前言一.大型电影评论数据集介绍二.环境配置三.实验模型及流程 1.实验模型 2.实验流程四.实验代码 1.多层感知器模型代码 2.递归神经网络模型代码 3.长短期记忆模型代码五.实 ...
Tensorflow2.0数据集下载
通过tf.keras.datasets 下载数据集 import tensorflow as tf fashion_mnist = tf.keras.datasets.fashion_mnist #返 ...
Netflix Prize数据集详解及数据集下载链接
Netflix数据集包含了1999.12.31-2005.12.31期间匿名客户提供的超过一亿部电影平级.这个数据集大约给出了480189个用户和17770部电影评级.数据集中的详细信息如下图所示: ...
各领域公开数据集下载｜资源
本文整理了一些网上的免费数据集,分类下载地址如下,希望能节约大家找数据的时间.本篇文章来自知乎专栏赵熙的文章[各领域公开数据集下载]http://mp.weixin.qq.com/s/YTir0tVu ...

.IMDB，THUCNews数据集下载和探索

.IMDB，THUCNews数据集下载和探索相关推荐

最新文章

热门文章