基于DNN的IMDB电影数据集文本分类

目的：使用IMDB电影评论数据集进行二分类实验，基于深度学习的全连接神经网络模型DNN
平台：pycharm，tensorflow2.0
代码：

"""
# -*- coding: utf-8 -*-@author: SYM
@software: PyCharm
@time: 2022/5/10 0010 10:52
"""
#from keras.datasets import imdb
#import numpy as np
#from keras import models
#from keras import layers
#2.0需要使用后面的
from tensorflow.keras import models
from tensorflow.keras import layersimport matplotlib.pyplot as plt#from keras.datasets import imdb#(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)import numpy as np
old = np.load
np.load = lambda *a,**k: old(*a,**k,allow_pickle=True)
from keras.datasets import imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)#(train_data,train_labels),(test_data,test_labels) = imdb.load_data(num_words=10000)
# #第一条评论的单词索引列表
# print(train_data[0])*
# #1表示正面品论，0表示负面评论2
# print(train_labels[0])
# #取所有测试单词所有的最大的索引值
# print(max([max(sequence) for sequence in train_data]))# #某条评论解码为英文
# word_index = imdb.get_word_index()
# reverse_word_index = dict(
#     [(value,key) for (key,value) in word_index.items()]
# )
# decoded_review = ' '.join(
#     [reverse_word_index.get(i-3,'?') for i in train_data[0]]
# )
# print(decoded_review)#转换为10000维的向量，索引的位置是1，其他位置是0
def vectorize_sequences(sequences,dimension=10000):results = np.zeros((len(sequences),dimension))for i, sequence in enumerate(sequences):results[i,sequence] = 1.return results
#数据向量化
x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)
print(x_train[0])
#标签向量化
y_train = np.asarray(train_labels).astype('float32')
y_test = np.asarray(test_labels).astype('float32')#模型定义
model = models.Sequential()
#第一层全连接层
model.add(layers.Dense(16,activation='relu',input_shape=(10000,)))
#第二层全连接层
model.add(layers.Dense(16,activation='relu'))
#第三层全连接层
model.add(layers.Dense(1,activation='sigmoid'))
#定义优化器，损失函数，指标
model.compile(optimizer='rmsprop',loss='binary_crossentropy',metrics=['accuracy'])#取10000用于验证集
x_val = x_train[:10000] #验证集
partial_x_train = x_train[10000:]y_val = y_train[:10000] #验证集
partial_y_trail = y_train[10000:]#训练模型
history = model.fit(partial_x_train,partial_y_trail,epochs=4,batch_size=512,validation_data=(x_val,y_val))history_dict = history.history
print(history_dict.keys())loss_values = history_dict['loss']
val_loss_values = history_dict['val_loss']
acc_values = history_dict['accuracy']
val_acc_values  = history_dict['val_accuracy']epochs = range(1,len(loss_values)+1)# plt.plot(epochs,loss_values,'bo',label='Training loss') #bo是蓝色圆点
# plt.plot(epochs,val_loss_values,'b',label='Validation loss') #b是蓝色实线
# plt.title('Training and validation loss')
# plt.xlabel('Epochs')
# plt.ylabel('Loss')
# plt.legend()
# plt.show()
#
# plt.clf() #清空图表#acc_values = history_dict['accuracy']
#val_acc_values  = history_dict['val_accuracy']# plt.plot(epochs,acc_values,'bo',label='Training acc') #bo是蓝色圆点
# plt.plot(epochs,val_acc_values,'b',label='Validation acc') #b是蓝色实线
# plt.title('Training and validation accuracy')
# plt.xlabel('Epochs')
# plt.ylabel('Accuracy')
# plt.legend()
# plt.show()plt.figure(figsize=(10,8))
plt.plot(epochs, acc_values, color='red', marker='+', label='Training accuracy')
plt.plot(epochs, loss_values, color='blue', marker='*', label='Training loss')
plt.plot(epochs, val_acc_values, color='black', marker='p', label='validation accuracy')
plt.plot(epochs, val_loss_values, color='black', marker='>', label='validation loss')
plt.title('Training and validation accuracy/loss')
plt.xlabel('Epochs')
plt.ylabel('Accuracy')
#plt.plot(color="blue",lebel="loss")
#plt.plot(color="red",lebel="accuracy")
plt.legend()
#plt.show()
plt.show(block=True)result = model.evaluate(x_test,y_test)
print(result)predictResult = model.predict(x_test)
print(predictResult)

代码结果图：

基于DNN的IMDB电影数据集文本分类相关推荐

ML之K-means：基于K-means算法利用电影数据集实现对top 100 电影进行文档分类
ML之K-means:基于K-means算法利用电影数据集实现对top 100 电影进行文档分类目录输出结果实现代码输出结果先看文档分类后的结果,一共得到五类电影: 实现代码 # -*- c ...
ML之H-Clusters：基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类
ML之H-Clusters:基于H-Clusters算法利用电影数据集实现对top 100电影进行文档分类目录输出结果实现代码输出结果先看输出结果实现代码 # -*- coding: ut ...
基于Kaggle数据的词袋模型文本分类教程
基于Kaggle数据的词袋模型文本分类教程发表于23小时前| 454次阅读| 来源FastML| 0 条评论| 作者Zygmunt Z 词袋模型文本分类word2vecn-gram机器学习 w ...
【文本分类】基于BERT预训练模型的灾害推文分类方法、基于BERT和RNN的新闻文本分类对比
·阅读摘要: 两篇论文,第一篇发表于<图学学报>,<图学学报>是核心期刊:第二篇发表于<北京印刷学院学报>,<北京印刷学院学报>没有任何标签. ·参考文 ...
基于Keras搭建CNN、TextCNN文本分类模型
基于Keras搭建CNN.TextCNN文本分类模型一.CNN 1.1 数据读取分词 1.2.数据编码 1.3 数据序列标准化 1.4 构建模型 1.5 模型验证二.TextCNN文本分类 2.1 ...
paddle2.0高层API实现自定义数据集文本分类中的情感分析任务
paddle2.0高层API实现自定义数据集文本分类中的情感分析任务本文包含了: - 自定义文本分类数据集继承 - 文本分类数据处理 - 循环神经网络RNN, LSTM - ·seq2vec· - ...
【文本分类】基于改进TF-IDF特征的中文文本分类系统
摘要:改进TFIDF,提出相似度因子,提高了文本分类准确率. 参考文献:[1]但唐朋,许天成,张姝涵.基于改进TF-IDF特征的中文文本分类系统[J].计算机与数字工程,2020,48(03):556 ...
基于协同训练的半监督文本分类算法
标签: 半监督学习,文本分类作者:炼己者 --- 本博客所有内容以学习.研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢! 如果大家觉得格式看着不舒服,也欢迎大家去看我的 ...
AI：神经网络IMDB电影评论二分类模型训练和评估
AI:Keras神经网络IMDB电影评论二分类模型训练和评估,python import keras from keras.layers import Dense from keras import ...
自然语言处理（NLP）：05 基于 doc2vec 特征抽取+电影情感文本分类
本章节研究内容: doc2vec 提取句子特征+基于doc2vec 特征工程文本分类问题基于Doc2Vec情感分析词向量在NLP被广泛应用,通过引入Doc2Vec,不仅可以对单个词进行词向量表示 ...

基于DNN的IMDB电影数据集文本分类

基于DNN的IMDB电影数据集文本分类相关推荐

最新文章

热门文章