【NLP文本分类】对IMDB电影评论进行情感分析
概述
对imdb中的电影评论进行分类,是一个二分类的问题,这是一种重要且广泛适用的机器学习问题。
数据
imdb的数据包含50000条电影评论。拥有25000条训练数据以及25000条评估数据,有着相同数量的正面与负面评论。
下载imdb数据
imdb中的数据已经被预处理好,为整数序列,每个整数代表着一个特定单词。可用imdb的词典进行翻译。(https://s3.amazonaws.com/text-datasets/imdb.npz)如果不能科学上网,可以在https://pan.baidu.com/s/1pNDbE3VMdYJiiXyaN2roaw 提取码:0wnn下载
读取数据
import tensorflow as tf
from tensorflow import kerasimport numpy as np
mdb = keras.datasets.imdb(train_data, train_labels), (test_data, test_labels) = imdb.load_data('/home/kesci/input/idmb2286/imdb.npz',num_words=10000)
将load_data中的路径改为imdb.npz所在的路径,num_words=15000
保留出现频率最高的前10000个词。丢弃罕见单词以保持数据的可管理。
了解数据
在处理数据前,我们需要先了解数据,经过数据的预处理后,每个例子都是整数序列,以整数来表示电影的单词。每个整数对应词典的一个单词。用0和1来确定label的种类。
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
Training entries: 25000, labels: 25000
我们可以看下第一条评论
print(train_data[0])
[1, 14, 22, 16, 43, 530, 973, 1622, 1385, 65, 458, 4468, 66, 3941, 4, 173, 36, 256, 5, 25, 100, 43, 838, 112, 50, 670, 2, 9, 35, 480, 284, 5, 150, 4, 172, 112, 167, 2, 336, 385, 39, 4, 172, 4536, 1111, 17, 546, 38, 13, 447, 4, 192, 50, 16, 6, 147, 2025, 19, 14, 22, 4, 1920, 4613, 469, 4, 22, 71, 87, 12, 16, 43, 530, 38, 76, 15, 13, 1247, 4, 22, 17, 515, 17, 12, 16, 626, 18, 2, 5, 62, 386, 12, 8, 316, 8, 106, 5, 4, 2223, 5244, 16, 480, 66, 3785, 33, 4, 130, 12, 16, 38, 619, 5, 25, 124, 51, 36, 135, 48, 25, 1415, 33, 6, 22, 12, 215, 28, 77, 52, 5, 14, 407, 16, 82, 10311, 8, 4, 107, 117, 5952, 15, 256, 4, 2, 7, 3766, 5, 723, 36, 71, 43, 530, 476, 26, 400, 317, 46, 7, 4, 12118, 1029, 13, 104, 88, 4, 381, 15, 297, 98, 32, 2071, 56, 26, 141, 6, 194, 7486, 18, 4, 226, 22, 21, 134, 476, 26, 480, 5, 144, 30, 5535, 18, 51, 36, 28, 224, 92, 25, 104, 4, 226, 65, 16, 38, 1334, 88, 12, 16, 283, 5, 16, 4472, 113, 103, 32, 15, 16, 5345, 19, 178, 32]
每条数据的单词数量不同,然而神经网络的输入要求长度必须相同。我们将在下面解决这个问题。
len(train_data[0]),len(train_data[1])
(218,219)
将整数转换为文本
# A dictionary mapping words to an integer index
word_index = imdb.get_word_index()# The first indices are reserved
word_index = {k:(v+3) for k,v in word_index.items()}
word_index["<PAD>"] = 0
word_index["<START>"] = 1
word_index["<UNK>"] = 2 # unknown
word_index["<UNUSED>"] = 3reverse_word_index = dict([(value, key) for (key, value) in word_index.items()])def decode_review(text):return ' '.join([reverse_word_index.get(i, '?') for i in text])
我们可以用decode_review
将整数序列转换为文本
decode_review(train_data[20])
"<START> shown in australia as <UNK> this incredibly bad movie is so bad that you become <UNK> and have to watch it to the end just to see if it could get any worse and it does the storyline is so predictable it seems written by a high school <UNK> class the sets are pathetic but marginally better than the <UNK> and the acting is wooden br br the infant <UNK> seems to have been stolen from the props <UNK> of <UNK> <UNK> there didn't seem to be a single original idea in the whole movie br br i found this movie to be so bad that i laughed most of the way through br br malcolm mcdowell should hang his head in shame he obviously needed the money"
准备数据
必须在输入神经网络前转换为张量。
- 可转换为独热向量
- 或填充数组,使他们具有相同长度,然后创建一个num_example*max_length的整型张量。可以将此作为神经网络的第一层。
在次我们使用第二种方法
train_data = keras.preprocessing.sequence.pad_sequences(train_data,value=word_index["<PAD>"],padding='post',maxlen=256)test_data = keras.preprocessing.sequence.pad_sequences(test_data,value=word_index["<PAD>"],padding='post',maxlen=256)
将数据集转换为256维,不足的从后面补齐(补零)。
len(train_data[0]), len(train_data[1])
(256,256)
看下处理后的数据
print(train_data[0])
[ 1 14 22 16 43 530 973 1622 1385 65 458 446866 3941 4 173 36 256 5 25 100 43 838 11250 670 2 9 35 480 284 5 150 4 172 112167 2 336 385 39 4 172 4536 1111 17 546 3813 447 4 192 50 16 6 147 2025 19 14 224 1920 4613 469 4 22 71 87 12 16 43 53038 76 15 13 1247 4 22 17 515 17 12 16626 18 2 5 62 386 12 8 316 8 106 54 2223 5244 16 480 66 3785 33 4 130 12 1638 619 5 25 124 51 36 135 48 25 1415 336 22 12 215 28 77 52 5 14 407 16 8210311 8 4 107 117 5952 15 256 4 2 7 37665 723 36 71 43 530 476 26 400 317 46 74 12118 1029 13 104 88 4 381 15 297 98 322071 56 26 141 6 194 7486 18 4 226 22 21134 476 26 480 5 144 30 5535 18 51 36 28224 92 25 104 4 226 65 16 38 1334 88 1216 283 5 16 4472 113 103 32 15 16 5345 19178 32 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 00 0 0 0]
创建模型
input shape is the vocabulary count used for the movie reviews (10,000 words)
vocab_size = 10000model = keras.Sequential()
model.add(keras.layers.Embedding(vocab_size, 16))
model.add(keras.layers.GlobalAveragePooling1D())
#model.add(keras.layers.GlobalMaxPooling1D())
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dropout(0.5))
model.add(keras.layers.Dense(1, activation=tf.nn.sigmoid))model.summary()
损失函数
模型需要一个损失函数和一个用于训练的优化器。 由于这是二元分类问题和概率模型输出(具有S形激活的单个单元层),我们将使用binary_crossentropy损失函数。
model.compile(optimizer=tf.train.AdamOptimizer(),loss='binary_crossentropy',metrics=['accuracy'])
建立验证集
10000以前为验证集,一万以后为训练集
x_val = train_data[:10000]
partial_x_train = train_data[10000:]y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]
训练模型
#每一Epochs都进行F1计算
import numpy as np
from keras.callbacks import Callback
from keras.engine.training import Model
from sklearn.metrics import confusion_matrix, f1_score, precision_score, recall_score
class Metrics(Callback):def on_train_begin(self, logs={}):self.val_f1s = []self.val_recalls = []self.val_precisions = []def on_epoch_end(self, epoch, logs={}):val_predict = (np.asarray(self.model.predict(self.validation_data[0]))).round()val_targ = self.validation_data[1]_val_f1 = f1_score(val_targ, val_predict,average='weighted')_val_recall = recall_score(val_targ, val_predict,average='weighted')_val_precision = precision_score(val_targ, val_predict,average='weighted')self.val_f1s.append(_val_f1)self.val_recalls.append(_val_recall)self.val_precisions.append(_val_precision)print( ' — val_f1: %f — val_precision: %f — val_recall %f' %(_val_f1, _val_precision, _val_recall))returnmetrics = Metrics()
from keras.callbacks import EarlyStopping
earlystopping=keras.callbacks.EarlyStopping(monitor='val_acc', patience=8, verbose=0, mode='max')history = model.fit(partial_x_train,partial_y_train,epochs=90,batch_size=512,validation_data=(x_val, y_val),callbacks=[metrics,earlystopping],verbose=1)
测试模型
results = model.evaluate(test_data, test_labels)print(results)
25000/25000 [==============================] - 2s 61us/step
[0.31110355438232423, 0.87736]
我们可以看到损失函数为0.31,准确率为0.87.
【NLP文本分类】对IMDB电影评论进行情感分析相关推荐
- 自然语言处理实战——对电影评论进行情感分析(英文)
写在前: 本次的训练集和测试集还有停用词我都放在我的公众号里面了(为了方便大家提取特意去开的公众号哈哈哈哈) 公众号:YOLO的学习进阶日常 对话框输入:英文文本分析 数据源 做本次实战的契机是疫情期 ...
- 自然语言处理-应用场景-文本分类:基于LSTM模型的情感分析【IMDB电影评论数据集】--(重点技术:自定义分词、文本序列化、输入数据批次化、词向量迁移使用)
文本情感分类 1. 案例介绍 现在我们有一个经典的数据集IMDB数据集,地址:http://ai.stanford.edu/~amaas/data/sentiment/,这是一份包含了5万条流行电影的 ...
- NLP --- 文本分类(基于概率的隐语意分析(PLSA)详解)
上一节我们详细的讲解了SVD的隐语意分析,一旦提到这个,大家脑海里应该立刻有如下的矩阵形式: 我们通过矩阵的分解对文本数据进行压缩,压缩量很可观,尤其是原始的矩阵的维度很高时压缩的更可观,因为k通常要 ...
- NLP --- 文本分类(基于SVD的隐语意分析(LSA))
上一节我们详细的讲解了基于VSM的文本分类,这种分类在很早就出现了,虽然是文本分类中有效的分类手段,但是因为建立的向量是很多维的,因此容造成维度灾难,同时VSM的没有能力处理一词多义和一义多词问题,例 ...
- python电影评论的情感分析流浪地球_爬虫实例 | Python爬取《流浪地球》豆瓣影评与数据分析(下)...
[芝麻IP代理]三.数据分析与可视化 1.获取cookies 城市信息筛选中文字 匹配pyecharts支持的城市列表 2.基于snownlp的情感分析 关于snownlp的作用,主要可以进行中文分词 ...
- python电影评论情感分析_NLP文本分类问题-电影评论的情感分析
从头开始学习嵌入 import pandas as pd import numpy as np #读取csv文件 train = pd.read_csv('/kaggle/input/imdb-dat ...
- python电影评论的情感分析流浪地球_《流浪地球》影评分析(一):使用Python爬取豆瓣影评...
本文爬虫的步骤: 使用Selenium库的webdriver进行网页元素定位和信息获取: 使用BeautifulSoup库进行数据的提取: 使用Pandas库进行数据的存储. 后台回复python爬虫 ...
- python电影评论的情感分析流浪地球_python爬取豆瓣流浪地球影评,生成词云
代码很简单,一看就懂. (没有模拟点击,所以都是未展开的) 地址: https://movie.douban.com/subject/26266893/reviews?rating=&star ...
- 第六课.NLP文本分类任务
第六课目录 NLP文本分类简介 IMDB数据集准备 设置随机种子 下载IMDB并划分数据集 构建词汇表 使用torchtext生成batch WordAveraging 模型定义 加载由glove.6 ...
最新文章
- 详解linux下auto工具制作Makefile源码包(制作篇)
- 项目总结二:人脸识别项目(Face Recognition for the Happy House)
- No plugin found for prefix ‘scala‘ pom.xml
- [Xcode 实际操作]六、媒体与动画-(6)使用UIBlurEffect给图片添加模糊效果
- LeetCode --- Valid Parentheses
- Asp.net MVC4 与 Web Form 并存
- python ConfigParser模块详解
- C++ 命名空间(namespace)
- [转载] HTML所有标签及其属性汇总
- vs2017 Visual Studio 离线安装方法
- 今天看了《一声叹息》
- 牛刀 —— 汨罗网络屏幕投影软件的技术实现
- PowerShell中使用WMI或CIM
- Struts2下载问题再探
- 创业1年半,烧光130万:我总结了哪些教训?
- bcc语料库下载_BCC语料库使用指南
- 【UE4】HUD(蓝图)
- 拷机测试需要多久_网站建设要多久?
- 紫乌鸦服务器维护后多久刷,魔兽世界:9.0卡这个技巧,10分钟5只稀有坐骑,紫乌鸦惑龙入手!...
- 第三方邮件、短信服务
热门文章
- 2021年中国伏特加酒行业市场贸易及俄罗斯伏特加酒产量分析:瑞典、俄罗斯、意大利为中国伏特加酒主要进口市场[图]
- 开源中国 2018 新增开源软件最受欢迎 TOP 50
- Linux 修改apt-get为国内镜像源
- 马来西亚银行集团CIMB加入Ripple区块链支付网络
- Python 从文件in162.txt中连续读入10个以磅为单位的重量值
- android 五子棋 布局技巧,与电脑对战「五子棋 – Gomoku」难度由浅入深,棋局练习、分析五大能力!(iPhone,Android)...
- Final Cut Pro 必备插件
- 大数据具体内涵与外延尚未被清楚界定
- 记一次 .NET 某医疗器械 程序崩溃分析
- 001---函数基础