一、情感分析

情感分析是自然语言处理中很常见的任务,它的目的是识别出一段文本潜在的情感,是表扬还是批评,是支持还是反对。比如我们可以使用情感分析去分析社媒的评论,从而得到网友对某件事的看法,进一步分析可以得到舆论的趋势。大家都知道特朗普非常喜欢发Twitter,我们可以对推友们评论进行分析,看看他们是在骂特朗普还是在支持特朗普,然后把所有的评论汇总起来就能得到一个大概的特朗普是否能够连任的趋势了。总之情感分析的本质是一个文本分类的任务,在这里我们实现了一个CNN网络对IMDB数据集进行情感分析。完整代码

二、IMDB数据集

Large Moive Review Dataset通常指的就是IMDB数据集,这是由斯坦福的研究者收集自网站IMDB。这个数据集其实就是一些对电影的评论,一共包含两类,积极的评论(positive)和消极的评论(negative)。其中训练集和测试集各有25000条数据。

三、CNN情感分析

深度学习在NLP任务中有很广泛的作用,那怎样将CNN应用于情感分析呢?因为情感分析本质就是一个文本分类的任务,在这里我们使用一个经典的用于文本分类的CNN架构,如下图所示,首先使用一维卷积,所谓一维卷积就是尺寸为window size * embedding dimension的卷积。window size其实就是词的数量,如果window size等于2就是图中红色的filter,每次选取两个词。window size等于3的话就是图中黄色的部分,每次选取三个词。这样卷积的意义就是每次都能获取到一个n-gram特征,这与我们的直觉也是类似的。卷积之后再使用max-1-pooling,也就是选择这句话中最显著的词或词组作为下一层的结果。然后将这些关键词组合起来输入全连接层就可以得到分类结果了。更详细的CNN解释可以看这篇博客。CNN文本分类详解

下面介绍下如何使用Keras实现这个逻辑,首先载入IMDB数据集,选取词频最高的5000个词作为输入,其他的词都是0。然后再把句子的单词长度固定为500。

# load the dataset but only keep the top n words, zero the rest
top_words = 5000
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=top_words)
# pad dataset to a maximum review length in words
max_words = 500
x_train = sequence.pad_sequences(x_train, maxlen=max_words)
x_test = sequence.pad_sequences(x_test, maxlen=max_words)

接下里创建conv1D + max-pooling的CNN模型。首先初始化一个embedding,为所有词随机一个词向量(这里也可以使用预训练的词向量,效果会更好)。然后使用Conv1D进行卷积,其中kernel_size这个参数就是我们前面所说的window size, 这里我们让它等于3,也就是每次取3个词,得到的是tri-gram特征。然后GlobalMaxPooling进行池化,最后使用全连接层得到一个值。这个值就代表属于哪一类的分数。优化的时候使用Adam优化器。

sentence = Input(batch_shape=(None, max_words), dtype='int32', name='sentence')
embedding_layer = Embedding(top_words, embedding_dims, input_length=max_words)
sent_embed = embedding_layer(sentence)
conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')
sent_conv = conv_layer(sent_embed)
sent_pooling = GlobalMaxPooling1D()(sent_conv)
sent_repre = Dense(250)(sent_pooling)
sent_repre = Activation('relu')(sent_repre)
sent_repre = Dense(1)(sent_repre)
pred = Activation('sigmoid')(sent_repre)
model = Model(inputs=sentence, outputs=pred)
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

最后训练模型

# fit the model
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, verbose=1,validation_data=(x_test, y_test))

最终模型在测试集上的准确率为88.64% 。完整代码

25000/25000 [==============================] - 25s 1ms/step - loss: 0.3455 - acc: 0.8420 - val_loss: 0.2775 - val_acc: 0.8815
Epoch 2/2
25000/25000 [==============================] - 24s 973us/step - loss: 0.1603 - acc: 0.9390 - val_loss: 0.2871 - val_acc: 0.8864
Accuracy: 88.64%

四、使用多窗口的CNN

前面我们使用的是windows size等于3的卷积,也就是每次取三个词,得到tri-gram特征。那要是觉得只用tri-gram还不够丰富,还想加入bi-gram或者更多类型的n-gram怎么办?那只要把Conv-1D这里改下就好了,代码如下。使用一个循环,假设kernel_size_list = [2,3,4],这代表我们会分别取2个词,3个词,4个词进行卷积,然后将池化的结果进行拼接,最后得到了更加丰富的特征。

# use multi window-size cnn
cnn_result = []
for kernel_size in kernel_size_list:conv_layer = Conv1D(filters, kernel_size, padding='valid', activation='relu')sent_conv = conv_layer(sent_embed)sent_pooling = GlobalMaxPooling1D()(sent_conv)cnn_result.append(sent_pooling)
cnn_result = concatenate(cnn_result)

也可以看到使用多窗口的卷积最终准确率达到了89.99%,与只使用窗口为3的CNN相比提高了1个多点,还是挺有效果的。完整代码

25000/25000 [==============================] - 77s 3ms/step - loss: 0.3345 - acc: 0.8483 - val_loss: 0.2592 - val_acc: 0.8941
Epoch 2/2
25000/25000 [==============================] - 73s 3ms/step - loss: 0.1555 - acc: 0.9409 - val_loss: 0.2462 - val_acc: 0.8999
Accuracy: 89.99%

Reference

https://machinelearningmastery.com/predict-sentiment-movie-reviews-using-deep-learning/

https://keras.io/examples/imdb_cnn/

https://blog.csdn.net/u010960155/article/details/81112351

使用CNN进行情感分析(Sentiment Analysis)相关推荐

  1. 情感分析Sentiment Analysis 知识资料全集(入门/进阶/论文/综述/视频/专家,附查看

    情感分析 ( Sentiment Analysis ) 专知荟萃 入门学习 进阶论文 Tutorial 综述 代码 视频教程 领域专家 入门学习 斯坦福大学自然语言处理第七课"情感分析(Se ...

  2. 情感分析 ( Sentiment Analysis ) 专知荟萃

    入门学习 斯坦福大学自然语言处理第七课"情感分析(Sentiment Analysis)" [http://52opencourse.com/235/%E6%96%AF%E5%9D ...

  3. 中文情感分析 (Sentiment Analysis) 的难点在哪?现在做得比较好的有哪几家?

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要25分钟 跟随小博主,每天进步一丢丢 来自: 知乎 编辑: 深度学习自然语言处理公众号 地址: https://www.zhihu.com/qu ...

  4. 情感分析(Sentiment Analysis)的难题--转

    我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面.这个过程当然不是仅仅查找"好",&quo ...

  5. 情感分析(Sentiment Analysis)的难题

    我们对在线文本进行文本挖掘的任务之一,就是进 行情感分析(SentimentAnalysis),即分析发贴人对某个对象的态度是正面还是负面.这个过程当然不是仅仅查找"好",&quo ...

  6. 属性级情感分析(于restaurant14和laptop14数据集上使用LSTM和GRU、 MemNet和IAN以及CNN等)的对比分析

    随着人们的社交活动.消费习惯.工作内容也逐渐由线下转移到线上,从互联网上海量文本中自动挖掘出人们对各类事务的需求.喜好.观点.态度等,具有广阔的应用场景和很高的商业价值. 在自然语言处理领域,情感分析 ...

  7. NLP学习(十)-情感分析技术及案例实现-Python3实现

    文章目录 1 情感分析简述 2 情感分类 2.1 基于语义的情感词典方法 2.2 基于机器学习的情感分类方法 3 情感检索 4 情感抽取 5 情感分析实战 5.1 词向量模型 5.2 Word2Vec ...

  8. 文本情感分析综述笔记

    文章目录 前言 一.应用场景 二.具体流程 1.文本预处理 1.1 分词,停用词,词典 1.2 实体识别(命名体识别) 2.情感分析(情感分类) 2.1 基于词典 2.2 基于机器学习 2.3 基于深 ...

  9. [Python人工智能] 二十二.基于大连理工情感词典的情感分析和情绪计算

    从本专栏开始,作者正式研究Python深度学习.神经网络及人工智能相关知识.前一篇文章分享了CNN实现中文文本分类的过程,并与贝叶斯.决策树.逻辑回归.随机森林.KNN.SVM等分类算法进行对比.这篇 ...

  10. 新手探索NLP(七)——情感分析

    简介 文本情感分析(sentiment analysis),又称为意见挖掘,是对带有情感色彩的主观性文本进行分析.处理.归纳和推理的过程.其中,主观情感可以是他们的判断或者评价,他们的情绪状态,或者有 ...

最新文章

  1. 周长相等的正方形面积一定相等_必考单元:三年级下册面积计算公式+知识点+测试卷(附答案),重点内容,收藏练习!...
  2. 学习计划20190509
  3. 基于SSM实现招聘网站
  4. 解决php文件包含的问题;Web_php_include-攻防世界
  5. Angular getSimpleChangesStore的实现原理
  6. PHP面向对象(OOP)----分页类
  7. 浅谈Listener、Filter、Servlet初始化顺序
  8. java quartz实例_Java任务调度框架Quartz教程实例
  9. Linux系统(二)常用命令、进程管理
  10. 实现对span标签的多选单选功能_如何在Notion中做多级标签?-Notion102
  11. Git可视化工具GitKraKen基本使用
  12. 医咖会免费SPSS教程学习笔记—非参数检验之两相关样本
  13. 21天通关python 磁力_利用python爬取天天看美剧磁力链接
  14. idea 2020.2隐藏了菜单栏Main Menu 恢复方法
  15. 虚拟软盘启动OS方法
  16. Oracle审计与数据库防火墙(AVDF)介绍
  17. 基于stc51单片机的指纹解锁模块
  18. 计划排程系统用户画象分析
  19. addon游戏_addon_game_mode游戏基本情况设置
  20. PAKDD 21: GRAPH INFOCLUST 明尼苏达

热门文章

  1. 张云茹计算机,重庆理工大学药学与生物工程学院研究生导师简介-张云茹
  2. 【LaTeX应用】latex排版中插入参考文献
  3. 超有用:记一次Yapi上传报错及其处理方式
  4. Linux软件漏洞修复指南
  5. Oracle11g的安装及删除
  6. php for iis express,iis10.0完整安装包
  7. 计算机专业就业前景分析
  8. windows pip install 报错
  9. transformer t5 relative position代码解读
  10. Robot Framework自动化测试用具 Wait Until Keyword Succeeds关键字使用案例