目录

  • 论文标题
  • 引言
  • 标题论文学术结构
    • 1、相关研究综述(先前学者的研究)
    • 2、研究方法
    • 3、基于 Word2Vec 和 SVM 的微博情感演化分析
    • 4、基于 Word2Vec 词相似度的舆情主体对象情感演化分析
    • 5、结论与展望(摘自原文,原文讲得很好)
  • 读后感
  • 思维导图

论文标题

《基于 Word2Vec 和 SVM 的微博舆情情感演化分析》

引言

这篇论文选取了2018年微博 “滴滴温州女孩遇害”事件作为主体,收集相关评论内容作为数据源,计算评论内容的情感值,标注情感正负性,通过 Word2Vec 和 SVM 方法构建情感分类模型。并且作者通过分析出现频率较高的词语,从情感时序分析和舆情主体对象情感演化分析两个方面探讨微博舆情的情感走势。研究发现,情感分类模型可以有效预测网民的情感走势,网民的情感演化历程与计算结果相吻合。

标题论文学术结构

1、相关研究综述(先前学者的研究)

1)(微博)情感分析

a.原文:情感分析是对主题观点、情感和态度进行提取、检测和分类(的过程)。

b.情感分析包括:主客观分析 、情感倾向性分析 (情感分类)、观点信息抽取、评论挖掘,其中情感分类应用最为普遍(按机器学习算法可分为有监督学习和无监督学习)

c.微博情感分析:主要通过爬取微博评论数据,挖掘公众情感演变特征,进而预测各主题领域行为变化趋势。在国外,多数学者通过爬取Twitter上的评论数据,从而预测各种社会行情和趋势;然而在中国,由于中文局势复杂,评论含有大量表情符号,国内学者对微博相关话题情感变化趋势的研究较缺乏,实际应用不足。

2)微博舆情分析
微博舆情分析涉及面较广,国内外众多学者都对该领域作过大量研究,提出许多模型、方法,美中不足的是,目前的研究大多关注的是舆情内在演化过程和机理,鲜有将微博情感分析与实际案例相结合的,这便是本文的初衷——为网络舆情治理提供指导。

2、研究方法

1)SVM
该方法采用监督学习方式对二分类问题进行建模。通常分为两类问题: 一类是线性可分,通过超平面把样本分开,寻找一个最优超平面并对其分类; 另一类是线性不可分,将样本映射到高维特征空间,使用核函数将其转化为线性可分。
SVM在情感分类上适应性好,准确性高,很适合情感分析。

2)Word2Vec

a.这是Google开发的一个工具,实质上是一个两层网络,将词转化为向量表示,映射到高维向量空间中,从而寻求词更深层次的特征,预测词与词之间的相似性,进而做聚类分析和词性分析等。

b.Word2Vec包括CBOW 模型和 skip-gram 模型

模型图解(存着,万一以后看懂了呢……)

c.文中提到,将 Word2Vec 和 SVM 结合使用的实验效果精度较高,且用在情感分类恰到好处。因此将网络舆情与情感演化融合,试图构建网络舆情情感分类模型,探索舆情情感演化特征和规律。

3、基于 Word2Vec 和 SVM 的微博情感演化分析

1)数据采集及情感词典构建

a.数据采集。本文采集了2018年“滴滴温州女孩遇害”事件评论数据(不同时间下官方微博下方的评论数据),共有161945条之多。(好多啊……)

b.情感词典构建。BosonNLP 情感词典来源于微博、论坛、新闻等社交媒体文本,且收录大量网络常用语,赋予情感正负值,因此适用于社交媒体情感分析。本文以
BosonNLP 词典为核心,结合 HowNet 中 219 个程度词 、44 个常用的否定词 (取反)、哈工大停用词表 (767 个停用词),构建了一个全面的情感词典。

2)基于 Word2Vec 和 SVM 的情感分类模型构建

a.数据来源及预处理。选取正负极性较高的句子作为语料,按序排列情感值,筛选出小于 -7 值的所有语句和大于 5 值的所有语句,作为模型训练的数据集。

b.训练词向量。本文选取 Word2Vec 词向量模型将文本语料转换为词向量,同时训练Word2Vec 词向量模型,利用新的模型生成词向量矩阵。

c.PCA降维(主成分分析)。多维特征易导致训练时间过长,问题复杂化,对高维数据降维可以增加数据可视化效果,提升数据处理速度,节省成本。

d. SVM 训练模型。emmm…

e.模型验证。训练后模型准确率高,文中还给出一个判断基准AUC=0.97,进一步说明此模型适合于判断情感的正负倾向。

3)情感时序分析

a.通过情感值计算,得到不同时间段评论语句的情感值得分,由此绘制PCA曲线和ROC曲线,并将舆情分为四个阶段:起始期、爆发期、衰退期、消亡期 。

b.结合图像和数据分析总结,网民的情感变化与舆情演变规律相吻合,证明了基于 Word2Vec 和 SVM 的情感分类模型的有效性以及其良好的前景。

4)词云图

a.词云图就是通过形成“关键词云层”或“关键词渲染”,对网络文本中出现频率较高的“关键词”的视觉上的突出。

b.文中通过绘制两个时间段的词云图,分析高频词汇可知网民的情感变化以及舆情演变过程。

4、基于 Word2Vec 词相似度的舆情主体对象情感演化分析

这一部分内容主要是运用 Word2Vec 方法,训练新的模型,计算与滴滴公司、司机、客服、女孩和警察最相似的词,降序排列,获得前 100 个相似词、舆情对象总体情感极性条形图和情感极性占比图,采用 Excel 筛选功能提取各个舆情对象的评论内容,计算情感值和正负向情感比例图,归纳公众对 5 类舆情主题对象的情感态度。

5、结论与展望(摘自原文,原文讲得很好)

a.大数据环境下情感分析是现阶段各领域的研究热点之一。本文以 “滴滴温州女孩遇害”话题为例,采集评论内容作为数据源,基于 Word2Vec 和 SVM 构建了微博舆情情感分类模型,并分析了微博舆情的情感时序演化情况。

b.利用 Word2Vec 计算与5 类舆情主体对象的高相似度词语,从而分析网民对舆情主体对象的情感走势和主题特征,探讨了此事件的四阶段舆情演变特征,并对此提出一些舆情监控建议,有利于政府相关应急管理部门了解网民的情感态度变化,实现精准预测监控微博舆情的目标。

c.本文也存在不足之处: 该事件评论内容庞大,本文只爬取了部分数据,分析结果仅反映此周期内事件的发展变化。另外情感值计算过程中并未考虑到表情符号的作用,未来会进一步增大数据量,从更加细粒度的方向探讨相关问题,并增加句式和语法结构分析,提高准确率。

补充拓展知识:细粒度
①细粒度模型,通俗的讲就是将业务模型中的对象加以细分,从而得到更科学合理的对象模型,直观的说就是划分出很多对象。
②粒度是数据库名词,计算机领域中粒度指系统内存扩展增量的最小值。粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。

读后感

1、寒假看的第三篇也是最后一篇论文了,这是篇中文版的论文,因此很容易看,内容也相对简单,主要介绍了基于Word2Vec 和 SVM 方法构建情感分类模型,并用该模型计算并分析社会事件中网民的情感变化以及舆情情感演变趋势。

2、跟时事热点有关的文本我都挺喜欢的,这篇论文使用的主体也是当年引发网络风波的“滴滴司机”事件,当时我的情绪也是随着案件的变化而变化,对司机的慨愤、对花季少女的怜悯和惋惜,这些情感我都曾有过,没想到现在我是在计算机领域以情感分析的视角宏观地看待这件事,文中提到的微博情感分析实为预测舆情演变的利器,其计算的准确率之高让我眼前一亮,计算机的力量是最顶的!

思维导图

基于 Word2Vec 和 SVM 的微博舆情情感演化分析 论文笔记相关推荐

  1. 基于kmeans聚类算法的微博舆情热点事件分析系统

    目录 第一章 引言 2 1.1 研究背景及意义 2 1.2 国内外相关问题研究现状 3 1.3 论文的理论意义与实用价值 4 第二章 相关技术介绍 4 2.1 开发平台简述 4 2.2 OAuth2. ...

  2. Python_001_旅游评论情感倾向性分析_000_分析(基于深度学习的微博评论情感倾向性分析_胡西祥)论文

    Python_001_旅游评论情感倾向性分析_000_分析论文-2020-8-21 知网链接:基于深度学习的微博评论情感倾向性分析 - 中国知网 (cnki.net) ps.只做分析概括 目录 一.论 ...

  3. 【毕业设计_课程设计】基于Django和vue的微博用户情感分析系统

    文章目录 0 项目说明 1 系统介绍 2 系统功能介绍 3 系统启动注意事项 4 项目工程 0 项目说明 基于Django和vue的微博用户情感分析系统 提示:适合用于课程设计或毕业设计,工作量达标, ...

  4. 【模糊综合评价的运用】——《基于模糊评价法的高校户外公共活动空间研究》论文笔记(内附MATLAB程序)

    基于模糊评价法的高校户外公共活动空间研究 - 中国知网 (cnki.net) [模糊综合评价的运用]--<基于模糊评价法的高校户外公共活动空间研究>论文笔记(内附MATLAB程序) 文章目 ...

  5. 基于图卷积神经网络的微博疫情情感分析

    一.前言 参考论文:Graph Convolutional Networks for Text Classification 官方Github源码:text_gcn 关于微博疫情情感分析,博主之前有过 ...

  6. JAVA实现基于k-means聚类算法实现微博舆情热点分析系统

    微博在这短短几年时间内发展迅速,成为了传播信息的一种很重要的载体,仅新浪微博注册用户早已超过3亿,每日发博量超过1亿条,微博是研究大量舆情信息的最佳场所.微博中如此大的信息量,必然要对信息进行甄选,这 ...

  7. [源码和文档分享]JAVA实现基于k-means聚类算法实现微博舆情热点分析系统

    微博在这短短几年时间内发展迅速,成为了传播信息的一种很重要的载体,仅新浪微博注册用户早已超过3亿,每日发博量超过1亿条,微博是研究大量舆情信息的最佳场所.微博中如此大的信息量,必然要对信息进行甄选,这 ...

  8. 毕业设计之 ---- 基于深度学习的酒店评价的情感倾向分析

    文章目录 概述 项目所需模块 数据 数据说明 字段说明 数据处理 分词处理 停用词处理 样本均衡 建立多层感知机分类模型 训练模型 网络检测率以及检测结果 最后 - 技术解答 - 毕设帮助 概述 本文 ...

  9. 基于同态加密的隐私计算技术在基因序列演化分析场景的应用

    一.概述 数据要素的流通共享和核心价值挖掘是数据要素市场培育的核心内容.必须在保证隐私安全的前提下实现有效信息共享.然而,当前仍然有三大隐私制约数据流通与协作.一是"数据孤岛"现象 ...

最新文章

  1. inum在linux中含义,linux
  2. Keil5报错:error: more than one instance overload function “xx“ has C linkage
  3. HTTP and HTML
  4. bzoj 3687: 简单题
  5. springboot2.3.x版本对应的spring5与thymeleaf版本配置
  6. python 创建空的numpy数组_Numpy入门教程:01. 数组的创建与属性
  7. AUTOSAR从入门到精通100讲(二十七)-AutoSar模式管理总揽
  8. 构建“.NET研究” View 时可能用到的代理函数调用顺序
  9. ubuntu无法连接网络
  10. Python GUI之tkinter 教程大集合
  11. Vue学习--黑马电商管理系统
  12. unity3d双面材质_unity3d中创建双面材质
  13. 【Bug解决】 -1073740791 (0xC0000409)
  14. 优秀logo设计解析_国外30个优秀的logo的设计思维分析
  15. Jshop小程序商城系统说明
  16. 计算机表格公开课,Word表格制作教案公开课
  17. N张图片合成一个最终图片(像素图片)
  18. [转]倾斜摄影单体化实现方案
  19. 【Oracle】TYPE定义的数据类型
  20. linux开机运行级别和关机命令总结

热门文章

  1. 亲爱的老狼- 移动端和PC端的不同
  2. BZOJ1202 狡猾的商人 (Floyd)
  3. CDMA sid, nid, bid 含义解释
  4. EZ-USB FX2单片机原理、编程及应用 读书笔记
  5. Java学习——泛型
  6. java国王毒酒答案,囚犯与毒酒问题
  7. c++ 高精度 加减乘除 四则运算 代码实现
  8. 这种动态条形图+折线图怎么做?今天我来教你!
  9. 全国高校计算机年会,第19届全国离散智能计算年会在我校举行
  10. 【数据结构】-大二数据结构与算法课程设计实训报告