关于舆情分析的实例分析,希望给你带来一些帮助。

前言

距离上次文本挖掘小文章时间已经过了3个月了,北京已经入冬,有人说北京的冬天很冷,但是吃上火锅很暖;也有人说北京的冬天雾霾严重,太干。这两句表达的是对北京冬天的情感,即有正面也有负面。

如果在舆情分析而言,我们在做营销分析,分析产品、活动优劣,或者希望维护品牌PR,我们就需要针对消费者网络发声去分析情感,来帮助我们维护品牌,改善活动产品,来达到监测舆情分析效果。换句话说也就是我们今天分享的主题—sentiment

舆情分析思路

笔者5年前做舆情分析时候一般来说就是人工舆情,并没有加入高级点的分析工具减少人工投入。随着R,python等的流行,同时,随着各种开源包tm,LDA,Rwordseg开发,以及高等概率数学的应用,例如分词算法根据隐性马尔科夫链算法编写而成(有兴趣的同学自己研究),让我们之前的工作量大大减少。因此人工舆情转换成人工纠正舆情大势所趋,即我们使用工具减少读帖子的时间,并且让机器学习,人工后期纠错。

一般而言,舆情分析报告分为以下几个步骤:

前两个可以作为统计分析-统计时间趋势音量,音量份额,后两个可以作为建模分析-主题分析,情感判别。

这里有个小插曲:上次分享的是主题分析,笔者最近又重新梳理了下LDA,发现tm包中文分词形成词频矩阵很不理想,这会导致LDA无法应用,因此,后续笔者会自己写个脚本将词频矩阵实现,这样会方便LDA,会方便聚类分析,以及预测分析。

言回正传,情感分析就是表达发言人对一个主题的看法,有好有坏,或者中立。情感分析应用分类两类,第一是给定正负面词,算分值,高于或者低于baseline则表示正面、负面情绪。第二,根据深度学习,利用神经网络来区分正负情感。本文先实现第一类情感分析。

第一类情感分析:正负面词典(简版)

读入文本,数据清理

本次还是以上次文本为输入项,将content_Full 内容做文本处理

清理原则:

去除特殊字符,空值等,例如☆移动平台☆iOS☆

去除转发的内容,留原作者观点。例如 保留红框内的文本,去除后面转发文本

删除文本过长的内容,内容偏向日记和广告,减少文本噪声

去除stopwords

比如中文常规字符,‘的’‘地’‘得’‘我’等

添加词汇

由于本文是医用词汇,需要添加的词汇偏重医用或者品牌,不让分词拆成单个字符

例如:妈富隆,调经

分词&词云图

文本处理后,根据词频出现频次,且过滤掉分词为单个词的中文,绘制词云图,鼠标所过的词可以显示文本出现次数,例如避孕药:767次

载入正负词典

正面词记1;负面词为-1,便于之后算分值划定情感

计算情感得分

将文本中的分词按照中英文词典的正负面词打分,计算分值,若中性词(不出现字典)则记为0。

分值计算原理

公式 (自己编的,有疑问请留言一起讨论)

情感分值=∑i=1(正面+中性)*(-1)t

i 表示第i句话;t表示出现负面词的次数

公式表示一句话中若出现偶数负面词,表示肯定,例如:我其实觉得他没有那么不通情达理。 两次否定:不,没有,t=2

结果

正面发声分类结果:

负面发声结果

后续改进:

将词频矩阵脚本改写,重现LDA 或者 聚类

对文本先人工预判,将此打分进行 confusion matrix,评估分类器

目测而言负面分类基本正确,正面分类中包含很多中性发声,需要进一步剔除研究

深度学习重现下情感分析

相关阅读

作者:冯大福,微信公众号:说说数据分析那些事儿

本文由 @shangyuan 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自unsplash,基于CC0协议

给作者打赏,鼓励TA抓紧创作!赞赏

python文本聚类 词云图_文本挖掘:避孕药主题情感分析相关推荐

  1. python文本聚类 词云图_有哪些软件可以进行中文词频分析?

    在现实生活中,人想做词云,也有了关键词的数据但自己又不会做词云可怎么办,我给大家推荐几款词云制作工具,让你瞬间呈现美观.酷炫的词云可视化.我们先来看看国外的词云制作工具: 1.Wordle Wordl ...

  2. python文本聚类 词云图_数据思维实践 | TASK 12 文本分析

    原标题:数据思维实践 | TASK 12 文本分析 文本分析可以干什么 生活中文本无处不在,网页上的新闻.证券分析师的研究报告.政府工作报告等等,这些都是文本.如何从文本中挖掘价值是文本分析需要回答的 ...

  3. python根据文本生成词云图

    python根据文本生成词云图 效果 代码 from wordcloud import WordCloud import codecs import jieba #import jieba.analy ...

  4. python生成词云图_用python生成词云图教程

    闲话不多说,直接上干货! STEP1 安装jieba包 点击桌面菜单栏的开始按钮,输入cmd回车,进入命令窗口. 在命令行输入 pip install jieba回车,安装jieba包. 安装word ...

  5. python爬取歌词生成词云图_爬取毛不易歌词作词云展示

    爬取毛不易歌词作词云展示 今天我们做一个数据可视化的项目,爬取毛不易的歌词做词云展示. 1.爬取数据 我们主要使用 Python 爬虫获取 HTML,用 XPath 对歌曲的 ID.名称进行解析,然后 ...

  6. 数据科学 | Python酷炫词云图原来可以这么玩

    ↑↑↑↑↑点击上方蓝色字关注我们! 『运筹OR帷幄』转载 作者:费弗里 编者按 词云图是文本挖掘中用来表征词频的数据可视化图像,通过它可以很直观地展现文本数据中的高频词.词云图过滤掉大量的低频低质的文 ...

  7. NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情)

    NLP之WordCloud:基于jieba+matplotlib库对一段文本生成词云图~~情人节最好的礼物(给你一张过去的词云图,看看那时我们的爱情) 目录 输出词云图结果 输出文本统计 设计思路 实 ...

  8. DayDayUp:寒门女孩考入北大→换角度看待表达《感谢贫穷》—关于吃苦与穷~~~Python之wordcloud词云图可视化

    DayDayUp:寒门女孩考入北大→换角度看待表达<感谢贫穷>-关于吃苦与穷~~~Python之wordcloud词云图可视化 目录 博主看法-关于吃苦与穷 文本内容 寒门女孩考入北大-& ...

  9. Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析

    Python基于WordCloud词云图的数据可视化分析 词云图的基本使用 政府工作报告分析 文章目录 1.词云图简介 2.wordcloud库的安装 3.WordCloud的主要参数说明 4.绘制词 ...

最新文章

  1. 模拟退火算法理论+Python解决函数极值+C++实现解决TSP问题
  2. python安装无法打开_无法在打开时安装/运行docker
  3. JMeter 性能测试进阶实战
  4. winserver2008/2008R2 AD域控/DNS环境搭建详细步骤
  5. 线性同余法产生均匀随机数C语言,利用线性同余法产生随机数进行同步计算
  6. Django 开发的个人博客源码分享
  7. 有限温度量子多体系统与热态张量网络
  8. verilog语法检查
  9. php调用API支付接口 可个人使用,无需营业执照(使用第三方接口,调用的天工接口。)...
  10. css表格文字超数量就竖排_css实现文字竖排
  11. 金融IT应小心陷入单纯追求技术目标的误区
  12. Jxta 命令 shell
  13. SNS游戏中的数据特征随笔
  14. 计算机换了显卡还是打不开,电脑配置可交换显卡打不开的解决办法
  15. 项目经理需要懂技术吗?
  16. 【分享】星图地球数据云影像图API接入指南
  17. 云渲染技术在虚拟仿真应急培训中的应用
  18. 项目经理成长日记(1)—— 启言
  19. 湖北计算机考试打印准考证
  20. 曾GMV过亿的淘宝品牌FFAN(泛泛)宣布店铺歇业

热门文章

  1. 如何导入一个项目 myeclipse
  2. 26.课时26.【Django模版】if标签使用详解(Av61533158,P26)
  3. css-animaton-随堂-风车动画-加载动画-走路动画
  4. 在Hive查询中如何显示列名
  5. 【loj2585】【APIO2018】新家
  6. INNODB自增主键的一些问题 vs mysql获得自增字段下一个值
  7. 网页统计所用到的名词解析
  8. 引用类型和原始类型的对比(java)
  9. IOS8模拟器设置中文输入
  10. 忘记glassfish密码,那就重置密码呗