【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据
目录
一、背景介绍
二、爬虫代码
爬虫部分不作讲解。
三、可视化代码
3.1 读取数据
3.2 数据清洗
3.3 可视化
3.3.1 IP属地分析-柱形图
3.3.2 评论时间分析-折线图
3.3.3 点赞数分布-直方图
3.3.4 评论内容-情感分布饼图
3.3.5 评论内容-词云图
三、演示视频
一、背景介绍
您好,我是 @马哥python说,一枚10年程序猿。
以前大家见面都问"吃了没",最近大家见面都问"阳了没",奈何疫情反反复复,惟愿身体安康!
我用python抓取了B站上千条评论,并进行可视化分析,下面详细讲解代码。
二、爬虫代码
爬虫部分不作讲解。
三、可视化代码
为了方便看效果,以下代码采用jupyter notebook进行演示。
3.1 读取数据
用read_csv读取刚才爬取的B站评论数据:
查看前3行及数据形状:
3.2 数据清洗
处理空值及重复值:
3.3 可视化
3.3.1 IP属地分析-柱形图
可得结论:关于"阳了"这个话题,评论里关注度最高为广东、北京、江苏等地区,其中,广东省的关注度最高。同时,我们注意到,也包含一些海外网友的少量评论。
3.3.2 评论时间分析-折线图
分析出评论时间的分布情况:
可得结论:关于"阳了"这个话题,再抓取到的数据范围内,12.18日的评论数据量最大,达到了将近900的数量峰值。
3.3.3 点赞数分布-直方图
由于点赞数大部分为0或个位数情况,个别点赞数到达成千上万,直方图展示效果不佳,因此,仅提取点赞数<30的数据绘制直方图。
可得结论:从直方图的分布来看,点赞数在0-3个的评论占据大多数,很少点赞数达到了上千上万的情况。证明网友对"阳了"事件的态度分布比较均匀,没有出现态度非常聚集的评论内容。
3.3.4 评论内容-情感分布饼图
针对中文评论数据,采用snownlp开发情感判定函数:
情感分布饼图,如下:
可得结论:关于"阳了"这个话题,积极评价与消极评价占比差不多,积极评价稍高一点,反应出网友对感染阳性的态度反差很大,大约各占一半。
3.3.5 评论内容-词云图
初始化停用词和词云图对象:
jieba分词之后,对分词后数据进行绘制词云图:
可得结论:在词云图中,阳、感染、发烧、症状、疼、嗓子等词汇较大,出现频率较高,反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。
三、演示视频
【爬虫+可视化】演示:用python抓取并分析哔哩哔哩关于"阳了"的评论数据_哔哩哔哩_bilibili
首发公号:【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论
我是马哥,全网累计粉丝上万,欢迎一起交流python技术。
各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。
【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据相关推荐
- 【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格
目录 一些将BV号转化为AV号的变量设置 词云屏蔽词设置 使用代理IP(直接从IP网站复制的) 爬虫的函数 将结果写入表格中 下面是主函数,首先看看能不能抓取到,还有一些变量设置 开始循环爬评论 对一 ...
- Python文本挖掘练习(五)// 电商产品评论数据情感分析
第一部分 案例简介 本案例首先利用Python文本挖掘技术,对碎片化.非结构化的电商网站评论数据进行清洗与处理,转化为结构化数据.然后对文本数据进一步挖掘与分析,采用决策树算法构建情感分类模型,探索用 ...
- 利用python分析电商_基于Word2Vec+SVM对电商的评论数据进行情感分析
Word2Vec-sentiment 基于Word2Vec+SVM对电商的评论数据进行情感分析 首先是利用word2vec对正负评论数据进行词向量训练,然后利用SVM分类器对语料进行分类,具体的过程如 ...
- python分析股票,python分析股票,python分析股票常用的策略
内容导航: Q1:怎样用python处理股票 用Python处理股票需要获取股票数据,以国内股票数据为例,可以安装Python的第三方库:tushare:一个国内股票数据获取包.可以在百度中搜索&qu ...
- python使用TSNE为影像组学(radiomics)数据进行降维可视化分析
python使用TSNE为影像组学(radiomics)数据进行降维可视化分析 目录 python使用TSNE为影像组学(radiomics)数据进行降维可视化分析
- 基于Python的招聘网站爬虫及可视化的设计与实现
摘 要 I Abstract II 引 言 1 第1章 课题概述 2 1.1 课题内容 2 1.2 课题背景 2 1.3 课题意义 3 1.4 运行环境 3 1.5 相关技术 3 1.5.1 Pyth ...
- 【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析
说明:这是一个机器学习.数据挖掘实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 视频: Python实现基于LDA模型进行电商产品评论数据情感分析 ...
- 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!
微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广 概述 前言 假设 游戏对战数据获取 分析和训练数据 游戏对战胜负预测 期望研究的问题 结论 阿广说 推荐阅读 前言 如今,只 ...
- 用 Python 分析了 1982 场英雄联盟数据,开局前预测游戏对局胜负!
前言 如今,只要随便进入一个网吧,都会发现玩<英雄联盟>的人是最多的,可以这么说,<英雄联盟>已经是当之无愧的端游一哥.而在拥有如此基数玩家的<英雄联盟>,已经不仅 ...
最新文章
- 线性O(N)时间复杂度求素数 , 筛法
- Chrome——我的Chrome插件
- Web安全——易班优课YOOC课群在线测试自动答题解决方案
- 是什么让你踏上了程序员的道路?
- nodejs实践录:pm2使用
- stm32 串口通信数据移位寄存器_STM32串口接RS485丢码问题已解决*_*
- DSS与Schedulis的集成安装教程(单机)
- 农业大数据中心建设可行性方案
- MySQL的关键技术及主要特征_生物特征识别十大关键技术解析
- 信号类型(雷达)——连续波雷达(二)
- 杂谈:WiFi7 -802.11ax的实现成本
- Web服务器之Tomcat大全
- 卡巴斯基+NodeJS打造远程杀毒服务器
- C语言二分查找(指针)
- IPFS WebUI
- 传真服务器实现全程无纸化应用
- flutter 中顶部tabBar底色设置
- 永远的错误,不理解的结果
- Modernizr的简单使用
- 用户思维与流量思维,最大的一点区别是什么呢?