目录

一、背景介绍

二、爬虫代码

爬虫部分不作讲解。

三、可视化代码

3.1 读取数据

3.2 数据清洗

3.3 可视化

3.3.1 IP属地分析-柱形图

3.3.2 评论时间分析-折线图

3.3.3 点赞数分布-直方图

3.3.4 评论内容-情感分布饼图

3.3.5 评论内容-词云图

三、演示视频


一、背景介绍

您好,我是 @马哥python说,一枚10年程序猿。

以前大家见面都问"吃了没",最近大家见面都问"阳了没",奈何疫情反反复复,惟愿身体安康!

我用python抓取了B站上千条评论,并进行可视化分析,下面详细讲解代码。

二、爬虫代码

爬虫部分不作讲解。

三、可视化代码

为了方便看效果,以下代码采用jupyter notebook进行演示。

3.1 读取数据

用read_csv读取刚才爬取的B站评论数据:

查看前3行及数据形状:

3.2 数据清洗

处理空值及重复值:

3.3 可视化

3.3.1 IP属地分析-柱形图

可得结论:关于"阳了"这个话题,评论里关注度最高为广东、北京、江苏等地区,其中,广东省的关注度最高。同时,我们注意到,也包含一些海外网友的少量评论。

3.3.2 评论时间分析-折线图

分析出评论时间的分布情况:

可得结论:关于"阳了"这个话题,再抓取到的数据范围内,12.18日的评论数据量最大,达到了将近900的数量峰值。

3.3.3 点赞数分布-直方图

由于点赞数大部分为0或个位数情况,个别点赞数到达成千上万,直方图展示效果不佳,因此,仅提取点赞数<30的数据绘制直方图。

可得结论:从直方图的分布来看,点赞数在0-3个的评论占据大多数,很少点赞数达到了上千上万的情况。证明网友对"阳了"事件的态度分布比较均匀,没有出现态度非常聚集的评论内容。

3.3.4 评论内容-情感分布饼图

针对中文评论数据,采用snownlp开发情感判定函数:

情感分布饼图,如下:

可得结论:关于"阳了"这个话题,积极评价与消极评价占比差不多,积极评价稍高一点,反应出网友对感染阳性的态度反差很大,大约各占一半。

3.3.5 评论内容-词云图

初始化停用词和词云图对象:

jieba分词之后,对分词后数据进行绘制词云图:

可得结论:在词云图中,阳、感染、发烧、症状、疼、嗓子等词汇较大,出现频率较高,反应出众多网友对确诊阳性后描述病症、积极探讨病情的现状。

三、演示视频

【爬虫+可视化】演示:用python抓取并分析哔哩哔哩关于"阳了"的评论数据_哔哩哔哩_bilibili


首发公号:【爬虫+数据清洗+可视化分析】舆情分析哔哩哔哩"阳了"的评论


我是马哥,全网累计粉丝上万,欢迎一起交流python技术。

各平台搜索“马哥python说”:知乎、哔哩哔哩、小红书、新浪微博。

【爬虫+数据清洗+可视化分析】用Python分析哔哩哔哩“阳了“的评论数据相关推荐

  1. 【数据分析大作业 爬虫+数据清洗+可视化分析】Python抓取视频评论并生成词云、情感指数柱状图、性别比例饼图及评论信息表格

    目录 一些将BV号转化为AV号的变量设置 词云屏蔽词设置 使用代理IP(直接从IP网站复制的) 爬虫的函数 将结果写入表格中 下面是主函数,首先看看能不能抓取到,还有一些变量设置 开始循环爬评论 对一 ...

  2. Python文本挖掘练习(五)// 电商产品评论数据情感分析

    第一部分 案例简介 本案例首先利用Python文本挖掘技术,对碎片化.非结构化的电商网站评论数据进行清洗与处理,转化为结构化数据.然后对文本数据进一步挖掘与分析,采用决策树算法构建情感分类模型,探索用 ...

  3. 利用python分析电商_基于Word2Vec+SVM对电商的评论数据进行情感分析

    Word2Vec-sentiment 基于Word2Vec+SVM对电商的评论数据进行情感分析 首先是利用word2vec对正负评论数据进行词向量训练,然后利用SVM分类器对语料进行分类,具体的过程如 ...

  4. python分析股票,python分析股票,python分析股票常用的策略

    内容导航: Q1:怎样用python处理股票 用Python处理股票需要获取股票数据,以国内股票数据为例,可以安装Python的第三方库:tushare:一个国内股票数据获取包.可以在百度中搜索&qu ...

  5. python使用TSNE为影像组学(radiomics)数据进行降维可视化分析

    python使用TSNE为影像组学(radiomics)数据进行降维可视化分析 目录 python使用TSNE为影像组学(radiomics)数据进行降维可视化分析

  6. 基于Python的招聘网站爬虫及可视化的设计与实现

    摘 要 I Abstract II 引 言 1 第1章 课题概述 2 1.1 课题内容 2 1.2 课题背景 2 1.3 课题意义 3 1.4 运行环境 3 1.5 相关技术 3 1.5.1 Pyth ...

  7. 【项目实战】Python实现基于LDA主题模型进行电商产品评论数据情感分析

    说明:这是一个机器学习.数据挖掘实战项目(附带数据+代码+文档+视频讲解),如需数据+代码+文档+视频讲解可以直接到文章最后获取. 视频: Python实现基于LDA模型进行电商产品评论数据情感分析 ...

  8. 用Python分析了1982场英雄联盟数据,开局前预测游戏对局胜负!

    微信改版,加星标不迷路! 用Python分析如何打好英雄联盟? 作者:阿广 概述 前言 假设 游戏对战数据获取 分析和训练数据 游戏对战胜负预测 期望研究的问题 结论 阿广说 推荐阅读 前言 如今,只 ...

  9. 用 Python 分析了 1982 场英雄联盟数据,开局前预测游戏对局胜负!

    前言 如今,只要随便进入一个网吧,都会发现玩<英雄联盟>的人是最多的,可以这么说,<英雄联盟>已经是当之无愧的端游一哥.而在拥有如此基数玩家的<英雄联盟>,已经不仅 ...

最新文章

  1. 线性O(N)时间复杂度求素数 , 筛法
  2. Chrome——我的Chrome插件
  3. Web安全——易班优课YOOC课群在线测试自动答题解决方案
  4. 是什么让你踏上了程序员的道路?
  5. nodejs实践录:pm2使用
  6. stm32 串口通信数据移位寄存器_STM32串口接RS485丢码问题已解决*_*
  7. DSS与Schedulis的集成安装教程(单机)
  8. 农业大数据中心建设可行性方案
  9. MySQL的关键技术及主要特征_生物特征识别十大关键技术解析
  10. 信号类型(雷达)——连续波雷达(二)
  11. 杂谈:WiFi7 -802.11ax的实现成本
  12. Web服务器之Tomcat大全
  13. 卡巴斯基+NodeJS打造远程杀毒服务器
  14. C语言二分查找(指针)
  15. IPFS WebUI
  16. 传真服务器实现全程无纸化应用
  17. flutter 中顶部tabBar底色设置
  18. 永远的错误,不理解的结果
  19. Modernizr的简单使用
  20. 用户思维与流量思维,最大的一点区别是什么呢?

热门文章

  1. Cadence OrCAD Capture 打印图纸的某一个部分的方法
  2. 数论题中(杜教筛)交换求和符号
  3. 老友记中经典高频口语100句
  4. 爬取某视频网站电影,仅参考学习
  5. meta标签(以京东首页为例)
  6. Canal源码分析deployer模块
  7. 好嗨哟!OneOS 图形组件显示自己喜欢的图片
  8. 数学中的术语与常用表达
  9. 宝塔搭建网站教程php,怎么利用宝塔面板搭建网站详细教程
  10. 使用时间序列分解模型预测商品销量