Python爬取 冰冰 第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧

B站当日弹幕获取冰冰B站视频弹幕爬取原理解析

数据分析

import pandas as pd
data = pd.read_excel(r"bingbing.xlsx")
data.head()
用户 性别 等级 评论 点赞
0 食贫道 6 [呆][呆][呆]你来了嘿! 158457
1 毕导THU 6 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 148439
2 老师好我叫何同学 6 [热词系列_知识增加] 89634
3 央视网快看 保密 6 冰冰来了!我们要失业了吗[doge][doge] 118370
4 厦门大学 保密 5 哇欢迎冰冰!!! 66196

原文链接

数据预处理

数据描述

data.describe()
等级 点赞
count 1180.000000 1180.000000
mean 4.481356 2200.617797
std 1.041379 10872.524850
min 2.000000 1.000000
25% 4.000000 4.000000
50% 5.000000 9.000000
75% 5.000000 203.750000
max 6.000000 158457.000000

删除空值

data.dropna()
用户 性别 等级 评论 点赞
0 食贫道 6 [呆][呆][呆]你来了嘿! 158457
1 毕导THU 6 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 148439
2 老师好我叫何同学 6 [热词系列_知识增加] 89634
3 央视网快看 保密 6 冰冰来了!我们要失业了吗[doge][doge] 118370
4 厦门大学 保密 5 哇欢迎冰冰!!! 66196
... ... ... ... ... ...
1175 黑旗鱼 保密 5 11小时一百万,好快[惊讶] 5
1176 是你的益达哦 6 冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟... 5
1177 快乐风男崔斯特 4 军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽] 5
1178 很认真的大熊 5 我觉得冰冰主持春晚应该问题不大吧。[OK] 5
1179 飞拖鞋呀吼 保密 5 《论一个2级号如何在2020年最后一天成为百大up主》 5

1180 rows × 5 columns

删除空值

data.drop_duplicates()
用户 性别 等级 评论 点赞
0 食贫道 6 [呆][呆][呆]你来了嘿! 158457
1 毕导THU 6 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 148439
2 老师好我叫何同学 6 [热词系列_知识增加] 89634
3 央视网快看 保密 6 冰冰来了!我们要失业了吗[doge][doge] 118370
4 厦门大学 保密 5 哇欢迎冰冰!!! 66196
... ... ... ... ... ...
1175 黑旗鱼 保密 5 11小时一百万,好快[惊讶] 5
1176 是你的益达哦 6 冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟... 5
1177 快乐风男崔斯特 4 军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽] 5
1178 很认真的大熊 5 我觉得冰冰主持春晚应该问题不大吧。[OK] 5
1179 飞拖鞋呀吼 保密 5 《论一个2级号如何在2020年最后一天成为百大up主》 5

1179 rows × 5 columns

可视化

点赞TOP20

df1 = data.sort_values(by="点赞",ascending=False).head(20)
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Fakerc1 = (Bar().add_xaxis(df1["评论"].to_list()).add_yaxis("点赞数", df1["点赞"].to_list(), color=Faker.rand_color()).set_global_opts(title_opts=opts.TitleOpts(title="评论热度Top20"),datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],).render_notebook()
)
c1

等级分布

data.等级.value_counts().sort_index(ascending=False)
6    165
5    502
4    312
3    138
2     63
Name: 等级, dtype: int64
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Fakerc2 = (Pie().add("",[list(z) for z in zip([str(i) for i in range(2,7)], [63,138,312,502,165])],radius=["40%", "75%"],).set_global_opts(title_opts=opts.TitleOpts(title="等级分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render_notebook()
)
c2

性别分布

data.性别.value_counts().sort_index(ascending=False)
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Fakerc4 = (Pie().add("",[list(z) for z in zip(["男","女","保密"], ["404",'103','673'])],radius=["40%", "75%"],).set_global_opts(title_opts=opts.TitleOpts(title="性别分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render_notebook())
c4

绘制词云图

from wordcloud import WordCloud
import jieba
from tkinter import _flatten
from matplotlib.pyplot import imread
from PIL import Image, ImageDraw, ImageFont
import matplotlib.pyplot as plt
with open('stoplist.txt', 'r', encoding='utf-8') as f:stopWords = f.read()
with open('停用词.txt','r',encoding='utf-8') as t:stopWord = t.read()
total = stopWord.split() + stopWords.split()
def my_word_cloud(data=None, stopWords=None, img=None):dataCut = data.apply(jieba.lcut)  # 分词dataAfter = dataCut.apply(lambda x: [i for i in x if i not in stopWords])  # 去除停用词wordFre = pd.Series(_flatten(list(dataAfter))).value_counts()  # 统计词频mask = plt.imread(img)plt.figure(figsize=(20,20))wc  = WordCloud(scale=10,font_path='C:/Windows/Fonts/STXINGKA.TTF',mask=mask,background_color="white",)wc.fit_words(wordFre)plt.imshow(wc)plt.axis('off')
my_word_cloud(data=data["评论"],stopWords=stopWords,img="1.jpeg")
天气好冷,我整个人都是冰冰的


http://www.taodudu.cc/news/show-5909191.html

相关文章:

  • 博客——博客搭建
  • 2018,还剩下一个月了。
  • 龙——崔斯特·杜垩登
  • 怀旧——崔斯特·杜垩登
  • jquery对象PHP转换,JavaScript_jQuery对象与DOM对象之间的相互转换,1、jQuery对象转换成DOM对象 jQue - phpStudy...
  • android 选择年月日历,Android_java万年历,获取该年月日历表,这篇文章应用java技术输入年份 - phpStudy...
  • 什么才是成年人
  • 童梦奇缘 中的一段对白...
  • 下次不敢《童梦奇缘》片尾曲铃声 下次不敢《童梦奇缘》片尾曲...
  • 《童梦奇缘-梦幻般的羁绊》第四章-双殇
  • 《童梦奇缘-梦幻般的羁绊》第九章-血霜
  • 《童梦奇缘-梦幻般的羁绊》第八章-殇变
  • 《童梦奇缘-梦幻般的羁绊》第二章-初现
  • 《童梦奇缘-梦幻般的羁绊》第五章-长河
  • 《童梦奇缘-梦幻般的羁绊》第三章-囹圄
  • 《童梦奇缘-梦幻般的羁绊》第十章-郂殇
  • 《童梦奇缘》
  • 《童梦奇缘-梦幻般的羁绊》第十一章-奇点
  • 童梦奇缘
  • 美国12月ISM制造业PMI回落 现货金1800关口徘徊交投
  • 迷茫中的java入門者
  • 城市的守望者
  • 管理与技术之间的徘徊
  • 徘徊的路口
  • 如何做一个随机徘徊的小蝙蝠
  • 总是在徘徊
  • 人员异常徘徊智能监测 yolov5
  • 【语音识别】基于BP神经网络实现语音识别附matlab代码
  • 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)
  • 语音信号处理 | 基于卡尔曼滤波的语音增强算法

用python爬取冰冰B站千条评论,我发现了这些...相关推荐

  1. Python爬取了猫眼47858万条评论,告诉你《飞驰人生》值不值得看?!

    来源 | Yura不说数据说 坦白说,看前几部电影的时候,我一直在想"到底放不放阿信的歌啊?什么时候放啊?",那看<飞驰人生>的时候,直到影片结束片尾曲<一半人生 ...

  2. Python 爬取了猫眼 47858 万条评论,告诉你《飞驰人生》值不值得看?!

    坦白说,看前几部电影的时候,我一直在想"到底放不放阿信的歌啊?什么时候放啊?",那看<飞驰人生>的时候,直到影片结束片尾曲<一半人生>响起的时候,我才记起来 ...

  3. 用Python爬取陈奕迅歌曲10万条评论的新发现

    一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...

  4. Python爬取腾讯视频16978条弹幕,发现弹幕比剧还精彩

    东北民间流传着关于"皇围猎人"的神秘传说 他们世代生存于深山,为帝王守护兴安岭这片龙兴之地的气脉运转.传闻猎人除了精通狩猎之法,更知晓驱鬼通神之术. 在东北一处偏僻的山村里,悄然发 ...

  5. python的歌曲评论数据分析_用Python爬取陈奕迅歌曲10万条评论的新发现

    一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...

  6. Python爬取De下载站相关代码

    Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...

  7. python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些...

    原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些 写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...

  8. Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特

    代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...

  9. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...

最新文章

  1. HDU 2431 Counting Problem
  2. WinForm 捕获最小化事件
  3. vue实例属性之el,template,render
  4. UVa 11324 最大团(强连通分量缩点)
  5. JavaScript中的的面向对象中的一些知识
  6. 7-20 打印九九口诀表 (15 分)
  7. python是什么类型的语言-Python是什么?简单了解pythonp-入门
  8. iOS关于上传iTunes store一直卡住终极解决方案
  9. 关于ActionForm的一些问题
  10. 山上有一口缸可以装50升水,现在有15升水。老和尚叫小和尚下山挑水,每次可以挑5升。问:小和尚要挑几次水才可以把水缸挑满?通过编程解决这个问题。
  11. c语言:用二分法求方程在(-10,10)之间的根:2x^3-4x^2+3x-6=0.
  12. Codeforces 731C Socks By Assassin
  13. 关于开灯问题的两种解法
  14. 内网渗透- *** PTH(传递哈希)***PTT(传递票据)***PTK(传递密钥)
  15. ap mt7260a 华硕_华硕(ASUS)路由器AP模式设置_华硕路由器当无线AP设置-192路由网
  16. 00后大学生在数学真理阳光下学习微积分
  17. 心情顿时很失落的感觉!
  18. Web思维导图实现的技术点分析
  19. Unity--PicoVR开发--记录
  20. 数字艺术藏品系统开发

热门文章

  1. 三星 android 5.0 root,三星E330S 5.0 root教程_三星E330S获取5.0系统root的方法
  2. 【面试记录】YY直播黑盒测试实习生
  3. 远程支持软件:轻松解决电脑问题!
  4. 安信Windows驱动开发教程:什么是通用 Windows 平台 (UWP) 应用程序?有什么功能?
  5. 应用软件和操作系统的本质区别
  6. 基于 Nepxion/Discovery 的灰度发布实现
  7. 2013年总结(3)-活动篇
  8. 关于电机驱动扩展板 L293D 马达板Arduino
  9. GreenPlum 客户端管理工具
  10. QT子线程实现串口通信_学习记录