用python爬取冰冰B站千条评论,我发现了这些...
Python爬取 冰冰 第一条B站视频的千条评论,绘制词云图,看看大家说了什么吧
B站当日弹幕获取冰冰B站视频弹幕爬取原理解析
数据分析
import pandas as pd
data = pd.read_excel(r"bingbing.xlsx")
data.head()
用户 | 性别 | 等级 | 评论 | 点赞 | |
---|---|---|---|---|---|
0 | 食贫道 | 男 | 6 | [呆][呆][呆]你来了嘿! | 158457 |
1 | 毕导THU | 男 | 6 | 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 | 148439 |
2 | 老师好我叫何同学 | 男 | 6 | [热词系列_知识增加] | 89634 |
3 | 央视网快看 | 保密 | 6 | 冰冰来了!我们要失业了吗[doge][doge] | 118370 |
4 | 厦门大学 | 保密 | 5 | 哇欢迎冰冰!!! | 66196 |
原文链接
数据预处理
数据描述
data.describe()
等级 | 点赞 | |
---|---|---|
count | 1180.000000 | 1180.000000 |
mean | 4.481356 | 2200.617797 |
std | 1.041379 | 10872.524850 |
min | 2.000000 | 1.000000 |
25% | 4.000000 | 4.000000 |
50% | 5.000000 | 9.000000 |
75% | 5.000000 | 203.750000 |
max | 6.000000 | 158457.000000 |
删除空值
data.dropna()
用户 | 性别 | 等级 | 评论 | 点赞 | |
---|---|---|---|---|---|
0 | 食贫道 | 男 | 6 | [呆][呆][呆]你来了嘿! | 158457 |
1 | 毕导THU | 男 | 6 | 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 | 148439 |
2 | 老师好我叫何同学 | 男 | 6 | [热词系列_知识增加] | 89634 |
3 | 央视网快看 | 保密 | 6 | 冰冰来了!我们要失业了吗[doge][doge] | 118370 |
4 | 厦门大学 | 保密 | 5 | 哇欢迎冰冰!!! | 66196 |
... | ... | ... | ... | ... | ... |
1175 | 黑旗鱼 | 保密 | 5 | 11小时一百万,好快[惊讶] | 5 |
1176 | 是你的益达哦 | 男 | 6 | 冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟... | 5 |
1177 | 快乐风男崔斯特 | 男 | 4 | 军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽] | 5 |
1178 | 很认真的大熊 | 男 | 5 | 我觉得冰冰主持春晚应该问题不大吧。[OK] | 5 |
1179 | 飞拖鞋呀吼 | 保密 | 5 | 《论一个2级号如何在2020年最后一天成为百大up主》 | 5 |
1180 rows × 5 columns
删除空值
data.drop_duplicates()
用户 | 性别 | 等级 | 评论 | 点赞 | |
---|---|---|---|---|---|
0 | 食贫道 | 男 | 6 | [呆][呆][呆]你来了嘿! | 158457 |
1 | 毕导THU | 男 | 6 | 我是冰冰仅有的3个关注之一[tv_doge]我和冰冰贴贴 | 148439 |
2 | 老师好我叫何同学 | 男 | 6 | [热词系列_知识增加] | 89634 |
3 | 央视网快看 | 保密 | 6 | 冰冰来了!我们要失业了吗[doge][doge] | 118370 |
4 | 厦门大学 | 保密 | 5 | 哇欢迎冰冰!!! | 66196 |
... | ... | ... | ... | ... | ... |
1175 | 黑旗鱼 | 保密 | 5 | 11小时一百万,好快[惊讶] | 5 |
1176 | 是你的益达哦 | 男 | 6 | 冰冰粉丝上涨速度:11小时107.3万,平均每小时上涨9.75万,每分钟上涨1625,每秒钟... | 5 |
1177 | 快乐风男崔斯特 | 男 | 4 | 军训的时候去了趟厕所,出来忘记是哪个队伍了。看了up的视频才想起来,是三连[doge][滑稽] | 5 |
1178 | 很认真的大熊 | 男 | 5 | 我觉得冰冰主持春晚应该问题不大吧。[OK] | 5 |
1179 | 飞拖鞋呀吼 | 保密 | 5 | 《论一个2级号如何在2020年最后一天成为百大up主》 | 5 |
1179 rows × 5 columns
可视化
点赞TOP20
df1 = data.sort_values(by="点赞",ascending=False).head(20)
from pyecharts import options as opts
from pyecharts.charts import Bar
from pyecharts.faker import Fakerc1 = (Bar().add_xaxis(df1["评论"].to_list()).add_yaxis("点赞数", df1["点赞"].to_list(), color=Faker.rand_color()).set_global_opts(title_opts=opts.TitleOpts(title="评论热度Top20"),datazoom_opts=[opts.DataZoomOpts(), opts.DataZoomOpts(type_="inside")],).render_notebook()
)
c1
等级分布
data.等级.value_counts().sort_index(ascending=False)
6 165
5 502
4 312
3 138
2 63
Name: 等级, dtype: int64
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Fakerc2 = (Pie().add("",[list(z) for z in zip([str(i) for i in range(2,7)], [63,138,312,502,165])],radius=["40%", "75%"],).set_global_opts(title_opts=opts.TitleOpts(title="等级分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render_notebook()
)
c2
性别分布
data.性别.value_counts().sort_index(ascending=False)
from pyecharts import options as opts
from pyecharts.charts import Pie
from pyecharts.faker import Fakerc4 = (Pie().add("",[list(z) for z in zip(["男","女","保密"], ["404",'103','673'])],radius=["40%", "75%"],).set_global_opts(title_opts=opts.TitleOpts(title="性别分布"),legend_opts=opts.LegendOpts(orient="vertical", pos_top="15%", pos_left="2%"),).set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c}")).render_notebook())
c4
绘制词云图
from wordcloud import WordCloud
import jieba
from tkinter import _flatten
from matplotlib.pyplot import imread
from PIL import Image, ImageDraw, ImageFont
import matplotlib.pyplot as plt
with open('stoplist.txt', 'r', encoding='utf-8') as f:stopWords = f.read()
with open('停用词.txt','r',encoding='utf-8') as t:stopWord = t.read()
total = stopWord.split() + stopWords.split()
def my_word_cloud(data=None, stopWords=None, img=None):dataCut = data.apply(jieba.lcut) # 分词dataAfter = dataCut.apply(lambda x: [i for i in x if i not in stopWords]) # 去除停用词wordFre = pd.Series(_flatten(list(dataAfter))).value_counts() # 统计词频mask = plt.imread(img)plt.figure(figsize=(20,20))wc = WordCloud(scale=10,font_path='C:/Windows/Fonts/STXINGKA.TTF',mask=mask,background_color="white",)wc.fit_words(wordFre)plt.imshow(wc)plt.axis('off')
my_word_cloud(data=data["评论"],stopWords=stopWords,img="1.jpeg")
http://www.taodudu.cc/news/show-5909191.html
相关文章:
- 博客——博客搭建
- 2018,还剩下一个月了。
- 龙——崔斯特·杜垩登
- 怀旧——崔斯特·杜垩登
- jquery对象PHP转换,JavaScript_jQuery对象与DOM对象之间的相互转换,1、jQuery对象转换成DOM对象 jQue - phpStudy...
- android 选择年月日历,Android_java万年历,获取该年月日历表,这篇文章应用java技术输入年份 - phpStudy...
- 什么才是成年人
- 童梦奇缘 中的一段对白...
- 下次不敢《童梦奇缘》片尾曲铃声 下次不敢《童梦奇缘》片尾曲...
- 《童梦奇缘-梦幻般的羁绊》第四章-双殇
- 《童梦奇缘-梦幻般的羁绊》第九章-血霜
- 《童梦奇缘-梦幻般的羁绊》第八章-殇变
- 《童梦奇缘-梦幻般的羁绊》第二章-初现
- 《童梦奇缘-梦幻般的羁绊》第五章-长河
- 《童梦奇缘-梦幻般的羁绊》第三章-囹圄
- 《童梦奇缘-梦幻般的羁绊》第十章-郂殇
- 《童梦奇缘》
- 《童梦奇缘-梦幻般的羁绊》第十一章-奇点
- 童梦奇缘
- 美国12月ISM制造业PMI回落 现货金1800关口徘徊交投
- 迷茫中的java入門者
- 城市的守望者
- 管理与技术之间的徘徊
- 徘徊的路口
- 如何做一个随机徘徊的小蝙蝠
- 总是在徘徊
- 人员异常徘徊智能监测 yolov5
- 【语音识别】基于BP神经网络实现语音识别附matlab代码
- 口播神器,基于Edge,微软TTS(text-to-speech)文字转语音免费开源库edge-tts实践(Python3.10)
- 语音信号处理 | 基于卡尔曼滤波的语音增强算法
用python爬取冰冰B站千条评论,我发现了这些...相关推荐
- Python爬取了猫眼47858万条评论,告诉你《飞驰人生》值不值得看?!
来源 | Yura不说数据说 坦白说,看前几部电影的时候,我一直在想"到底放不放阿信的歌啊?什么时候放啊?",那看<飞驰人生>的时候,直到影片结束片尾曲<一半人生 ...
- Python 爬取了猫眼 47858 万条评论,告诉你《飞驰人生》值不值得看?!
坦白说,看前几部电影的时候,我一直在想"到底放不放阿信的歌啊?什么时候放啊?",那看<飞驰人生>的时候,直到影片结束片尾曲<一半人生>响起的时候,我才记起来 ...
- 用Python爬取陈奕迅歌曲10万条评论的新发现
一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...
- Python爬取腾讯视频16978条弹幕,发现弹幕比剧还精彩
东北民间流传着关于"皇围猎人"的神秘传说 他们世代生存于深山,为帝王守护兴安岭这片龙兴之地的气脉运转.传闻猎人除了精通狩猎之法,更知晓驱鬼通神之术. 在东北一处偏僻的山村里,悄然发 ...
- python的歌曲评论数据分析_用Python爬取陈奕迅歌曲10万条评论的新发现
一.抓数据 要想做成词云图表,首先得有数据才行.于是需要一点点的爬虫技巧. 基本思路为:抓包分析.加密信息处理.抓取热门评论信息 1.抓包分析 我们首先用浏览器打开网易云音乐的网页版,进入陈奕迅< ...
- Python爬取De下载站相关代码
Python爬取De下载站相关代码,因为没有设置代理,所以爬到800页左右就被干掉了,后续要加上 import urllib.request import bs4 import re import t ...
- python爬取考研成绩什么时候出来_用Python爬取了考研吧1000条帖子,原来他们都在讨论这些...
原标题:用Python爬取了考研吧1000条帖子,原来他们都在讨论这些 写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼 ...
- Python爬取豆瓣《复仇者联盟3》评论并生成乖萌的格鲁特
代码地址如下: http://www.demodashi.com/demo/13257.html 1. 需求说明 本项目基于Python爬虫,爬取豆瓣电影上关于复仇者联盟3的所有影评,并保存至本地文件 ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘"这出好戏"到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至 ...
最新文章
- HDU 2431 Counting Problem
- WinForm 捕获最小化事件
- vue实例属性之el,template,render
- UVa 11324 最大团(强连通分量缩点)
- JavaScript中的的面向对象中的一些知识
- 7-20 打印九九口诀表 (15 分)
- python是什么类型的语言-Python是什么?简单了解pythonp-入门
- iOS关于上传iTunes store一直卡住终极解决方案
- 关于ActionForm的一些问题
- 山上有一口缸可以装50升水,现在有15升水。老和尚叫小和尚下山挑水,每次可以挑5升。问:小和尚要挑几次水才可以把水缸挑满?通过编程解决这个问题。
- c语言:用二分法求方程在(-10,10)之间的根:2x^3-4x^2+3x-6=0.
- Codeforces 731C Socks By Assassin
- 关于开灯问题的两种解法
- 内网渗透- *** PTH(传递哈希)***PTT(传递票据)***PTK(传递密钥)
- ap mt7260a 华硕_华硕(ASUS)路由器AP模式设置_华硕路由器当无线AP设置-192路由网
- 00后大学生在数学真理阳光下学习微积分
- 心情顿时很失落的感觉!
- Web思维导图实现的技术点分析
- Unity--PicoVR开发--记录
- 数字艺术藏品系统开发
热门文章
- 三星 android 5.0 root,三星E330S 5.0 root教程_三星E330S获取5.0系统root的方法
- 【面试记录】YY直播黑盒测试实习生
- 远程支持软件:轻松解决电脑问题!
- 安信Windows驱动开发教程:什么是通用 Windows 平台 (UWP) 应用程序?有什么功能?
- 应用软件和操作系统的本质区别
- 基于 Nepxion/Discovery 的灰度发布实现
- 2013年总结(3)-活动篇
- 关于电机驱动扩展板 L293D 马达板Arduino
- GreenPlum 客户端管理工具
- QT子线程实现串口通信_学习记录