文章目录

  • 一、使用cookie进行登录
  • 二、个人历史数据爬取
  • 三、数据清洗
  • 四、数据分析

完整代码链接:查看

一、使用cookie进行登录

我们已经进行了模拟用户登录并获取了cookie,所以在爬取的时候直接使用cookie就能实现登录了。

二、个人历史数据爬取

最后数据呈现:

get_personal_history 针对以下页面:

代码链接:查看

三、数据清洗

代码链接:查看

四、数据分析

import pandas as pd
from wordcloud import WordCloud
import numpy as np
from PIL import Image
import matplotlib.pyplot as pltdata = pd.read_csv('personal_history/清理后的个人历史数据(非直播).csv',

1、视频的标签分析

parse_dates=['时间'])
labels = data['标签'].sum().split(' ')
labels_dict = {}
for label in labels:labels_dict[label] = labels_dict.get(label, 0) + 1
background = np.array(Image.open('background.jpeg'))
word_cloud = WordCloud(font_path="simhei.ttf",width=1200,                   #词云图宽height=1000,                  #词云图高background_color='white',    #词云图背景颜色mask=background,max_words= 80,max_font_size= 70,random_state=1).fit_words(labels_dict)
plt.figure(figsize=(8,8))
plt.imshow(word_cloud)
plt.axis('off')
plt.show()

2、每日浏览次数分析

plt.rcParams['font.sans-serif']=['SimHei']
plt.figure(figsize=(8,6))
data['时间'].apply(lambda x : x.date()).value_counts().plot()
plt.title('每日浏览次数统计')
plt.grid()
plt.show()


3、每日浏览视频平均点赞数分析

data['day'] = data['时间'].apply(lambda x : x.date())
plt.figure(figsize=(10,8))
plt.plot(data[['点赞数','day']].groupby('day').mean(), 'red', label='Average')
plt.title('每日浏览视频的平均点赞数')
plt.legend()
plt.grid()
plt.show()


(本人原创,请CSDN不要拒绝我的发文!)

BiliBili系列(二):个人历史数据爬取与分析相关推荐

  1. Python爬虫系列(二):爬取中国大学排名丁香园-用户名和回复内容淘宝品比价

    Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品比价 目录 Python爬虫系列(二):爬取中国大学排名&丁香园-用户名和回复内容&淘宝品 ...

  2. 博客搬家系列(六)-爬取今日头条文章

    博客搬家系列(六)-爬取今日头条文章 一.前情回顾 博客搬家系列(一)-简介:https://blog.csdn.net/rico_zhou/article/details/83619152 博客搬家 ...

  3. 爬虫实战(二) 用Python爬取网易云歌单

    最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 "用技术改变生活" 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 这篇 ...

  4. 爬取及分析天猫商城冈本评论(二)数据处理

    前言 根据之前我写的 爬取及分析天猫商城冈本评论(一)数据获取 方法,爬取了冈本旗舰店的所有避孕套产品的公开评论,共计30824条. 这次对这3万多条评论去做数据分析前的预处理. 数据值处理 对于搜集 ...

  5. python3爬虫系列16之多线程爬取汽车之家批量下载图片

    python3爬虫系列16之多线程爬取汽车之家批量下载图片 1.前言 上一篇呢,python3爬虫系列14之爬虫增速多线程,线程池,队列的用法(通俗易懂),主要介绍了线程,多线程,和两个线程池的使用. ...

  6. bilibili助手C2C服务器,Bilibili (B站)200万用户数据爬取与分析(附源码)

    原标题:Bilibili (B站)200万用户数据爬取与分析(附源码) 数据挖掘入门与实战 公众号: datadw 该爬虫仅供学习使用 B站用户爬虫 B站视频爬虫 B站弹幕下载器 关注并回复公众号da ...

  7. 数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取)

    数据挖掘 文本分类 知乎问题单分类(二):爬取知乎某话题下的问题(数据爬取) 爬虫目标 Scrapy框架介绍 Scrapy框架原理 [^1] Scrapy工作流程 [^2] 具体实现 安装Scrapy ...

  8. 十年电影票房数据爬取与分析 | 免费数据教程

    3月8日妇女节,我很期待的超级英雄电影<惊奇队长>上映了,票房表现很快过亿,但大众口碑却让人失望. 一个有趣且常见的现象是,隔壁获奖无数,口碑爆炸的<绿皮书>,票房却远远不如& ...

  9. python爬取+BI分析5000条内衣数据,发现妹子最爱这款文胸

    生活中我们经常会用python进行数据爬取,但是爬取简单分析难,很多人喜欢用echarts图表接口或者是python的第三方库进行数据可视化,甚至是用matlab,基本上都需要用代码实现,在数据展示上 ...

最新文章

  1. Angular - 如何在页面加载后马上做初始化
  2. 高级程序员值得一看的33本编程书籍
  3. Java程序员需要掌握的计算机底层知识(二):操作系统、内核、用户态与内核态、系统调用的执行过程
  4. Netty学习四:Channel
  5. 杠杆原理的形象演示,你都懂了吗?
  6. 数据特征分析-帕累托分析
  7. Java Socket实现客户端服务端之间的通信
  8. 云垒·私有云一体化安全管理平台
  9. 如何保证Session值不丢失
  10. C# WebBrowser控件使用整理
  11. python爬虫:带你游览微博博主的前世今生
  12. 厉害!不到30行代码,自制成语接龙小游戏
  13. 无刷直流电动机及其控制
  14. 淘宝爬虫:看看房地产拍卖行情怎么样?附可视化分析
  15. ubuntu美化--壁纸软件
  16. uni-app 图片上传插件使用说明
  17. 计算机 无法进入睡眠模式,win7电脑无法正常进入睡眠模式怎么办
  18. 如何检测ip和端口是否连通
  19. 前端技术猜想-2018
  20. php inet_aton(),如何通过mysql 利用inet_aton和inet_ntoa来处理ip地址数据

热门文章

  1. live2d_【内有礼包】七罪看板Live 2D公开,天使的面容,魔鬼的身材~
  2. Singleton模式的学习
  3. [转]为ERP的定义“拨乱反正”
  4. 8.1 子模块分析之IDMAC
  5. keras+ ctpn 原理流程图
  6. 如何快速掌握 Python 数据采集与网络爬虫技术
  7. 2021-01-22 信息搜集更新
  8. Git -- submoudule子模块使用
  9. faster r-cnn训练、测试、检测(含批量检测图片)
  10. 山西应用科技学院计算机应用在哪个校区,山西应用科技学院有几个校区,哪个校区最好及各校区介绍...