Python爬虫分析——B站UP主视频数据分析
背景
一个朋友的要求,对B站UP主的视频进行分析。至于要做什么,你懂的。
核心
使用B站提供的API,爬取数据,进行分析。具体B站提供的API就不说了,https://www.bilibili.com/read/cv3430609/,自己看去。
获取UP主的视频列表
使用getSubmitVideos。具体的格式为如下:
https://space.bilibili.com/ajax/member/getSubmitVideos?mid=xxx&page=x
其中:
1、mid表示UP主的UID(每个UP主都有自己的ID)。
2、page表示第几页。B站每页返回最多20个条信息。
样例数据
B站回传的数据是Json格式的。下面是某个UP主的部分信息样例数据,其中关键数据删除。
{"status":true,"data":{"tlist":{"36":{"tid":36,"count":36,"name":" "}},"vlist":[{"comment":2,"typeid":39,"play":330,"pic":"fb405e9d76dd7268.jpg","subtitle":"","description":"xxxxxx","copyright":"","title":"xxxxxxxxxxx","review":0,"author":"xxxxxxxxxx","mid": ,"is_union_video":0,"created":1584302350,"length":"38:59","video_review":1,"is_pay":0,"favorites":1,"aid":964xxxxx5,"is_steins_gate":0,"hide_click":false},],"count":36,"pages":2}
}
配合B站对应的WEB页面可以猜测出部分数据的内容。
关键字 | 含义 | 备注 |
comment | 视频评论数量 | |
typeid | 视频隶属的区 | |
play | 视频的播放数量 | |
pic | 封面图片 | |
subtitle | 子标题 | 不确定 |
description | 描述 | UTF-8转码后信息 |
copyright | 版权 | 不确定 |
title | 视频的名字 | UTF-8转码后信息 |
review | 不知道 | |
author | 作者 | UTF-8转码后信息 |
mid | UP主的UID | |
is_union_video | 不知道 | |
created | 上传时间 | |
length | 视频长度 | |
video_review | 不知道 | |
is_pay | 收费 | 不确定 |
favorites | 收藏 | |
aid | 视频的ID | |
is_steins_gate | 不知道 | |
hide_click | 不知道 |
所有的数据对我们而言,最重要的数据是 mid 和 aid,其实 mid 是预先知道的。有了这个 aid 后,你就可以为所欲为了。
后面的内容就比较隐私了,就不写了。给各位道歉。
Python爬虫分析——B站UP主视频数据分析相关推荐
- ❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学, 你就是下一个大佬❤️!
❤️大佬都在学什么?Python爬虫分析C站大佬收藏夹,跟着大佬一起学,你就是下一个大佬❤️! 前言 程序说明 数据爬取 获取 CSDN 作者总榜数据 获取收藏夹列表 获取收藏数据 爬虫程序完整代码 ...
- Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!
[CSDN 编者按]<哪吒>看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑.到了哪吒成魔要杀父亲.跪别父母.因为宿命不得以和敖丙为敌时,影院里突然安静下 ...
- Python爬虫系列之抖音热门视频爬取
Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...
- 手把手教你利用 python 爬虫分析基金、股票
手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...
- Python爬虫人工智能大数据全栈视频史上最全合辑教程分享!
Python爬虫人工智能大数据全栈视频史上最全合辑教程分享! 毫无疑问Python是这两年最火的编程语言,不仅容易上手,且在多个行业都可应用.尤其今年人工智能及大数据的发展,Python将会展现更多的 ...
- Python 爬虫分析豆瓣 TOP250 之 信息字典 和 马斯洛的锥子
问题 本文是对<Python 爬虫分析豆瓣 TOP250 告诉你程序员业余该看什么书?> 一文的补充 我们以<追风少年>为例 用chrome的developer tool查看源 ...
- Python模型分析B站优质up主!这些人的视频能学到不少东西!
不管前浪还是后浪 ,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一扒让b站能够在浪里穿梭的资本--优质 ...
- python分析b站_实战 | Python模型分析B站优质up主
作者 | 远辰 来源 | 数据不吹牛 不管前浪还是后浪,能够浪起来的才算是好浪. 相信大家最近都被号称"浪里白条"的b站刷了不止一次屏.这次咱们先不谈价值观,主要从数据的角度,扒一 ...
- python爬取B站up主全部视频封面
B站up主的点赞投币转发等信息,以及弹幕文件.评论文件等等都可以调用特定的API接口来获得. python爬取B站弹幕.绘制词云等点击下方链接 https://blog.csdn.net/weixin ...
最新文章
- [转]iOS5 ARC学习笔记:strong、weak等详解
- 《剑指offer》-- 两个链表的第一个公共结点、链表中环的入口结点、删除链表中的重复结点
- 院士怒批:中国科研被SCI和西方支配,贫于创新、贫于思想
- Drupal 7 主题模板概述
- springmvc php,SpringMVC 常用注解
- angular模态框位置_angular $modal 模态框
- vue 一直登录错误_vue中路由拦截无限循环的情况
- [转载] 重新抛出异常与 public Throwable fillInStackTrace()
- 管理新论:少谈精神文化,强调工作作风
- 芝麻二维码,安卓和苹果二维码合并和统计工具
- 南航计算机专业哪个校区,今天被南航拟录取了,写点干货留给后来人(学校选择+初试+复试)...
- 主板风扇转不开机是什么问题,电脑开机没反应_电脑开机风扇转但无法启动主板...
- SAP MM采购信息记录作用与浅析
- BIGEMAP下载离线地图并添加到APP
- 从零基础入门Linux系统
- 当上技术领导以后才明白的事情
- Matlab扫雷记录01-matlab中获得向量非零元素个数
- xml文件格式化脚本
- jpeg图像质量参数及icc信息提取
- 对c++输入输出的一些封装(bushi)
热门文章
- js 在一个日期上面加上指定时间(几小时、几分钟、几秒)
- MATLAB求矩阵的100次方,Matlab矩阵幂运算
- 谈一谈安全运营工作是什么
- Task 02 re(2.3)
- Error:(343, 83) java: 从lambda 表达式引用的本地变量必须是最终变量或实际上的最终变量
- Android 百度鹰眼 SDK
- 《C++程序设计:原理与实践》Chapter11总结与练习
- C语言程序设计(第4版)谭浩强著—学习笔记chapter one 程序设计与C语言
- CES Asian 2018 见闻
- linux usb3.0移动硬盘,希捷(Seagate)1TB USB3.0移动硬盘使用评测