python爬取b站数据_使用Python爬取B站全站视频信息
B站我想大家都熟悉吧,其实 B 站的爬虫网上一搜一大堆。不过纸上得来终觉浅,绝知此事要躬行,我码故我在。最终爬取到数据总量为 760万条。
准备工作
首先打开 B 站,随便在首页找一个视频点击进去。常规操作,打开开发者工具。这次是目标是通过爬取 B 站提供的 api 来获取视频信息,不去解析网页,解析网页的速度太慢了而且容易被封 ip。
勾选 JS 选项,F5 刷新
找到了 api 的地址
复制下来,去除没必要的内容,得到https://api.bilibili.com/x/web-interface/archive/stat?aid=15906633,用浏览器打开,会得到如下的 json 数据
动手写码
好了,到这里代码就可以码起来了,通过 request 不断的迭代获取数据,为了让爬虫更高效,可以利用多线程。
核心代码
迭代爬取
整个项目的最主要部分的代码也就是 20 行左右,挺简洁的。
运行的效果大概是这样的,数字是已经已经爬取了多少条链接,其实完全可以在一天或者两天内就把全站信息爬完的。
至于爬取后要怎么处理就看自己爱好了,我是先保存为 csv 文件,然后再汇总插入到数据库。
数据库表
由于这些内容是我在几个月前爬取的,所以数据其实有些滞后了。
数据总量
查询播放量前十的视频
查询回复量前十的视频
python爬取b站数据_使用Python爬取B站全站视频信息相关推荐
- python爬取网页实时数据_使用 Python 爬取网页数据
1. 使用 urllib.request 获取网页 urllib 是 Python 內建的 HTTP 库, 使用 urllib 可以只需要很简单的步骤就能高效采集数据; 配合 Beautiful 等 ...
- python 循环定时器 timer显示数据_【Python】多线程、定时循环爬取优信二手车信息...
爬虫 爬取优信二手车:循环遍历每页,获取相应的有价值字段信息,这里不详细阐释了. 多线程 Python中,使用concurrent.futures模块下的ThreadPoolExecutor类来实现线 ...
- python 爬取链家数据_用python爬取链家网的二手房信息
题外话:这几天用python做题,算是有头有尾地完成了.这两天会抽空把我的思路和方法,还有代码贴出来,供python的初学者参考.我python的实战经历不多,所以代码也是简单易懂的那种.当然过程中还 ...
- python爬取京东手机数据_用scrapy爬取京东的数据
本文目的是使用scrapy爬取京东上所有的手机数据,并将数据保存到MongoDB中. 一.项目介绍 主要目标 1.使用scrapy爬取京东上所有的手机数据 2.将爬取的数据存储到MongoDB 环境 ...
- python向excel隔行写数据_【Python】将每日新增数据写入Excel
一.背景: 因为自己从网上获取了一些金融数据,也没有配置数据库,所以目前暂时是将数据以增量的形式存储在自己的OneDrive上. 二.代码演绎:导入相关数据包 import pandas as pd ...
- 基于python的爬虫系统金融数据_基于Python的互联网金融数据采集
基于Python的互联网金融数据采集 □文/王 蕾1安英博1刘佳杰2 [提要] 互联网金融数据中潜藏着未知的知识价值,但也存在着巨量的数据冗余.通过Python可以进行互联网金融数据的获取.解析.提取 ...
- python爬知识星球付费数据_用python爬取知识星球
去年我们做过一个叫「学长问答」的社群活动,里面沉淀了大量有价值的互动信息,后来因为各种原因终止了.今天和涂腾聊起来,觉得这些信息就这么沉寂了太浪费.所以就试着用python爬取了知识星球的内容. 这个 ...
- python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...
原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...
- python从文件中读取数据_使用Python脚本从文件读取数据代码实例
这篇文章主要介绍了使用Python脚本从文件读取数据代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 最近自学Python的进度比较慢,工作之 ...
最新文章
- NLTK包和语料库的准备
- 【PHP】IPv4与整数转换、IPv6与整数转换
- 8.22最短路径讲解
- SAP ALV 负号前置
- mmap设备文件操作
- 机器学习数学知识第一期复习指南
- 【转】WIFI-Direct(Wifi直连)、AirPlay、DLAN、Miracast功能介绍
- 微信小程序-weUI组件库
- 电力GIS技术应用及若干相关问题
- hover和active的区别
- openssl 自建ca之脚本自动签发
- 论文笔记:CVPR2021 Bottom-Up Shift and Reasoning for Referring Image Segmentation
- 操作系统、计算机网络、数据库系统概论等相关面试问题
- 【深度学习基础1】深度学习发展历史
- 华为鸿蒙和yunos,阿里的YunOS跟华为的鸿蒙差距大么?
- icheck结合datatable使用方法及实现全选、反选功能
- 如何通过引用传递变量?
- 基于激光雷达增强的三维重建
- 机器学习实用指南:这些基础盲点请务必注意!
- CapsNet(Capsule Network)——胶囊网络原理
热门文章
- css中去掉列表ul中的圆点
- 【Linux】解决VirtualBox下Ubuntu开机后黑屏
- hive乱码彻底解决方案全记录
- 迅雷影音tv版 v5.1.1.3091 官方版
- 运行ssd300报错UserWarning: volatile was removed and now has no effect
- 苹果汽车将不支持全自动驾驶;华为云发布研发需求管理工具;腾讯文档发布企业版;OpenAI上线ChatGPT | 每日大事件...
- 浅谈网页设计中的黄金分割
- 使用Teleport pro整站下载相关问题
- 物流企业各卡控口怎么管理,如何实现无人值守
- 反编译828D PLC的工程文件(*.ptp)