python 学习爬取哔哩哔哩今日热门的前100个视频

代码实现

我们通过上面的尝试写了段代码，发现 B 站在一定程度上做了反爬虫操作，所以我们需要先获取 headers 信息，否则下载下来的视频是空的，然后定义 params 参数存储 JSON 数据，然后通过 requests.get 去获取其参数值信息，用 JSON 的格式返回到目标网页即可，实现代码如下：

def get_json(url):headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}params = {'page_size': 10,'next_offset': str(num),'tag': '今日热门','platform': 'pc'}try:html = requests.get(url,params=params,headers=headers)return html.json()except BaseException:print('request error')pass

为了能够清楚的看到我们下载的情况，折腾了一个下载器上去，实现代码如下：

def download(url,path):start = time.time() # 开始时间size = 0headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}response = requests.get(url,headers=headers,stream=True) # stream属性必须带上chunk_size = 1024 # 每次下载的数据大小content_size = int(response.headers['content-length']) # 总大小if response.status_code == 200:print('[文件大小]:%0.2f MB' %(content_size / chunk_size / 1024)) # 换算单位with open(path,'wb') as file:for data in response.iter_content(chunk_size=chunk_size):file.write(data)size += len(data) # 已下载的文件大小

效果如下：

将上面的代码进行汇总，整个实现过程如下：

#!/usr/bin/env python
#-*-coding:utf-8-*-
import requests
import random
import time
def get_json(url):headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}params = {'page_size': 10,'next_offset': str(num),'tag': '今日热门','platform': 'pc'}try:html = requests.get(url,params=params,headers=headers)return html.json()except BaseException:print('request error')passdef download(url,path):start = time.time() # 开始时间size = 0headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'}response = requests.get(url,headers=headers,stream=True) # stream属性必须带上chunk_size = 1024 # 每次下载的数据大小content_size = int(response.headers['content-length']) # 总大小if response.status_code == 200:print('[文件大小]:%0.2f MB' %(content_size / chunk_size / 1024)) # 换算单位with open(path,'wb') as file:for data in response.iter_content(chunk_size=chunk_size):file.write(data)size += len(data) # 已下载的文件大小if __name__ == '__main__':for i in range(10):url = 'http://api.vc.bilibili.com/board/v1/ranking/top?'num = i*10 + 1html = get_json(url)infos = html['data']['items']for info in infos:title = info['item']['description'] # 小视频的标题video_url = info['item']['video_playurl'] # 小视频的下载链接print(title)# 为了防止有些视频没有提供下载链接的情况try:download(video_url,path='%s.mp4' %title)print('成功下载一个!')except BaseException:print('凉凉,下载失败')passtime.sleep(int(format(random.randint(2,8)))) # 设置随机等待时间

欢迎关注微信公众号 : 码奋

Email：maafenn@gmail.com

python 学习爬取哔哩哔哩今日热门的前100个视频相关推荐

python 学习爬取证券之星的股票信息
python 学习爬取证券之星的股票信息选择原因,数据好获取,便于操作! 第一步,找到股票相关的信息,先去东方财富网,找到股票的代码查询一览表网站 ![在这里插入图片描述](https://img ...
python学习爬取数据二级页面的数据
本次主要是讲解如何爬取二级页面的数据一,本次案例就业湖北美和易思的学习官网的最新课程为案例讲解现在我们要爬取网站上的最新课程爬取前5页爬取每门课的内容如下二,下面直接上代码结果如下有不懂的 ...
python学习爬取中华英才网工作职位
一.技能: (1)scrapy爬虫的原理: (2)xpath获取网页信息以及正则表达式的使用: 二.代码: (1)创建工程: scrapy startproject wuyoujob1 在sp ...
python学习爬取肯德基官网商品地址的查询
# 功能: 进行爬虫项目编写 # 开发时间: 2020/10/26 10:12 import requests import json if __name__ == '__main__':#进行UA伪 ...
python 学习爬取链家武汉二手房市场成交记录
以前几乎没有写过博客的,今年给自己立的flag其中有两条就是1.至少完成10篇计算类博客.2.每个月需要有一篇投资总结,so.. 由于老妈最近逼着买房,但是现在感觉确实不是好的时机,具体的这里不说,但 ...
python学习爬取亚马逊网页，失败后。修改HTTP报文头部后成功！
通过修改HTTP报文头部,来成功获取网页内容! python import requests r = requests.get("https://www.amazon.cn/gp/produ ...
python爬虫自学网站_python爬虫学习爬取幽默笑话网站
这篇文章主要介绍了python爬虫爬取幽默笑话网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下爬取网站为:http://xiaohua.zol. ...
Python 学习 02 —— Python如何爬取数据
文章目录系列文章二.Python 爬虫 1.任务介绍 2.简介 3.基本流程 3.1.准备工作 3.1.1.分析页面 3.1.2.编码规范 3.1.3.导入模块 3.1.4.程序流程 3.2.获 ...
【Python】大数据挖掘课程作业1——使用爬虫爬取B站评论、弹幕与UP主的投稿视频列表
[Python]大数据挖掘课程作业1--使用爬虫爬取B站评论.弹幕与UP主的投稿视频列表数据挖掘部分的基本目标是:对于指定的UP主,能够获取其投稿视频列表:对于指定的视频,能够获取其视频标签.评论( ...

python 学习爬取哔哩哔哩今日热门的前100个视频

代码实现

python 学习爬取哔哩哔哩今日热门的前100个视频相关推荐

最新文章

热门文章