python爬取小视频-今天给大家带来了python抓取b站小视频的小爬虫
首先打开小视频 的网页
url = http://vc.bilibili.com/p/eden/rank#/?tab=%E5%85%A8%E9%83%A8
然后我们来分析下url:
点击排行榜,默认全部显示,往下拉滚动条,发现网页是动态加载的,然后我们打开审查元素(快捷键F12),这里我用的是火狐浏览器,先清空然后往下拉进度条,就出来了动态加载的所有信息:
找到下图所示的内容
这个就是动态加载的内容,我们点击它,看下它有些什么东西
响应里面,可以看到是json格式保存的内容,包括视频的简介,视频url等等,而这些就是我们今天的目标了!
我们先来获取消息头里面的真实网址!
观察规律找到翻页的控制参数和请求模式,next_offset=后面控制视频的加载,以10的倍数翻页,请求模式为get
我们可以开始写代码了!
首先导入模块,我们今天要用到的模块很少
import requests, time, random,re
这几个模块都可以用pip来安装,cmd下输入命令:pip install 库名
其中用time和random模块是用于爬取内容时的时间间隔,re模块是用于修正文件名的函数
好了,先写个获取源码的函数
头部信息在消息头里面的请求头,大家自行修改为自己的就好!
我们要依次保存mp4格式的视频文件,这里提供给大家一个小函数,用于剔除文件名中的不规范符号,用了re模块!
这里说明下,这段代码是在网上找的,懒的敲了
先来获取每次加载的url,注意第一次加载的url和后面加载的不一致,用if函数。
分析整个页面发现,排行榜只有100个视频,10个一批加载,所以直接写入循环,然后用json方式获取我们需要的内容即可,非常简单的一个爬虫。
完整代码和运行结果奉上!
需要注意的是在下载视频文件的时候,需要加入头部信息,不然下载不了的!
欢迎大家来我的python交流、学习群:542110741,大家一起学习进步!
喜欢就点个赞呗!
python爬取小视频-今天给大家带来了python抓取b站小视频的小爬虫相关推荐
- python爬关键词百度指数_详解python3百度指数抓取实例
百度指数抓取,再用图像识别得到指数 前言: 土福曾说,百度指数很难抓,在淘宝上面是20块1个关键字: 哥那么叼的人怎么会被他吓到,于是乎花了零零碎碎加起来大约2天半搞定,在此鄙视一下土福 安装的库很多 ...
- python find()效率_基于python分别采用同步与异步(协程)方式抓取时光网TOP100电影...
欢迎各位小哥哥小姐姐阅读本的文章,对大家学习有帮助,请点赞加关注哦!!!!!!!!!! 您的点赞和关注将是我持续更新的动力呢.^v^ 有不懂的问题可以私聊我哦! 如题,同步运行就是python按照代码 ...
- Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库...
Python+Selenium自动搜索基金业协会指定企业名单,抓取指定信息并保存到数据库.网址https://gs.amac.org.cn/amac-infodisc/res/pof/manager/ ...
- python股票交易接口实现股票分时图K线图及抓取level2行情的开发程序分析
大家对股票交易接口并不陌生,那么要想获取股票数据获取,也是可以通过python股票交易接口实现股票分时图K线图及抓取level2行情的开发程序分析如下: import sys from PyQt5 i ...
- python爬网页数据用什么_初学者如何用“python爬虫”技术抓取网页数据?
原标题:初学者如何用"python爬虫"技术抓取网页数据? 在当今社会,互联网上充斥着许多有用的数据.我们只需要耐心观察并添加一些技术手段即可获得大量有价值的数据.而这里的&quo ...
- python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
- python爬取app、返回的是加密数据_Python 逆向抓取 APP 数据
今天继续给大伙分享一下 Python 爬虫的教程,这次主要涉及到的是关于某 APP 的逆向分析并抓取数据,关于 APP 的反爬会麻烦一些,比如 Android 端的代码写完一般会进行打包并混淆加密加固 ...
- python爬取腾讯新闻_Python 实现腾讯新闻抓取
原博文 2012-08-14 09:56 − 思路: 1.抓取腾讯新闻列表页面: http://news.qq.com/ 2.提取详细页面的url:http://news.qq.com/a/20120 ...
- Python爬虫小偏方:如何用robots.txt快速抓取网站?
作者 | 王平,一个IT老码农,写Python十年有余,喜欢分享通过爬虫技术挣钱和Python开发经验. 来源 | 猿人学Python 在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的 ...
- python数据抓取工具_【重磅开源】Hawk-数据抓取工具:简明教程
Hawk: Advanced Crawler& ETL tool written in C#/WPF 1.软件介绍 Hawk3已经发布,本文的很多信息已经不完整或过期,所有更新信息和下载地址都 ...
最新文章
- 算法------Pow(x, n)
- 数据分析软件python 对电脑的要求-用于数据分析的BI工具还是python?
- git 版本操作命令大全
- Python之pandas:pandas.set_option函数的参数详细解释
- 网络广告联盟和网站联盟全解析
- python copy()和deepcopy()解释(import copy)
- (93)异步FIFO结构,为什么用格雷码? ,面试必问(十七)(第19天)
- 三个常用c++11特性
- Spark深入浅出企业级最佳实践
- 广东省惠州市谷歌卫星地图下载
- AndroidProject
- windows 使用 tree 命令显示目录和文件
- 计算机logo设计图片简单,一个简单的字体LOGO设计流程:你看简单吗?
- 有道云笔记分享_写完笔记后干啥 有道云笔记分享技巧
- 转载双显示器显示模式介绍
- [SPSS]因子分析和因子得分的SPSS实现——学生成绩因子构成和分科建议实例
- 用python可以免费下载音乐吗-使用python实现下载我们想听的歌曲,速度超快
- 概率论复习笔记——条件概率、全概率、贝叶斯公式及其应用
- php 如何让两张图片重叠,php多张图片合并方法分享
- xampp mysql ssl_xampp搭建https服务器