一日一技:我是如何爬取百万影视资源的
以下内容仅供学习,爬取过程中请适当放慢速度,防止给网站造成不必要的流量攻击。
先看下成果:
包含的字段有:标题、网址、影视信息(导演/演员/时长……)、m3u8下载地址、在线播放地址
所用到的模块:
httpx:网络请求访问
lxml:网页解析模块
logging:日志模块
完整代码:
import httpx
from lxml import etree
import logginglogging.basicConfig(level=logging.INFO,format="%(asctime)s %(name)s %(levelname)s %(message)s",datefmt = '%Y-%m-%d %H:%M:%S %a')headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 Edg/85.0.564.63","Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","Upgrade-Insecure-Requests": "1"
}
host = 'http://www.zuidazy4.com'def run():page = 0while True:page += 1logging.info('正在获取第{}页内容...'.format(page))item = dict() # 创建一个空字典,用于存放数据# 先访问列表页面并解析url = '{host}/?m=vod-index-pg-{page}.html'.format(host=host, page=page)res = httpx.get(url=url, headers=headers, timeout=None)html = etree.HTML(res.text)li_list = html.xpath("//span[@class='xing_vb4']")for li in li_list:# 获取列表的内容item['title'] = li.xpath("./a/text()")[0]item['href'] = li.xpath("./a/@href")[0]if item['href'] is not None:# 再进入详情页面并解析# logging.info('正在解析:{title}'.format(title=item['title']))url = host + item['href']res = httpx.get(url=url, headers=headers)html = etree.HTML(res.text)# 获取影视信息item['info'] = html.xpath("//div[@class='vodinfobox']/ul/li//text()")# 获取播放地址m3u8item['play1'] = html.xpath("//div[@id='play_1']/ul/li//text()")# 获取播放地址item['play2'] = html.xpath("//div[@id='play_2']/ul/li//text()")print(item)if __name__ == '__main__':run()
一日一技:我是如何爬取百万影视资源的相关推荐
- python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
- coursera python_Python爬取Coursera课程资源的详细过程
有时候我们需要把一些经典的东西收藏起来,时时回味,而Coursera上的一些课程无疑就是经典之作.Coursera中的大部分完结课程都提供了完整的配套教学资源,包括ppt,视频以及字幕等,离线下来后会 ...
- coursera python web_一步步爬取Coursera课程资源
有时候我们需要把一些经典的东西收藏起来,时时回味,而Coursera上的一些课程无疑就是经典之作.Coursera中的大部分完结课程都提供了完整的配套教学资源,包括ppt,视频以及字幕等,离线下来后会 ...
- python爬虫——爬取搜狗影视热门电视剧
python爬虫--爬取搜狗影视热门电视剧 1.结果图 2.这次爬取的网址请点击传送门 搜狗影视热门电视剧 3.先构建请求头,请求头直接复制过来 4.接下来先请求这条url,通过format方法实现对 ...
- Python【爬虫实战】爬取美女壁纸资源
Python[爬虫实战]爬取美女壁纸资源 一:首先选取一个网站,这里我们选择了一个壁纸网站 二:进入网站,我们可以看到很多图片放在一页里 三:按下F12开发者工具,点击Elments查看网页的代码 四 ...
- 根据url一键爬取前端页面资源文件,恐怖如斯-----小飞兔
前言 有一天你在网上发现一个很好看的前端页面,你想要弄下来在自己的项目上使用,于是你去查看源码,复制html代码和资源文件,过程非常的麻烦,而且很可能缺胳膊少腿,这里我给大家推荐一款可以一键爬取前端页 ...
- Python 爬取百万网易云音乐热门评论
点击上方"程序员大咖",选择"置顶公众号" 关键时刻,第一时间送达! 前言 最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本 ...
- scrapy爬取百万小说
#爬取小说实列 第一步:创建一个scrapy工程[命令行中输入 scrapy startproject demo] 第二步:进入这个工程中,创建一个爬虫[scrapy nss zhuangji.org ...
- 如何一小时爬取百万知乎用户信息,并做简单的可视化分析?
一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件 开发工具:pycharm 二.数据成果 三.简单的可视化分析 1.性别分布 0 绿色 ...
最新文章
- 丰润达全面完成安防传输生态体系布局
- WP8.1学习系列(第一章)——添加应用栏
- 成功解决 修改pip的默认安装packages包的路径
- 【复习】快速幂算法详解
- sockets php,PHP: Sockets - Manual
- 微信小程序开发 -- 获取当前页面路径
- 线性判别分析LDA算法与python实现
- mysql计算同比和环比的区别_SQL 求同比 环比
- RecyclerView刷新布局时Glide加载图片闪现
- 作业——05 理解爬虫原理
- 一小伙使用 python爬虫来算命?
- 中英文停止词表(stopword)
- 基于51单片机的篮球赛计时计分器(仿真+源程序+原理图+PCB+论文)
- asp新闻发布系统 html,构建你的网站新闻自动发布系统之一_asp实例
- Python使用numpy获取列表行数与列数
- 血条加载!百度地图上线复苏指数;Quora推出问答机器人;腾讯绝悟成功用于医疗诊断;使用chatGPT生成推文;GitHub AI项目精选 | ShowMeAI资讯日报
- 手机归属地查询示例代码
- 统计每天每个直播间的访客数、每天最大访客数的直播间
- 导航电子地图数据中POI搜索技术原理之二
- Cello-operator-dashboard的调试设置
热门文章
- 树莓派编译jssc-2.9.2 实现自定义波特率
- STM32CubeMX双击没有反应,又没法卸载,还没法重装怎么解决
- python调整图片大小,png,jpg均使用
- 业务流程图模板分享及绘制方法总结
- 点一下等于手绘2小时,50步的产物合成路线图怎么(偷懒)画?
- 简单来了解一下什么是量化交易券商接口?
- 医疗器械的清洗消毒与灭菌分析详解
- C++基础知识整理十(继承和派生 公有派生类 私有派生类 保护派生类)
- 大型语言模型:新的摩尔定律?
- ubuntu 安装中文字库_Linux(Ubuntu,Cent OS)环境安装mkfontscale mkfontdir命令以及中文字库...