一日一技：我是如何爬取百万影视资源的

以下内容仅供学习，爬取过程中请适当放慢速度，防止给网站造成不必要的流量攻击。

先看下成果：

包含的字段有：标题、网址、影视信息（导演/演员/时长……）、m3u8下载地址、在线播放地址

所用到的模块：

httpx：网络请求访问

lxml：网页解析模块

logging：日志模块

完整代码：

import httpx
from lxml import etree
import logginglogging.basicConfig(level=logging.INFO,format="%(asctime)s %(name)s %(levelname)s %(message)s",datefmt = '%Y-%m-%d  %H:%M:%S %a')headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36 Edg/85.0.564.63","Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9","Upgrade-Insecure-Requests": "1"
}
host = 'http://www.zuidazy4.com'def run():page = 0while True:page += 1logging.info('正在获取第{}页内容...'.format(page))item = dict()   # 创建一个空字典，用于存放数据# 先访问列表页面并解析url = '{host}/?m=vod-index-pg-{page}.html'.format(host=host, page=page)res = httpx.get(url=url, headers=headers, timeout=None)html = etree.HTML(res.text)li_list = html.xpath("//span[@class='xing_vb4']")for li in li_list:# 获取列表的内容item['title'] = li.xpath("./a/text()")[0]item['href'] = li.xpath("./a/@href")[0]if item['href'] is not None:# 再进入详情页面并解析# logging.info('正在解析:{title}'.format(title=item['title']))url = host + item['href']res = httpx.get(url=url, headers=headers)html = etree.HTML(res.text)# 获取影视信息item['info'] = html.xpath("//div[@class='vodinfobox']/ul/li//text()")# 获取播放地址m3u8item['play1'] = html.xpath("//div[@id='play_1']/ul/li//text()")# 获取播放地址item['play2'] = html.xpath("//div[@id='play_2']/ul/li//text()")print(item)if __name__ == '__main__':run()

一日一技：我是如何爬取百万影视资源的相关推荐

python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
coursera python_Python爬取Coursera课程资源的详细过程
有时候我们需要把一些经典的东西收藏起来,时时回味,而Coursera上的一些课程无疑就是经典之作.Coursera中的大部分完结课程都提供了完整的配套教学资源,包括ppt,视频以及字幕等,离线下来后会 ...
coursera python web_一步步爬取Coursera课程资源
有时候我们需要把一些经典的东西收藏起来,时时回味,而Coursera上的一些课程无疑就是经典之作.Coursera中的大部分完结课程都提供了完整的配套教学资源,包括ppt,视频以及字幕等,离线下来后会 ...
python爬虫——爬取搜狗影视热门电视剧
python爬虫--爬取搜狗影视热门电视剧 1.结果图 2.这次爬取的网址请点击传送门搜狗影视热门电视剧 3.先构建请求头,请求头直接复制过来 4.接下来先请求这条url,通过format方法实现对 ...
Python【爬虫实战】爬取美女壁纸资源
Python[爬虫实战]爬取美女壁纸资源一:首先选取一个网站,这里我们选择了一个壁纸网站二:进入网站,我们可以看到很多图片放在一页里三:按下F12开发者工具,点击Elments查看网页的代码四 ...
根据url一键爬取前端页面资源文件,恐怖如斯-----小飞兔
前言有一天你在网上发现一个很好看的前端页面,你想要弄下来在自己的项目上使用,于是你去查看源码,复制html代码和资源文件,过程非常的麻烦,而且很可能缺胳膊少腿,这里我给大家推荐一款可以一键爬取前端页 ...
Python 爬取百万网易云音乐热门评论
点击上方"程序员大咖",选择"置顶公众号" 关键时刻,第一时间送达! 前言最近在研究文本挖掘相关的内容,所谓巧妇难为无米之炊,要想进行文本分析,首先得到有文本 ...
scrapy爬取百万小说
#爬取小说实列第一步:创建一个scrapy工程[命令行中输入 scrapy startproject demo] 第二步:进入这个工程中,创建一个爬虫[scrapy nss zhuangji.org ...
如何一小时爬取百万知乎用户信息，并做简单的可视化分析？
一.使用的技术栈: 爬虫:python27 +requests+json+bs4+time 分析工具: ELK套件开发工具:pycharm 二.数据成果三.简单的可视化分析 1.性别分布 0 绿色 ...

一日一技：我是如何爬取百万影视资源的

一日一技：我是如何爬取百万影视资源的相关推荐

最新文章

热门文章