【Python】爬虫(Xpath):批量爬取彼岸图网4K图(非真正4K)

因为真正的4K图需要登录,并且登录后一天也就只能下载一张,所以就只解析爬取了内容页的高清图片(1200*633左右)

代码实现了我目前所能想到的用户骚操作的判定,例如选择的类目不在这个网站内, 或者这个类目没有那么多页之类的废话不多说直接上代码吧

import requests
from lxml import etree
import os# 封装从栏目页进入内容页连接解析函数
def name(url, type_name, headers):url = url + page_list_url[int(type_name)]doc_name = './' + page_list_name[int(type_name)].encode('ISO-8859-1').decode('gbk')page_list_text = requests.get(url=url, headers=headers).textpage_list_tree = etree.HTML(page_list_text)page_list_limit = page_list_tree.xpath('//*[@id="main"]/div[4]/a[7]/text()')[0]while True:print("{}上限页数为{}页".format(page_list_name[int(type_name)].encode('ISO-8859-1').decode('gbk'), page_list_limit))page_need = input("请输入您要爬取{}的页数: ".format(page_list_name[int(type_name)].encode('ISO-8859-1').decode('gbk')))if page_need.isdigit() and 1 <= int(page_need) <= int(page_list_limit):  # 判断是否填写有误(包括页数判断)if not os.path.exists(doc_name):os.mkdir(doc_name)for i in range(1, int(page_need) + 1):if i == 1:  # 第1页爬取crawler(page_list_tree, doc_name)else:  # 第2页及以上爬取page_url = url + 'index_' + str(i) + '.html'page_list_text = requests.get(url=page_url, headers=headers).textpage_list_tree = etree.HTML(page_list_text)crawler(page_list_tree, doc_name)breakelse:print("请重新输入正确的数字")# 封装内容页图片连接解析函数
def crawler(page_list_tree, doc_name):img_list_url = page_list_tree.xpath('//*[@id="main"]/div[3]/ul/li/a/@href')img_name = page_list_tree.xpath('//*[@id="main"]/div[3]/ul/li/a/b/text()')for i in range(len(img_name)):img_url = 'http://pic.netbian.com' + img_list_url[i]name = img_name[i].encode('ISO-8859-1').decode('gbk') + '.jpg'img_page = requests.get(url=img_url, headers=headers).textimg_page_tree = etree.HTML(img_page)page_img_src = img_page_tree.xpath('//*[@id="img"]/img/@src')[0]page_img_src = 'http://pic.netbian.com' + page_img_srcimg = requests.get(url=page_img_src, headers=headers).contentimg_path = doc_name + '/' + namewith open(img_path, 'wb') as fp:fp.write(img)print(name + '下载成功!!!')url = 'http://pic.netbian.com'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3775.400 QQBrowser/10.6.4208.400'
}
response = requests.get(url=url, headers=headers).text
tree = etree.HTML(response)
page_list_url = tree.xpath('//*[@id="main"]/div[2]/a/@href')
page_list_name = tree.xpath('//*[@id="main"]/div[2]/a/text()')
while True:print("0.风景 1.美女 2.游戏 3.动漫 4.影视 5.明星 6.汽车 7.动物 8.人物 9.美食 10.宗教 11.背景")type_name = input("请输入对应数字: ")if type_name.isdigit() and 0 <= int(type_name) <= 11: #判断是否数字且是否超出可爬取范围name(url, type_name, headers)breakelse:print("请重新输入正确的数字")continue

【Python】爬虫(Xpath):批量爬取彼岸图网4K图(非真正4K)相关推荐

Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
【Python爬虫实战】爬取彼岸图库高清图片
利用Python爬取彼岸图库高清图片让你每天一张壁纸不重样,今天利用Python爬取彼岸图库 http://pic.netbian.com/ 分析网页通过首页可以看到要获取全站图片必须先抓取各个 ...
Python爬虫期末作业 | 爬取起点小说网作者和书名，并以Excel形式存储
使用Python爬虫技术爬取起点小说网作者及书名,并且以xlsx形式保存前言随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容. 一. ...
python爬虫简单实例-爬取17K小说网小说
什么是网络爬虫? 网络爬虫(Web Spider),又被称为网页蜘蛛,是一种按照一定的规则,自动地抓取网站信息的程序或者脚本. 爬虫流程先由urllib的request打开Url得到网页html文档 ...
Python爬虫实例：爬取“最好大学网”大学排名
实例2 爬取大学排名上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接输出:大学排 ...
Python爬虫：正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
Python爬虫：批量爬取变形金刚图片，下载保存到本地。
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理本文文章来自:CSDN 作者:Guapifang 其实和爬取普通数据本质一样,不过 ...
【Python爬虫实战】爬取某小说网排行榜上的图书封面图片
文章目录一.Python爬虫必备两大模块 1.1 requests模块用于发送http请求 1.2 bs4(beautifulsoup)模块用于解析html文本二.Python爬虫项目演示 2.1 ...
python爬虫实战之爬取中国农药网
前言:这算是和研究生老师第一次正式的进行项目,虽说开始的有点随便,但是第二战还是挺成功的!自己作为一个本科生,也很幸运可以跟着学点知识,随便帮自己学院的老师出点力.还记得第一次交接任务时是和陈瑞学长, ...

【Python】爬虫(Xpath):批量爬取彼岸图网4K图(非真正4K)

【Python】爬虫(Xpath):批量爬取彼岸图网4K图(非真正4K)相关推荐

最新文章

热门文章