效果图请自行脑补,此处不做展示(狗头保命)

from lxml import etree
import requests
import osif __name__ == '__main__':url = "http://pic.netbian.com/4kmeinv/"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/""85.0.4183.83 Safari/537.36"}response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodingpage_text = response.texttree = etree.HTML(page_text)li_list = tree.xpath("//div[@class='slist']/ul/li")if not os.path.exists("./picLibs"):os.mkdir("./picLibs")for li in li_list:img_src = "http://pic.netbian.com" + li.xpath("./a/img/@src")[0]img_name = li.xpath("./a/img/@alt")[0] + ".jpg"img_data = requests.get(url=img_src, headers=headers).contentimg_path = "picLibs/" + img_namewith open(img_path, "wb") as fp:fp.write(img_data)print(img_name + "下载成功")for x in range(2, 172):url_too = f"http://pic.netbian.com/4kmeinv/index_{x}.html"response_too = requests.get(url=url_too, headers=headers)response_too.encoding = response_too.apparent_encodingpage_text = response_too.texttree_too = etree.HTML(page_text)li_list = tree_too.xpath("//div[@class='slist']/ul/li")for li_too in li_list:new_img_src = f"http://pic.netbian.com/4kmeinv/index_{x}.html" + li_too.xpath("./a/img/@src")[0]img_name = li_too.xpath("./a/img/@alt")[0] + ".jpg"img_data = requests.get(url=new_img_src, headers=headers).contentimg_path = "picLibs/" + img_namewith open(img_path, "wb") as fp:fp.write(img_data)print(img_name + "下载成功")

优化后(可能并没有优化)

from lxml import etree
import requests
import osdef get(url, headers):response = requests.get(url=url, headers=headers)response.encoding = response.apparent_encodingreturn response.textdef parse(url, headers):response = get(url=url, headers=headers)tree = etree.HTML(response)li_list = tree.xpath("//div[@class='slist']/ul/li")return li_listdef save(url):for li in li_list:img_src = url + li.xpath("./a/img/@src")[0]img_name = li.xpath("./a/img/@alt")[0] + ".jpg"img_data = requests.get(url=img_src, headers=headers).contentimg_path = "小姐姐图片/" + img_namewith open(img_path, "wb") as fp:fp.write(img_data)print(img_name + "下载成功")if __name__ == '__main__':url = "http://pic.netbian.com/4kmeinv/"headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/""85.0.4183.83 Safari/537.36"}li_list = parse(url=url, headers=headers)if not os.path.exists("./小姐姐图片"):os.mkdir("./小姐姐图片")save(url)for x in range(2, 172):url = f"http://pic.netbian.com/4kmeinv/index_{x}.html"li_list = parse(url=url, headers=headers)save(url)

xpath 爬取某网站图片相关推荐

  1. python爬虫真假网址,python爬取福利网站图片完整代码,懂得人都懂

    网址需要自己替换懂的人都懂512*2,主要学习简单的爬虫,别乱用,否则后果自负! [Python] 纯文本查看 复制代码 import requests,bs4,re,os,threadingclas ...

  2. 爬虫基础练习: 基于 java + Jsoup + xpath 爬取51job网站

    最基本的网页爬虫练习 爬取51jb网站,并将数据写入Excel中 需要导入jsoup包和POI相关包 JSoup简介 jsoup是一款Java的HTML解析器,主要用来对HTML解析, 可通过DOM, ...

  3. python最新官网图片_python爬取福利网站图片完整代码

    存起来 自己学习... import requests,bs4,re,os,threading class MeiNvTu: def __init__(self): self.url_main='ht ...

  4. 代理的基本原理 及用Xpath爬取代理网站IP列表 测试并存入数据库

    前言 在网络爬虫中,有些网站会设置反爬虫措施,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一些错误信息,例如 403 Forbidden,"您的IP ...

  5. python数据解析——xpath爬取文字和图片

    xpath解析:最常用且最便捷高效的一种解析方式,通用性. xpath解析原理: 1.实例化一个etree的对象,且需要将被解析的页面源码数据加载到该对象中. 2.调用etree对象中的xpath方法 ...

  6. python爬虫爬取某网站图片

    学习分享 | 今天刚学完爬虫,就随便写了一个爬虫代码爬取某网站的图片 网站就是这个图片网站,我选的是1080p格式,4k的要会员,我反正是还不会 导入的包如下 import requests from ...

  7. python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)

    1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...

  8. python爬取pexels网站图片

    #coding:utf-8from lxml import etree import requests import urllib.request import progressbar header= ...

  9. python 动态相册,python3爬取动态网站图片

    思路: 1.图片放在XXX标签中 2.利用fiddler抓包获取存放图片信息的js文件url 3.利用requests库获取html内容,然后获取其中图片id 4.利用fiddler抓取下载图片地址, ...

最新文章

  1. python编程16章教程_Python学习笔记__16.2章 TCP编程
  2. 关于Android开发中Arm、X86和Mips(草稿)
  3. struts.xml配置文件(二)
  4. win7 没有microsoft print to pdf_现在还能不能下载到正版WIN 7
  5. 史上最全SVN使用总结,建议先收藏后观看
  6. 获取当前html的名字,c#获取当前页面名字
  7. 无法找到mac地址必须重启计算机_AB PLC | CPU或以太网模块重启DHCP请求
  8. matlab如何创建callback函数_MATLAB作图实例:46:显示复杂的三维对象
  9. RGB色彩空间转CMYK色彩空间
  10. 【craps赌博游戏】
  11. 西数文件共享服务器,数据轻松共享 西数Live网络硬盘首测
  12. 计算机软件硬件结构造图,个人计算机的存储器系统 说说内核与计算机硬件结构(3)...
  13. 十六进制颜色转换ARGB/RGB
  14. 揭密巴西Banrisul银行网站遭遇5小时劫持的原因
  15. matlab三维绘图注释,Matlab三维绘图与图形处理
  16. 手把手教你学51单片机-C语言基础
  17. 功能测试用例需要详细到什么程度,完全测试程序是可能的么
  18. 亚马逊云科技 BuildOn 第三季 【基于 Serverless 构建零售创新应用】过程介绍及个人思考及总结
  19. Leetcode日练笔记8 #702 Search in a Sorted Array of Unknown Size (Medium)
  20. 树莓派(raspberry pi)日记1之个人网站的构建(localhost内网穿透实现公网可以访问)

热门文章

  1. 网红书店的“关门潮”与场景阅读的“科技浪”
  2. 头条流量android,今日头条的免流量看视频是怎么操作的?
  3. 做SEO优化的目的到底是什么
  4. PHP小V脸蛋白线,HPH小v脸蛋白线好不好用?HPH小v脸蛋白线怎么用
  5. 数据、源代码防泄密解决方案
  6. spark.yarn.archive spark.yarn.jars
  7. TokenSky DeFi高峰论坛区块链经济学者朱幼平:DeFi究竟有没有前途?
  8. 2019年安徽省学业水平考试计算机,2019年安徽高中学业水平考试信息技术与通用技..._报关水平_帮考网...
  9. 小清新风格的微信公众号文章排版有这些素材就够了
  10. itext7读取pdf 中文_itext7史上最全实战总结