接触爬虫的第一天
第一步:现将python环境搭建好,工欲利其事必先利其器!
第二步:寻找目标网站,我选择的网站是http://www.win4000.com,里面有一个美女板块,里面有各种小姐姐的照片(你懂的)

第三步:分析目标网站的html源码及网页规则
通过分析我发现,该网页每个人物的每个图片都是
http://www.win4000.com/meinv1_2.html
http://www.win4000.com/meinv1_3.html
http://www.win4000.com/meinv2_1.html
http://www.win4000.com/meinv2_2.html
并且所有图片地址都存放在一个

# coding:utf-8
from bs4 import BeautifulSoup   #引用BeautifulSoup库
import requests                 #引用requests
import os                       #os
root = 'D://img//'              #配置存储路径,我配置的是自己电脑中的D:/img文件夹
for page in range(1,1000):      #配置爬取页码,我这边配置的是1000个人的图片for p in range(1,20):       #配置爬取每个人多少张的参数,我这边配置的是每个人20张url = 'http://www.win4000.com/meinv'+str(page)+'_'+str(p)+'.html'r = requests.get(url)                       #使用requests中的get方法获取整个网页r.encoding='utf-8'                          #设定网页所使用的编码方式,错误的编码方式会导致乱码if r.status_code!=404:                      #判断生成后的链接是不是能访问,只有能访问才能爬取下载demo = r.text                           #将爬取后的对象通过text方法提取出所有的htmlsoup = BeautifulSoup(demo, "html.parser")#使用BeautifulSoup库进行整合,第二个参数使用lxml一样的,lxml兼容性好较好,速度较快text = soup.find_all('img',class_ = 'pic-large')#选取整合后我们需要的部分内容,选取后的数据为list数组for img in text:imagr_url = img.get('data-original')        #取出img标签中data-original中的值file_name = root + imagr_url.split('/')[-1] #取出图片地址中文件及文件扩展名与本地存储路径进行拼接try:if not os.path.exists(root):            #判断文件夹是否存在,不存在则创建文件夹os.mkdir(root)if not os.path.exists(file_name):       #判断图片文件是否存在,存在则进行提示s = requests.get(imagr_url)         #通过requests.get方式获取文件# 使用with语句可以不用自己手动关闭已经打开的文件流with open(file_name, "wb") as f:  # 开始写文件,wb代表写二进制文件f.write(s.content)print("爬取完成")else:print("文件已存在")except Exception as e:print("爬取失败:" + str(e))

哈哈哈哈大功告成,以下是成果展示

总结:
1、该方式爬取为单进程爬取,只能一张一张爬取
2、进行图片请求时一定要注意不要使用之前使用过的变量
3、细心、认真、不浮躁

python爬虫爬取小姐姐图片(5762张)相关推荐

  1. python爬虫 爬取小姐姐图片

    前言 大致熟悉了python的基础语法以后,开始学习爬虫基础. 一.爬取前的准备工作 python3.7环境(只要是python3版本都可以): 依赖包 : time requests re (缺少包 ...

  2. java 爬虫 图片_java实现爬虫爬取小姐姐图片

    一.导入jsoup的maven依赖 org.jsoup jsoup 1.8.3 二.运行代码 也可以自定义爬取的网站这里就以https://gank.io/special/Girl为例 package ...

  3. Python爬取小姐姐图片

    使用Python爬取小姐姐图片 首先上网站链接 唯美女生 爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...

  4. 使用Python爬虫爬取网络美女图片

    代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip instal ...

  5. 【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2)...

    [爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...

  6. 数据获取网络爬虫之--爬取小姐姐图片

    运行环境: python3+jupyter notebook 可直接运行 代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...

  7. 循环爬取图片_Python爬虫爬取小姐姐照片!

    哔哩哔哩上有一个相簿板块,里面有很多绘画和摄影,自己动手一张一张保存太慢,于是想到了python爬虫. 今天就用python来写个爬虫,爬取每月月榜上的小姐姐,一劳永逸. 爬虫步骤: 1.在bilib ...

  8. 用Python 爬虫爬取贴吧图片

    之前一直在看机器学习,遇到了一些需要爬取数据的内容,于是稍微看了看Python爬虫,在此适当做一个记录.我也没有深入研究爬虫,大部分均是参考了网上的资源. 先推荐两个Python爬虫的教程,网址分别是 ...

  9. 利用Python爬虫爬取网页福利图片

    最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片 环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...

最新文章

  1. 3dmax做的模型导入U3d后 当模型靠近摄像机时镂空问题
  2. sourceTree 的使用教程
  3. 讲解sed用法入门帖子
  4. java 线程分配_Java多线程原子引用分配
  5. 白话Elasticsearch29-IK中文分词之IK分词器配置文件+自定义词库
  6. 利用 WebService实现远程服务器文件的上传和下载
  7. 网络安装LINUX系统原理,PXE网络引导系统自动化安装CentOS7
  8. hiveserver2启动不起来_给爱车配个充电宝,70迈汽车应急启动电源,让你远离搭电小广告...
  9. 计算油费 (15 分)
  10. php 生产环境调错
  11. 模拟image的ajaxPrefilter与ajaxTransport处理
  12. 经过路由无法找到计算机,共享打印机找不到对方电脑解决方法
  13. 柳传志退休,联想的贸工技路线对错由后人评说
  14. console.log(0.2+0.4===0.6)// true or false??
  15. uni-app动态设置原生标题左侧按钮
  16. 程序员应该访问的最佳网站
  17. 导数、微分、积分的几何理解
  18. java中byte和short类型的相互转换(不是用隐式转换)
  19. 小工具:用C++读取TGA并输出数据到文本
  20. 机器学习D9——逻辑回归分类

热门文章

  1. m基于贝叶斯理论的超分辨率重构算法matlab仿真,对比Tikhonov重构算法
  2. 智能化养老系统--智慧养老
  3. 软件设计师考试(快速备考笔记总结)
  4. 推荐系统遇上深度学习(一三七)-[阿里]广告精排和创意优选联合优化
  5. c语言程序设计家庭收支类,家庭支出管理系统—c语言程序设计详解.doc
  6. 艾美捷Immunochemistry FAM FLICA Poly Caspase检测方案
  7. 微波网络散射参数测量
  8. 阿里京东苏宁入局 区块链成破局新武器
  9. C++ Poj3750 小孩报数问题
  10. 教你怎么在新浪微博发布全景图,赚取微博全景第一波