python爬虫爬取小姐姐图片（5762张）

接触爬虫的第一天
第一步：现将python环境搭建好，工欲利其事必先利其器！
第二步：寻找目标网站，我选择的网站是http://www.win4000.com，里面有一个美女板块，里面有各种小姐姐的照片（你懂的）

第三步：分析目标网站的html源码及网页规则
通过分析我发现，该网页每个人物的每个图片都是
http://www.win4000.com/meinv1_2.html
http://www.win4000.com/meinv1_3.html
http://www.win4000.com/meinv2_1.html
http://www.win4000.com/meinv2_2.html
并且所有图片地址都存放在一个中

# coding:utf-8
from bs4 import BeautifulSoup   #引用BeautifulSoup库
import requests                 #引用requests
import os                       #os
root = 'D://img//'              #配置存储路径，我配置的是自己电脑中的D:/img文件夹
for page in range(1,1000):      #配置爬取页码，我这边配置的是1000个人的图片for p in range(1,20):       #配置爬取每个人多少张的参数，我这边配置的是每个人20张url = 'http://www.win4000.com/meinv'+str(page)+'_'+str(p)+'.html'r = requests.get(url)                       #使用requests中的get方法获取整个网页r.encoding='utf-8'                          #设定网页所使用的编码方式，错误的编码方式会导致乱码if r.status_code!=404:                      #判断生成后的链接是不是能访问，只有能访问才能爬取下载demo = r.text                           #将爬取后的对象通过text方法提取出所有的htmlsoup = BeautifulSoup(demo, "html.parser")#使用BeautifulSoup库进行整合，第二个参数使用lxml一样的，lxml兼容性好较好，速度较快text = soup.find_all('img',class_ = 'pic-large')#选取整合后我们需要的部分内容，选取后的数据为list数组for img in text:imagr_url = img.get('data-original')        #取出img标签中data-original中的值file_name = root + imagr_url.split('/')[-1] #取出图片地址中文件及文件扩展名与本地存储路径进行拼接try:if not os.path.exists(root):            #判断文件夹是否存在，不存在则创建文件夹os.mkdir(root)if not os.path.exists(file_name):       #判断图片文件是否存在，存在则进行提示s = requests.get(imagr_url)         #通过requests.get方式获取文件# 使用with语句可以不用自己手动关闭已经打开的文件流with open(file_name, "wb") as f:  # 开始写文件，wb代表写二进制文件f.write(s.content)print("爬取完成")else:print("文件已存在")except Exception as e:print("爬取失败:" + str(e))

哈哈哈哈大功告成，以下是成果展示

总结：
1、该方式爬取为单进程爬取，只能一张一张爬取
2、进行图片请求时一定要注意不要使用之前使用过的变量
3、细心、认真、不浮躁

python爬虫爬取小姐姐图片（5762张）相关推荐

python爬虫爬取小姐姐图片
前言大致熟悉了python的基础语法以后,开始学习爬虫基础. 一.爬取前的准备工作 python3.7环境(只要是python3版本都可以): 依赖包 : time requests re (缺少包 ...
java 爬虫图片_java实现爬虫爬取小姐姐图片
一.导入jsoup的maven依赖 org.jsoup jsoup 1.8.3 二.运行代码也可以自定义爬取的网站这里就以https://gank.io/special/Girl为例 package ...
Python爬取小姐姐图片
使用Python爬取小姐姐图片首先上网站链接唯美女生爬取图片主要分为一下几步: 1.打开一个你喜欢的小姐姐的网站 E.g xiaojiejie web 2.下载并安装python环境 pytho ...
使用Python爬虫爬取网络美女图片
代码地址如下: http://www.demodashi.com/demo/13500.html 准备工作安装python3.6 略安装requests库(用于请求静态页面) pip instal ...
【爬虫】利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中（2）...
[爬虫]利用Python爬虫爬取小麦苗itpub博客的所有文章的连接地址并写入Excel中(2) 第一篇( http://blog.itpub.net/26736162/viewspace-22865 ...
数据获取网络爬虫之--爬取小姐姐图片
运行环境: python3+jupyter notebook 可直接运行代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...
循环爬取图片_Python爬虫爬取小姐姐照片！
哔哩哔哩上有一个相簿板块,里面有很多绘画和摄影,自己动手一张一张保存太慢,于是想到了python爬虫. 今天就用python来写个爬虫,爬取每月月榜上的小姐姐,一劳永逸. 爬虫步骤: 1.在bilib ...
用Python 爬虫爬取贴吧图片
之前一直在看机器学习,遇到了一些需要爬取数据的内容,于是稍微看了看Python爬虫,在此适当做一个记录.我也没有深入研究爬虫,大部分均是参考了网上的资源. 先推荐两个Python爬虫的教程,网址分别是 ...
利用Python爬虫爬取网页福利图片
最近几天,学习了爬虫算法,通过参考书籍,写下自己简单爬虫项目: 爬取某福利网站的影片海报图片环境:anaconda3.5+spyder3.2.6 目录 1.本节目标 2.准备工作 3.抓取分析 4. ...

python爬虫爬取小姐姐图片（5762张）

python爬虫爬取小姐姐图片（5762张）相关推荐

最新文章

热门文章