05 爬虫应用（2）——抓取昵图性感美女图片（针对传统翻页图片版本）

import requests
import re, os
import time, datetimeMaxSearchPage = 20
CurrentPage = 1
DefaultPath = 'pictures'
NeedSave = 0
headers = { # 不加这句可能会请去喝茶。。。。'User-Agent': 'Mozilla/5.0(Windows NT 6.1; WOW64; rv:31.0) Gecko/20100101 Firefox/31.0'
} # 图片链接正则和下一页的链接正则！
# 不过，实际上昵图网可以从网址上直接控制页数！！！！！
def imageFiler(content):return re.findall('data-original="(.*?)"', content, re.S)
def nextSource(content):next = re.findall('<div class="common-page-box mt10 align-center">.*<a href="(.*?)" target="_self" title="下一页"',content, re.S)print('------'+'http://soso.nipic.com'+next[-1])return next[-1]# 爬虫主体
def spidler(source):content = requests.get(source, headers = headers).textimageArr = imageFiler(content)global CurrentPageprint('Current page:' + str(CurrentPage) + '***************')for imageUrl in imageArr:print(imageUrl)global NeedSaveif NeedSave:global DefaultPathtry:# 下载图片并设置超时时间，如果图片地址错误就不继续等待了！（这里值得学习！！！）picture = requests.get(imageUrl, headers=headers, timeout = 10)except:print('Download image error! errorUrl:' + imageUrl)continue# 创建图片保存的路径imageUrl = re.findall(r'([0-9]{2,})\.', imageUrl)[-1] +'('+ str(datetime.datetime.now())[:19]+')'imageUrl = imageUrl.replace('/', '').replace(':','').replace('?', '')pictureSavePath = DefaultPath + imageUrl + '.jpg'fp = open(pictureSavePath, 'wb')fp.write(picture.content)fp.close()global MaxSearchPageif CurrentPage < MaxSearchPage:if nextSource(content):CurrentPage += 1spidler('http://soso.nipic.com' + nextSource(content))# 爬虫的开启方法
def beginSearch(page=1, save=0, savePath="05 爬虫应用——抓取昵图图片/"):global MaxSearchPage, NeedSave, DefaultPathMaxSearchPage = pageNeedSave = savekey = input('Please input you want search:')DefaultPath = savePath + key+ '/'if not os.path.exists(DefaultPath):os.mkdir(DefaultPath)StartSource = 'http://soso.nipic.com/?q='+key+'&g=0&or=0&y=48'spidler(StartSource)beginSearch(page=3, save=1)

Please input you want search:美女
Current page:1***************
http://pic138.huitu.com/pic/20200305/2028768_20200305105858773060_0.jpg
http://pic129.huitu.com/pic/20190928/1346505_20190928224126470060_0.jpg
http://pic129.huitu.com/pic/20190928/1346505_20190928224126316060_0.jpg
http://pic129.huitu.com/pic/20190920/1346505_20190920175010282020_0.jpg
……

05 爬虫应用（2）——抓取昵图性感美女图片（针对传统翻页图片版本）相关推荐

python批量读取图片并批量保存_Python爬虫：批量抓取花瓣网高清美图并保存
原标题:Python爬虫:批量抓取花瓣网高清美图并保存昨天看到了不错的图片分享网--花瓣,里面的图片质量还不错,所以利用selenium+xpath我把它的妹子的栏目下爬取了下来,以图片栏目名称给文 ...
Python网络爬虫实战：抓取和分析天猫胸罩销售数据
本文实现一个非常有趣的项目,这个项目是关于胸罩销售数据分析的.Google曾给出了一幅世界女性胸部尺寸分布地图 ,从地图中可以明显看出中国大部分地区呈现绿色(表示平均胸部尺寸为A罩杯),少部分地区呈现 ...
Colly 学习笔记(二)——爬虫框架，抓取下载数据(上证A股数据下载)
Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证A股数据下载) Colly 学习笔记(一)--爬虫框架,抓取中金公司行业市盈率数据 Colly 学习笔记(二)--爬虫框架,抓取下载数据(上证 ...
网络营销专员表示网络营销中设置不当会影响蜘蛛爬虫对网站抓取
在日常网站优化中如果想要网站拥有良好的网站排名,就要针对搜索引擎的抓取习惯培养友好度和信任度,网站在运营优化中难免会发生因为一些细节问题影响蜘蛛爬虫对网站正常抓取,那么究竟哪些操作设置会影响蜘蛛爬虫对 ...
python爬虫代码房-Python爬虫一步步抓取房产信息
原标题:Python爬虫一步步抓取房产信息前言嗯,这一篇文章更多是想分享一下我的网页分析方法.玩爬虫也快有一年了,基本代码熟悉之后,我感觉写一个爬虫最有意思的莫过于研究其网页背后的加载过程了,也就 ...
知乎爬虫之4:抓取页面数据
git爬虫项目地址( 终于上传代码了~~~~关注和star在哪里):https://github.com/MatrixSeven/ZhihuSpider(已完结) 附赠之前爬取的数据一份(mysql) ...
PHP爬虫音乐,PHPCrawl爬虫库实现抓取酷狗歌单
爬虫是一个很有意思的功能,本文主要介绍了PHPCrawl爬虫库实现抓取酷狗歌单的方法,涉及PHPCrawl爬虫库的使用及正则匹配相关操作技巧,需要的朋友可以参考下,希望能帮帮助到大家. header( ...
python 定时自动爬取_python实现scrapy爬虫每天定时抓取数据的示例代码
1. 前言. 1.1. 需求背景. 每天抓取的是同一份商品的数据,用来做趋势分析. 要求每天都需要抓一份,也仅限抓取一份数据. 但是整个爬取数据的过程在时间上并不确定,受本地网络,代理速度,抓取数据量 ...
Python爬虫项目：抓取智联招聘信息
来自https://mp.weixin.qq.com/s/0SzLGqv2p0-IWSN3r8bOHA ''' Python爬虫之五:抓取智联招聘基础版该文件运行后会产生一个代码,保存在这个Pyth ...

05 爬虫应用（2）——抓取昵图性感美女图片（针对传统翻页图片版本）

05 爬虫应用（2）——抓取昵图性感美女图片（针对传统翻页图片版本）相关推荐

最新文章

热门文章