最近爬虫了一些美女图片 www.meizitu.com 话不多说直接上干货


环境搭建

python 版本3.6.4 上官网下载https://www.python.org/downloads/release/python-364/

pip install beautifulsoup4pip install lxmlpip install html5lib

IDE工具 Wing IDE 6.1

下载地址  https://wingware.com/downloads/wing-pro


爬虫代码

import requests
import bs4
import re
import logging
import threading
import time#获取每页中的每组图片网页
def execute_downinfo(second_href):time.sleep(0.1)rr =  requests.get(second_href)exampleSoupp = bs4.BeautifulSoup(rr.content,'html5lib')elemss = exampleSoupp.select(".wp-list li a")for elemm in elemss:get_downloadinfo(elemm['href'])#获得日志对象
def get_logger():logger = logging.getLogger()fileHandler = logging.FileHandler('F:\\meizi\\meizi.log', mode='a', encoding='UTF-8')    logger.setLevel(logging.INFO)logger.addHandler(fileHandler)return logger#获得每张图片的地址
def get_downloadinfo(third_url):try:time.sleep(0.1)r = requests.get(third_url)exampleSoup = bs4.BeautifulSoup(r.content,'html5lib')elems = exampleSoup.select("#maincontent img")srcs = []names = []for elem in elems:tmp = str(elem["src"]).split("/")tmpp = tmp[5]+"-"+tmp[6]+"-"+tmp[7]+"-"+tmp[8]names.append(tmpp)srcs.append(elem["src"])c = dict(zip(srcs,names))for key in c.keys():tmp = []tmp.append(key)tmp.append(c.get(key))time.sleep(0.1)download_img(tmp)except Exception as ex:print("get_downloadinfo")print(ex)print("--------error contine----")pass#下载图片
def download_img(url_info):if url_info[1]: try:#print("-----------downloading %s"%(url_info[0]))  url = url_info[0]time.sleep(0.1)response = requests.get(url)if response.status_code != requests.codes.ok:return            img = response.contentpath='F:\\meizi\\%s' % (url_info[1])with open(path, 'wb') as f:f.write(img)except Exception as ex:print("download_img ")print(ex)print("--------error contine----")pass#拉取总页数并启用多线程分别下载每页的内容
def getSecondpage(url):try:pattern = re.compile(r'\d+')'''header = {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8","Accept-Language":"zh-CN,zh;q=0.9","Cache-Control":"no-cache","Connection":"keep-alive","Pragma":"no-cache","User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36","Content-Type": "text/html"}'''r =  requests.get(url)print(r.content)time.sleep(3)exampleSoup = bs4.BeautifulSoup(r.content,'html5lib')elems = exampleSoup.select("#wp_page_numbers ul li a")lastindex = int(pattern.findall(elems[len(elems)-1]['href'])[0])    second_hrefs = []for i in range(1,lastindex+1):second_hrefs.append("http://www.meizitu.com/a/more_"+str(i)+".html")#second_hrefs = second_hrefs[len(second_hrefs)-2:]for second_href in second_hrefs:arg = second_hrefthreading.Thread(target=execute_downinfo,args=(arg,)).start()except Exception as ex:print("getSecondpage")print(ex)print("--------error contine----")pass#主函数入口
if __name__ == '__main__':logger = get_logger()logger.info("App start")url = "http://www.meizitu.com/"getSecondpage(url)

记得将代码中的目录设成自己的目录即可啦,主要为了看一下python的多线程使用呀,在程序中加入time.sleep(seconds)主要为了防止频繁请求被屏蔽。

注意time.sleep(seconds)调节的大一些,现在程序亲测下载3000张左右的图片ip会被限制。

爬一爬妹子网,看看妹子相关推荐

  1. python 爬取_我用Python爬取了妹子网100G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  2. 我用Python爬取了妹子网200G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  3. 我用Python爬取了妹子网100G的套图

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  4. Python百行代码轻松爬取了妹子网100G的套图,希望你网盘内存够用

    前言 最近在做监控相关的配套设施,发现很多脚本都是基于Python的.很早之前就听说其大名,人生苦短,我学Python,这并非一句戏言.随着人工智能.机器学习.深度学习的崛起,目前市面上大部分的人工智 ...

  5. python爬虫什么意思-这样学Python爬虫,想爬什么爬什么

    原标题:这样学Python爬虫,想爬什么爬什么 你知道怎么学爬虫吗?正确的入门姿势在这里!只要学好了Python爬虫,真的是可以想爬什么爬什么哟,像什么美女图片啦,美食图片啦,美景图片啦.(小编可不知 ...

  6. python爬网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...

    网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...

  7. python爬虫网易云音乐评论最多的歌_使用Python爬一爬网易云音乐上那些评论火爆的歌曲...

    网易云音乐这款音乐APP本人比较喜欢,用户量也比较大,而网易云音乐之所以用户众多和它的歌曲评论功能密不可分,很多歌曲的评论非常有意思,其中也不乏很多感人的评论.但是,网易云音乐并没有提供热评排行榜和按 ...

  8. 浪姐爆火!“爬一爬”背后不为人知的数据!

    黑马程序员视频库 播妞QQ号:3077485083 传智播客旗下互联网资讯.学习资源免费分享平台 今年上半年最火的综艺非<乘风破浪的姐姐>(简称浪姐)莫属,第一期播出就爆了好几个热搜.不得 ...

  9. Python爬虫 - 爬天爬地爬空气

    1.前言   Python爬虫能干什么? 这么说吧:爬天爬地爬空气!   哈哈,其实也没这么邪乎的!爬虫给我的感觉就是:数据的价值.互联网如此发达,越来越多的有效数据被利用起来.   不过,希望每个人 ...

  10. Java数据爬取——爬取携程酒店数据(二)

    在上篇文章Java数据爬取--爬取携程酒店数据(一)爬取所有地区后,继续根据地区数据爬取酒店数据 1.首先思考怎样根据地域获取地域酒店信息,那么我们看一下携程上是怎样获得的. 还是打开http://h ...

最新文章

  1. 关于PHP中Session文件过多的问题
  2. sqlserver2000 php5.4,PHP添加Mssql/sqlserver2000扩展,适用于Php5.2/Php5.3/Php5.4
  3. wingide的使用方法积累
  4. Android GIF 编解码
  5. 2016 ICPC 北京网络赛 A 恶心模拟 F 循环矩阵,FFT(待补) I 模拟
  6. Php循环函数嵌套javascript,JS循环嵌套问题?
  7. 使用LiteOS Studio图形化查看LiteOS在STM32上运行的奥秘
  8. 《Cortex-M0权威指南》之Cortex-M0编程入门
  9. appium文件夹下无.bin文件_手把手教你Win10应用商店文件夹无权限访问怎么处理
  10. 软件测试 | APP测试 —— Appium 自动化测试框架的初识与学习要领
  11. HTML+JavaScript实现黑客帝国代码雨
  12. android Wifi热点启动流程,[android]WIFI热点启动流程分析
  13. 公安大数据系统具有哪些功能
  14. Hutool学习 —— 设置文件-Setting
  15. ERP中Bom的替代料
  16. 骆驼(Camel)命名法、帕斯卡(Pascal)命名法、匈牙利命名法
  17. visual assist 小番茄常用设置
  18. thinkphp使用phpoffice读取Excel并写入数据库
  19. html页面下雪动画实例,HTML5实现下雪实例
  20. 【成像】【3】产生和探测宽带脉冲Terahertz辐射,光电导天线PCA,光电晶体ZnTe,其他宽带发射器

热门文章

  1. ISO20000 IT服务管理要点
  2. Element-UI中走马灯图片无法显示的问题
  3. BAT卖不动「医疗云」:医院逃离、山头林立、行有行规
  4. 软考信息系统监理师:2016年4月8日作业
  5. 英语总结——新的开始
  6. 开始使用linggle
  7. 教你怎么用Python,每天自动给女友免费发短信
  8. ENVI计算NDVI
  9. 海康综合安防管理平台V1.5.100 用户添加和监控点添加。
  10. JAVA开发工程师是什么意思?