今天为了测试一下urllib2模块中的headers部分,也就是模拟客户端登陆的那个东东,就对煎蛋网妹子图练了一下手,感觉还可以吧。分享一下!


代码如下

# coding:UTF-8import urllib2,urllib,re,randomdef getHtml(url) :request = urllib2.Request(url,headers=headers)response = urllib2.urlopen(request)page = response.read()return pagedef getImageUrls(page):reg = r'src="(.+?\.jpg)"'imageReg = re.compile(reg)img_urls = re.findall(imageReg,page)return img_urls# 根据给定的路径,文件名,将指定的数据写入到文件中
def writeToFile(path,name,data):file = open(path+name,'wb')file.write(data)file.close()print name+" has been Writed Succeed!"#writeToFile(path,str(name)+".jpg",content)
def downloadImages(images_url) :for i, item in enumerate(images_url):everypicture = getHtml(item)# 此处下载之后的文件使用了item来命名是为了避免图片的覆盖writeToFile(path, str(i+random.randint(1,100000000)) + ".jpg", everypicture)# --------------------------------------------------------------------------------------------------
# 下面是我们的测试代码
headers = {'referer':'http://jandan.net/ooxx/page-1986','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}path = "F:\\pachong\\jiandan\\"
# 注意这里的URL不是全部,按理应该使用url拼接自动完成的,但是我这里是手动修改的
originalurl = 'http://jandan.net/ooxx/page-1986'
page = getHtml(originalurl)
images_url = getImageUrls(page)
downloadImages(images_url)

爬虫结果

总结

代码不多,核心在于思想。逻辑如下:

  • 使用headers绕开网站的验证
  • 获得主页面中所有的图片的url
  • 根据图片url循环的读取网页内容
  • 再循环中就把图片写入到本地

是不是很简单呢,但是这里有不智能的地方,那就是没有把原始的url做处理,如果再用url拼接技术的话,我们就可以实现“只需要一张网址,就可以抓取我们想要的所有的图片了”。

代码中不可避免的存在一些问题,欢迎大家批评指正!

爬虫之煎蛋网妹子图 大爬哦相关推荐

  1. Python爬虫之煎蛋网妹子图爬虫,解密图片链接加密方式

    之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...

  2. python爬虫--下载煎蛋网妹子图到本地

    1 # -*- coding:utf-8 -*- 2 """ 3 下载煎蛋妹子到本地,通过selenium.正则表达式.phantomjs.Beautifulsoup实现 ...

  3. Python爬虫之煎蛋网妹子图(一)

    python爬虫是数据挖掘与数据处理中的重要一部分,为了让大家深入了解爬虫,这里会更新爬虫系列教程及例子.第一篇来送福利啦!!!http://jandan.net/ooxx,先进来看一眼,是不是动力十 ...

  4. python爬虫 煎蛋网妹子图 动态爬虫1

    ------来自某潮汕人的菜鸟教程     爬虫目标网站:http://jandan.net/ooxx     爬虫目标中文名称:煎蛋网 妹子图     爬虫需求:分析js下载 煎蛋网的妹子图     ...

  5. 煎蛋网妹子图爬虫(requests库实现)

    煎蛋网妹子图爬虫(requests库实现) 文章目录 煎蛋网妹子图爬虫(requests库实现) 一.前言 环境配置 二.完整代码 一.前言 说到煎蛋网爬虫,相比很多人都写过,我这里试着用reques ...

  6. Python Scrapy 爬取煎蛋网妹子图实例(一)

    前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例 爬取 煎蛋网 妹子图,遗憾的是 上周煎蛋网还有妹子图了,但是这周妹子图变成了 随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...

  7. python爬虫入门-煎蛋网妹子图片下载

    知识点:多线程/BeautifulSoup/正则表达式/hashlib/base64/requests 参考: python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索 煎蛋网的反扒用了个障眼法..首页 ...

  8. Python爬虫(6):煎蛋网全站妹子图爬虫

    Python爬虫(6):煎蛋网全站妹子图爬虫 上一篇文章中我们抓取了豆瓣图书的数据,如果大家运行成功,并且看到文件夹下的 txt 文件了.是不是有一种刚接触编程,第一次输出Hello world!时的 ...

  9. python 爬取煎蛋网妹子的图片

    昨晚跑完步,回家看了点小甲鱼的python视频,讲了点爬虫相关知识,于是今天兴致来了,尝试自己写写看,晚上再回去看看他是怎么实现的. 写的过程中发现对于正则表达式这块真是个坑,很多时候都我都是将一些u ...

  10. Python爬虫之煎蛋网图片下载

    受程序员群的影响(自己污的本性),他们总是带我开车,想想我也该收集一些资料了(美女图片) 代码 import requests from lxml import etreeurls = ['http: ...

最新文章

  1. Robocopy.exe使用详例
  2. A way to visualize mip levels
  3. 关于求XXX.class.getResource(xxx).getPath()的用法
  4. func_ext.php,fsockopen和pfsockopen函数替换
  5. idea报错:Invalid bound statement (not found)
  6. STM32相关手册使用记录
  7. 蓝桥杯2016年七届C/C++省赛C组第一题-报纸页数
  8. word 文字超出表格边框怎么办
  9. 关于WAMP出现无法启动的一些分析以及解决思路
  10. 鸿蒙形容欣欣向荣发展,形容发展迅速的12个成语
  11. PS——制作 GIF动图 或是 小视频
  12. 大猩猩优化算法(Matlab代码实现)
  13. Flutter中的ISOlate
  14. 基于51单片机的篮球赛计时计分器(仿真+源程序+原理图+PCB+论文)
  15. WebAPI 网站发布
  16. Vue_单页应用VS多页应用
  17. 艾森豪威尔时间管理法则
  18. 电工学复习【4】--三相交流电路
  19. 调用织梦DedeCMS当前栏目名称和栏目链接地址的方法
  20. 微信授权登录(扫码登录)--源码

热门文章

  1. 玩家可以输入辅助指令_三菱FX系列PLC输入输出与辅助继电器之间有什么关系?...
  2. php 小数 精度不准,php小数精度问题
  3. java .class的作用_Java中Class类的作用与深入理解
  4. 中国程序员最爱读错的70个英文单词!注有正解
  5. 上传图片时,使用GDI+中重绘方式将CMYK图片转为RGB图片
  6. TroubleShooting Hyper-V 虚拟机因磁盘配置问题无法启动
  7. WebCollector
  8. 深入浅出Linux设备驱动编程--设备驱动中的异步通知
  9. ASA站点×××,远程站点通过主站上网之配置
  10. Logs Viewer