爬虫之煎蛋网妹子图大爬哦

今天为了测试一下urllib2模块中的headers部分，也就是模拟客户端登陆的那个东东，就对煎蛋网妹子图练了一下手，感觉还可以吧。分享一下！

代码如下

# coding:UTF-8import urllib2,urllib,re,randomdef getHtml(url) :request = urllib2.Request(url,headers=headers)response = urllib2.urlopen(request)page = response.read()return pagedef getImageUrls(page):reg = r'src="(.+?\.jpg)"'imageReg = re.compile(reg)img_urls = re.findall(imageReg,page)return img_urls# 根据给定的路径，文件名，将指定的数据写入到文件中
def writeToFile(path,name,data):file = open(path+name,'wb')file.write(data)file.close()print name+" has been Writed Succeed!"#writeToFile(path,str(name)+".jpg",content)
def downloadImages(images_url) :for i, item in enumerate(images_url):everypicture = getHtml(item)# 此处下载之后的文件使用了item来命名是为了避免图片的覆盖writeToFile(path, str(i+random.randint(1,100000000)) + ".jpg", everypicture)# --------------------------------------------------------------------------------------------------
# 下面是我们的测试代码
headers = {'referer':'http://jandan.net/ooxx/page-1986','User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}path = "F:\\pachong\\jiandan\\"
# 注意这里的URL不是全部，按理应该使用url拼接自动完成的，但是我这里是手动修改的
originalurl = 'http://jandan.net/ooxx/page-1986'
page = getHtml(originalurl)
images_url = getImageUrls(page)
downloadImages(images_url)

爬虫结果

总结

代码不多，核心在于思想。逻辑如下：

使用headers绕开网站的验证
获得主页面中所有的图片的url
根据图片url循环的读取网页内容
再循环中就把图片写入到本地

是不是很简单呢，但是这里有不智能的地方，那就是没有把原始的url做处理，如果再用url拼接技术的话，我们就可以实现“只需要一张网址，就可以抓取我们想要的所有的图片了”。

代码中不可避免的存在一些问题，欢迎大家批评指正！

爬虫之煎蛋网妹子图大爬哦相关推荐

Python爬虫之煎蛋网妹子图爬虫，解密图片链接加密方式
之前在鱼C论坛的时候,看到很多人都在用Python写爬虫爬煎蛋网的妹子图,当时我也写过,爬了很多的妹子图片.后来煎蛋网把妹子图的网页改进了,对图片的地址进行了加密,所以论坛里面的人经常有人问怎么请求的 ...
python爬虫--下载煎蛋网妹子图到本地
1 # -*- coding:utf-8 -*- 2 """ 3 下载煎蛋妹子到本地,通过selenium.正则表达式.phantomjs.Beautifulsoup实现 ...
Python爬虫之煎蛋网妹子图（一）
python爬虫是数据挖掘与数据处理中的重要一部分,为了让大家深入了解爬虫,这里会更新爬虫系列教程及例子.第一篇来送福利啦!!!http://jandan.net/ooxx,先进来看一眼,是不是动力十 ...
python爬虫煎蛋网妹子图动态爬虫1
------来自某潮汕人的菜鸟教程爬虫目标网站:http://jandan.net/ooxx 爬虫目标中文名称:煎蛋网妹子图爬虫需求:分析js下载煎蛋网的妹子图 ...
煎蛋网妹子图爬虫（requests库实现）
煎蛋网妹子图爬虫(requests库实现) 文章目录煎蛋网妹子图爬虫(requests库实现) 一.前言环境配置二.完整代码一.前言说到煎蛋网爬虫,相比很多人都写过,我这里试着用reques ...
Python Scrapy 爬取煎蛋网妹子图实例（一）
前面介绍了爬虫框架的一个实例,那个比较简单,这里在介绍一个实例爬取煎蛋网妹子图,遗憾的是上周煎蛋网还有妹子图了,但是这周妹子图变成了随手拍, 不过没关系,我们爬图的目的是为了加强实战应用,管 ...
python爬虫入门-煎蛋网妹子图片下载
知识点:多线程/BeautifulSoup/正则表达式/hashlib/base64/requests 参考: python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索煎蛋网的反扒用了个障眼法..首页 ...
Python爬虫(6):煎蛋网全站妹子图爬虫
Python爬虫(6):煎蛋网全站妹子图爬虫上一篇文章中我们抓取了豆瓣图书的数据,如果大家运行成功,并且看到文件夹下的 txt 文件了.是不是有一种刚接触编程,第一次输出Hello world!时的 ...
python 爬取煎蛋网妹子的图片
昨晚跑完步,回家看了点小甲鱼的python视频,讲了点爬虫相关知识,于是今天兴致来了,尝试自己写写看,晚上再回去看看他是怎么实现的. 写的过程中发现对于正则表达式这块真是个坑,很多时候都我都是将一些u ...
Python爬虫之煎蛋网图片下载
受程序员群的影响(自己污的本性),他们总是带我开车,想想我也该收集一些资料了(美女图片) 代码 import requests from lxml import etreeurls = ['http: ...

爬虫之煎蛋网妹子图大爬哦

代码如下

爬虫结果

总结

爬虫之煎蛋网妹子图大爬哦相关推荐

最新文章

热门文章

爬虫之煎蛋网妹子图 大爬哦

代码如下

爬虫结果

总结

爬虫之煎蛋网妹子图 大爬哦相关推荐

最新文章

热门文章

爬虫之煎蛋网妹子图大爬哦

爬虫之煎蛋网妹子图大爬哦相关推荐