Python爬虫入门学习例子之煎蛋网（福利哦）

初学Python爬虫，学习资料是这篇博客：Python爬虫入门教程经过前边两个例子（糗事百科爬虫和百度贴吧爬虫）的学习，我自己写了一个练习的例子：爬煎蛋网的妹子图，福利哦(*^__^*)

#煎蛋网爬图
#导入了BeautifulSoup4(正则)和requests(代替urllib2,但是我不会使，还是用的lib2)包
#注意1：煎蛋的页数是倒着来的，从大往小来，输入的时候要注意
#注意2：报错：HTTPError: Service Temporarily Unavailable，换个伪装的浏览器或许可行#import requests
import urllib2
import re
import os
from bs4 import BeautifulSoup#访问网址，得到图片的地址，存在一个列表中
def getjpg(startpage,endpage):myjpgs = []user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'headers = {'User-Agent':user_agent} for i in range(startpage,endpage+1):url = 'http://jandan.net/ooxx/page-' + str(i) + '#comments'req = urllib2.Request(url,headers=headers)res = urllib2.urlopen(req)#BeautifulSoup和正则表达式re作用一样，使用前要先安装包，语法我也不太了解，这个select('p > img')就是匹配所有<p>标签下的所有<img>标签jpgs = BeautifulSoup(res).select('p > img')alljpgs = re.findall('src="(.*?)"',str(jpgs),re.S)#通过type()可知这都是列表，可以列表合并myjpgs = myjpgs + alljpgsreturn myjpgs#保存到本地
def savejpg(myjpgs):j = 1for myjpg in myjpgs:# os.path.splitext()获取文件后缀名，此函数把前边的名称和后缀名作为两个元素存储为列表,[0]是前边的[1]是后缀名lastname = os.path.splitext(myjpg)[1]#用with open() as 函数操作文件更规范，‘wb’是二进制模式，as后边的名称自己随便取with open('E:\\pytest\\pyget\\test25_jiandan\\' + str(j) + str(lastname),'wb') as op:print u'正在保存第%d张……' % jj = j+1#我们得到的是图的地址，要像网址一样打开访问一次，然后读一下再写入，直接写的话是个字符串m = urllib2.urlopen(myjpg)op.write(m.read())op.close()#程序开始
endpage = int(raw_input(u'请输入起始页数：'))
startpage = int(raw_input(u'请输入终止页数:'))
savejpg(getjpg(startpage,endpage))

Python爬虫入门学习例子之煎蛋网（福利哦）相关推荐

Python爬虫入门教程，突破煎蛋网反爬措施，妹子图批量抓取！
今天写一个爬虫爱好者特别喜欢的网站煎蛋网 ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用 se ...
Python爬虫入门学习实战项目（一）
静态数据的采集第一个项目我们来抓取拉勾网的招聘信息,话不多说直接开始吧! 1.首先我们导入相关库: import requests from lxml import etree import pan ...
慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述
原标题:零基础Python爬虫入门学习一之综述大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...
python代码封装加密_python对煎蛋网加密处理方式
原标题:python对煎蛋网加密处理方式最近一直有朋友问我改版的煎蛋网妹子图怎么爬,因为他们花费精力结果抓了一整个文件夹的防盗图.我之前在很久以前的一篇博客说过,对于这种js处理的网页,要想抓取到网 ...
Python爬虫入门学习（一）
1.requets 爬虫的一般步骤: 指定url 发起请求获取响应持久储存爬取搜狗首页 import requests# 爬取搜狗的首页 if __name__ == '__main__':ur ...
python爬虫入门学习
1.什么是爬虫? 爬虫是一种自动化程序,可以批量对指定网页发送请求并得到数据. 2.爬虫流程 1)对网页发送请求并获得网页响应 ①使用urllib.request中的urlopen方法得到http.c ...
给小白的python爬虫入门之批量爬取别样网的视频素材
网络爬虫,听起来很神秘,其实也不过如此,简单来说,只要网站开放了端口即用户能访问这个网站,那么无论这个网站的反爬机制做的有多么好,只要你的技术够,总会有机会破解它. 换句话说,不是你的网站很安全,而是 ...
Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 微医挂号网医生数据写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

Python爬虫入门学习例子之煎蛋网（福利哦）

Python爬虫入门学习例子之煎蛋网（福利哦）相关推荐

最新文章

热门文章