初学Python爬虫,学习资料是这篇博客:Python爬虫入门教程 经过前边两个例子(糗事百科爬虫和百度贴吧爬虫)的学习,我自己写了一个练习的例子:爬煎蛋网的妹子图,福利哦(*^__^*)

#煎蛋网爬图
#导入了BeautifulSoup4(正则)和requests(代替urllib2,但是我不会使,还是用的lib2)包
#注意1:煎蛋的页数是倒着来的,从大往小来,输入的时候要注意
#注意2:报错:HTTPError: Service Temporarily Unavailable,换个伪装的浏览器或许可行#import requests
import urllib2
import re
import os
from bs4 import BeautifulSoup#访问网址,得到图片的地址,存在一个列表中
def getjpg(startpage,endpage):myjpgs = []user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'headers = {'User-Agent':user_agent} for i in range(startpage,endpage+1):url = 'http://jandan.net/ooxx/page-' + str(i) + '#comments'req = urllib2.Request(url,headers=headers)res = urllib2.urlopen(req)#BeautifulSoup和正则表达式re作用一样,使用前要先安装包,语法我也不太了解,这个select('p > img')就是匹配所有<p>标签下的所有<img>标签jpgs = BeautifulSoup(res).select('p > img')alljpgs = re.findall('src="(.*?)"',str(jpgs),re.S)#通过type()可知这都是列表,可以列表合并myjpgs = myjpgs + alljpgsreturn myjpgs#保存到本地
def savejpg(myjpgs):j = 1for myjpg in myjpgs:# os.path.splitext()获取文件后缀名,此函数把前边的名称和后缀名作为两个元素存储为列表,[0]是前边的[1]是后缀名lastname = os.path.splitext(myjpg)[1]#用with open() as 函数操作文件更规范,‘wb’是二进制模式,as后边的名称自己随便取with open('E:\\pytest\\pyget\\test25_jiandan\\' + str(j) + str(lastname),'wb') as op:print u'正在保存第%d张……' % jj = j+1#我们得到的是图的地址,要像网址一样打开访问一次,然后读一下再写入,直接写的话是个字符串m = urllib2.urlopen(myjpg)op.write(m.read())op.close()#程序开始
endpage = int(raw_input(u'请输入起始页数:'))
startpage = int(raw_input(u'请输入终止页数:'))
savejpg(getjpg(startpage,endpage))

Python爬虫入门学习例子之煎蛋网(福利哦)相关推荐

  1. Python爬虫入门教程,突破煎蛋网反爬措施,妹子图批量抓取!

    今天写一个爬虫爱好者特别喜欢的网站煎蛋网 ,这个网站其实还是有点意思的,网站很多人写了N多的教程了,各种方式的都有,当然网站本身在爬虫爱好者的不断进攻下,也在不断的完善,反爬措施也很多,今天我用 se ...

  2. Python爬虫入门学习实战项目(一)

    静态数据的采集 第一个项目我们来抓取拉勾网的招聘信息,话不多说直接开始吧! 1.首先我们导入相关库: import requests from lxml import etree import pan ...

  3. 慕课网python零基础入门教程_零基础Python爬虫入门学习一之综述

    原标题:零基础Python爬虫入门学习一之综述 大家好哈,最近博主在学习Python,学习期间也遇到一些问题,获得了一些经验,在此将自己的学习系统地整理下来,如果大家有兴趣学习爬虫的话,可以将这些文章 ...

  4. python代码封装加密_python对煎蛋网加密处理方式

    原标题:python对煎蛋网加密处理方式 最近一直有朋友问我改版的煎蛋网妹子图怎么爬,因为他们花费精力结果抓了一整个文件夹的防盗图.我之前在很久以前的一篇博客说过,对于这种js处理的网页,要想抓取到网 ...

  5. Python爬虫入门学习(一)

    1.requets 爬虫的一般步骤: 指定url 发起请求 获取响应 持久储存 爬取搜狗首页 import requests# 爬取搜狗的首页 if __name__ == '__main__':ur ...

  6. python爬虫入门学习

    1.什么是爬虫? 爬虫是一种自动化程序,可以批量对指定网页发送请求并得到数据. 2.爬虫流程 1)对网页发送请求并获得网页响应 ①使用urllib.request中的urlopen方法得到http.c ...

  7. 给小白的python爬虫入门之批量爬取别样网的视频素材

    网络爬虫,听起来很神秘,其实也不过如此,简单来说,只要网站开放了端口即用户能访问这个网站,那么无论这个网站的反爬机制做的有多么好,只要你的技术够,总会有机会破解它. 换句话说,不是你的网站很安全,而是 ...

  8. Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider

    1. 微医挂号网专家团队数据----写在前面 今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...

  9. Python爬虫入门教程 24-100 微医挂号网医生数据抓取

    1. 微医挂号网医生数据写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的 ...

最新文章

  1. jQuery使用blur()方法触发两次的解决方法
  2. python和java和scala_有没有与python3相当的scala/java收藏。国家
  3. redis学习及实践5---redis相关资料参考文献
  4. Realtek24口RTL8382L+RTL8218B+RTL8231方案简介
  5. CodeForces - 123B Squares(简单几何+旋转坐标系)
  6. python变量贡献率排序_3.2.5 贡献度分析
  7. 架构师基础必备:“腹有诗书气自华”,驰骋一线大厂不是梦,抓紧收藏
  8. 17大主链均狂跌国内项目却看涨, 本周不可不知的7组榜单 | 数据周榜
  9. Android P环境 bootchart使用
  10. 在线生成android ios icon,一键生成Android/Android-HD/IOS 多尺寸ICON
  11. 带过期时间的积分系统表设计
  12. 网站服务器变更ip后更新域名,服务器变更后域名需要重新备案吗
  13. 计算机在材料科学中的应用上机二,计算机在材料科学与工程中应用综合实验
  14. 使用NVM安装升级PNPM报错的问题
  15. 4kvideodownloader视频下载工具
  16. 什么牌子的蓝牙耳机音质好?2022好音质蓝牙耳机推荐
  17. Windows 切换node版本开发Vue3和Vue2
  18. CCS7.3安装,关闭win10家庭版自带杀毒
  19. Linux面试题--1
  20. Facebook POP 动画框架 进阶指南

热门文章

  1. Docker基础镜像-从iso到image
  2. JSP页面实现验证码校验
  3. 学计算机二级ms office,计算机二级MsOffice
  4. 狂野飙车9显示无法连接服务器,狂野飙车9:竞速传奇无法连接服务器如何解决...
  5. 什么是SmartArt ? 如何在ONLYOFFICE使用它
  6. top网站域名为什么会有价值?
  7. Echarts简介与入门
  8. 小米note3 android 8,小米 Mi Note 3(小米Note3 安卓8.1)获取Root权限服务含精简系统方案...
  9. 6-1 求解资源分配问题(动态规划法)[PTA]
  10. vue 前端配置按钮权限