1.[代码][Python]代码

# coding=utf-8

import requests

import re

from lxml import etree

import time

import sys

reload(sys)

sys.setdefaultencoding("utf-8")

#定义一个爬虫

class spider(object):

def __init__(self):

print u'开始爬取内容。。。'

#getsource用来获取网页源代码

def getsource(self,url):

html = requests.get(url)

return html.text

#changepage用来生产不同页数的链接

def changepage(self,url,total_page):

now_page = int(re.search('index_(\d+)',url,re.S).group(1)) #可修改

page_group = []

for i in range(now_page,total_page+1):

link = re.sub('index_\d+','index_%s'%i,url,re.S) #可修改

page_group.append(link)

return page_group

#getpic用来爬取一个网页图片

def getpic(self,source):

selector = etree.HTML(source)

pic_url = selector.xpath('//ul[@class="ali"]/li/div/a/img/@src') #可修改

return pic_url

#savepic用来保存结果到pic文件夹中

def savepic(self,pic_url):

picname=re.findall('(\d+)',link,re.S) #可修改

picnamestr = ''.join(picname)

i=0

for each in pic_url:

print 'now downloading:' + each

pic = requests.get(each)

fp = open('pic\\'+picnamestr +'-'+str(i)+ '.jpg', 'wb')

fp.write(pic.content)

fp.close()

i += 1

#ppic集合类的方法

def ppic(self, link):

print u'正在处理页面:' + link

html = picspider.getsource(link)

pic_url = picspider.getpic(html)

picspider.savepic(pic_url)

time1=time.time()

if __name__ == '__main__':

url = 'http://www.ivsky.com/tupian/ziranfengguang/index_1.html' #可修改

picspider = spider()

all_links = picspider.changepage(url,3) #可修改

for link in all_links:

picspider.ppic(link)

time2=time.time()

print u'耗时:'+str(time2-time1)

爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫相关推荐

  1. 初试python爬虫(简单爬取站长之家第一页图片)

    爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...

  2. Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)

    斗图我不怕 最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地.自己写这篇文章 ...

  3. 爬虫项目实操二、爬取“下厨房”网站的菜名、所需材料、和菜名所对应的详情页URL

    项目-爬取"下厨房"网站的菜名.所需材料.和菜名所对应的详情页URL. 它有一个固定栏目,叫做"本周最受欢迎",收集了当周最招人喜欢的菜谱.地址如下: http ...

  4. python爬虫(二十四)爬取汽车之家某品牌图片

    爬取汽车之家某品牌图片 需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html# ...

  5. python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

  6. python爬取表格数据匹配_爬取表格类网站数据并保存为excel文件

    本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...

  7. python爬虫qq音乐教学视频_爬取QQ音乐(讲解爬虫思路)

    一.问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源. 二.问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他 ...

  8. python微博涨粉_爬取微博用户公开信息,分析为周杰伦打榜的夕阳红老年团,告诉你他们真实年龄!...

    前段时间为"周杰伦打榜"话题迅速登上微博热搜榜 因为cxk的粉丝们质疑周杰伦微博没有数据 (周杰伦没有开通微博) 于是,无数隐匿江湖多年 看不下去的周杰伦老年粉开始被迫营业 于是一 ...

  9. Python爬虫实战(2)之爬取NBA球队各个球员头像图片

    1.目标页面 2.页面分析 1.每个队的球员列表都在 class="team_name"的span下的a标签的href下 2.每个球员的头像图标url 为 class=" ...

最新文章

  1. Github Pages+Hexo+阿里云域名绑定
  2. SIFT-FCACO算法的图像配准
  3. 简短介绍_中秋节的来历由来简短20字30字 中秋节的起源50字100字简介
  4. 基金委通报科研诚信违规违纪案件查处情况
  5. 用Jenkins自动化搭建测试环境_jenkins基础搭建_入门试炼02
  6. php绘制时钟刻度,怎么用canvas写钟表刻度的时钟和分钟
  7. IOS精品源码,仿探探UIButton封装iOS提示弹框迅速引导页自定义导航栏
  8. eclipse git插件简单使用
  9. phpcms首页如加上用户登录的信息?
  10. 验光黑科技时代!星创视界首创眼镜店医疗验光
  11. python语言实现医院管理系统
  12. 简述整车级电子电器架构开发内容
  13. python爬取招聘网站源码及数据分析_Python爬取招聘网站进行数据分析,福利待遇一清二楚,高薪很简单...
  14. 285. 二叉搜索树中的中序后继
  15. 2012年09月12日-13日
  16. Pray for 京阿尼——愿逝者安息,伤者早日康复
  17. 2021年登高架设模拟考试题及登高架设复审模拟考试
  18. 展讯通信:文章紫光收购后展讯困难重重”失实
  19. 在VS中如何设置自动换行
  20. The Python Challenge Level-4 Solution

热门文章

  1. idea快捷键 常用
  2. CBL-Mariner
  3. cp2102 vcp驱动
  4. 红外遥控及Android手机红外遥控器开发
  5. 网页设计经典案例(Web)
  6. 红米2 com.android.phone,红米2手机(移动/联通/电信) 7.1 ROM 下载地址搬运(2017年3月10日更新)...
  7. imagin.vmem取证
  8. imperva-代理安装
  9. 计算机在职研是不是双证,计算机双证在职研究生好考吗?
  10. 课堂在线录屏:EV录屏软件配置设置