爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫
1.[代码][Python]代码
# coding=utf-8
import requests
import re
from lxml import etree
import time
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
#定义一个爬虫
class spider(object):
def __init__(self):
print u'开始爬取内容。。。'
#getsource用来获取网页源代码
def getsource(self,url):
html = requests.get(url)
return html.text
#changepage用来生产不同页数的链接
def changepage(self,url,total_page):
now_page = int(re.search('index_(\d+)',url,re.S).group(1)) #可修改
page_group = []
for i in range(now_page,total_page+1):
link = re.sub('index_\d+','index_%s'%i,url,re.S) #可修改
page_group.append(link)
return page_group
#getpic用来爬取一个网页图片
def getpic(self,source):
selector = etree.HTML(source)
pic_url = selector.xpath('//ul[@class="ali"]/li/div/a/img/@src') #可修改
return pic_url
#savepic用来保存结果到pic文件夹中
def savepic(self,pic_url):
picname=re.findall('(\d+)',link,re.S) #可修改
picnamestr = ''.join(picname)
i=0
for each in pic_url:
print 'now downloading:' + each
pic = requests.get(each)
fp = open('pic\\'+picnamestr +'-'+str(i)+ '.jpg', 'wb')
fp.write(pic.content)
fp.close()
i += 1
#ppic集合类的方法
def ppic(self, link):
print u'正在处理页面:' + link
html = picspider.getsource(link)
pic_url = picspider.getpic(html)
picspider.savepic(pic_url)
time1=time.time()
if __name__ == '__main__':
url = 'http://www.ivsky.com/tupian/ziranfengguang/index_1.html' #可修改
picspider = spider()
all_links = picspider.changepage(url,3) #可修改
for link in all_links:
picspider.ppic(link)
time2=time.time()
print u'耗时:'+str(time2-time1)
爬虫python下载网站所有图片_爬取某图片网站多页图片的python爬虫相关推荐
- 初试python爬虫(简单爬取站长之家第一页图片)
爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...
- Python爬虫系列(三)多线程爬取斗图网站(皮皮虾,我们上车)
斗图我不怕 最近看了Python多线程的相关内容,并且前几天观看了腾讯课堂潭州学院上面的关于斗图网爬取的公开课,课程内容大致是利用Python多线程爬取斗图(多页),并将图片保存到本地.自己写这篇文章 ...
- 爬虫项目实操二、爬取“下厨房”网站的菜名、所需材料、和菜名所对应的详情页URL
项目-爬取"下厨房"网站的菜名.所需材料.和菜名所对应的详情页URL. 它有一个固定栏目,叫做"本周最受欢迎",收集了当周最招人喜欢的菜谱.地址如下: http ...
- python爬虫(二十四)爬取汽车之家某品牌图片
爬取汽车之家某品牌图片 需求 爬取汽车之家某品牌的汽车图片 目标url https://car.autohome.com.cn/photolist/series/52880/6957393.html# ...
- python爬取网页表格数据匹配_爬取表格类网站数据并保存为excel文件
本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...
- python爬取表格数据匹配_爬取表格类网站数据并保存为excel文件
本文转载自以下网站:50 行代码爬取东方财富网上市公司 10 年近百万行财务报表数据 https://www.makcyun.top/web_scraping_withpython6.html 主要学 ...
- python爬虫qq音乐教学视频_爬取QQ音乐(讲解爬虫思路)
一.问题描述: 本次爬取的对象是QQmusic,为自己后面做django音乐网站的开发获取一些资源. 二.问题分析: 由于QQmusic和网易音乐的方式差不多,都是讲歌曲信息放入到播放界面播放,在其他 ...
- python微博涨粉_爬取微博用户公开信息,分析为周杰伦打榜的夕阳红老年团,告诉你他们真实年龄!...
前段时间为"周杰伦打榜"话题迅速登上微博热搜榜 因为cxk的粉丝们质疑周杰伦微博没有数据 (周杰伦没有开通微博) 于是,无数隐匿江湖多年 看不下去的周杰伦老年粉开始被迫营业 于是一 ...
- Python爬虫实战(2)之爬取NBA球队各个球员头像图片
1.目标页面 2.页面分析 1.每个队的球员列表都在 class="team_name"的span下的a标签的href下 2.每个球员的头像图标url 为 class=" ...
最新文章
- Github Pages+Hexo+阿里云域名绑定
- SIFT-FCACO算法的图像配准
- 简短介绍_中秋节的来历由来简短20字30字 中秋节的起源50字100字简介
- 基金委通报科研诚信违规违纪案件查处情况
- 用Jenkins自动化搭建测试环境_jenkins基础搭建_入门试炼02
- php绘制时钟刻度,怎么用canvas写钟表刻度的时钟和分钟
- IOS精品源码,仿探探UIButton封装iOS提示弹框迅速引导页自定义导航栏
- eclipse git插件简单使用
- phpcms首页如加上用户登录的信息?
- 验光黑科技时代!星创视界首创眼镜店医疗验光
- python语言实现医院管理系统
- 简述整车级电子电器架构开发内容
- python爬取招聘网站源码及数据分析_Python爬取招聘网站进行数据分析,福利待遇一清二楚,高薪很简单...
- 285. 二叉搜索树中的中序后继
- 2012年09月12日-13日
- Pray for 京阿尼——愿逝者安息,伤者早日康复
- 2021年登高架设模拟考试题及登高架设复审模拟考试
- 展讯通信:文章紫光收购后展讯困难重重”失实
- 在VS中如何设置自动换行
- The Python Challenge Level-4 Solution