python多级网址爬取_python-29:多级页面爬取源码
我们再来看看前面说的3个步骤:
将首页的url传入,通过RE将源码中相册的网址获取出来
将相册的网址作为url传入
通过RE获取相册中相片的网址
代码如下:
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
__author__ = '217小月月坑'
'''
从第一页跳转到第二页并获得图片的地址
'''
import urllib2
import re
# 极视界首页网址
url = 'http://product.yesky.com/more/506001_31372_photograph_1.shtml'
user_agent = 'Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:40.0) Gecko/20100101 Firefox/40.0'
headers = {'User-Agent':user_agent}
try:
request = urllib2.Request(url,headers=headers)
response = urllib2.urlopen(request)
conents = response.read().decode("gbk")
# 获取相册网址和相册名字
pattern = re.compile(r'
items = re.findall(pattern,conents)
for info_url in items:
print info_url[0],info_url[1]
# 将相册网址传入
info_response = urllib2.urlopen(info_url[0])
info_conents = info_response.read().decode("gbk")
# 获取图片网址
info_pattern = re.compile(r'
img_urls = re.findall(info_pattern,info_conents)
for img_url in img_urls:
print img_url
except urllib2.URLError,e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
e.reason
输出结果:
python多级网址爬取_python-29:多级页面爬取源码相关推荐
- python模拟登录淘宝_Python模拟登陆淘宝示例源码
[实例简介] [实例截图] [核心代码] # -*- coding: utf-8 -*- import requests import re class TaoBao: def __init__(se ...
- python做一个考试系统_python考试系统 相关实例(示例源码)下载 - 好例子网
开发语言:Python | 大小:0.02M | 发布时间:2016-07-07 | 发布人:linq 相关标签: 立即下载 开发语言:Python | 大小:0.21M | 发布时间:2020-08 ...
- python抠出图片人像_Python+Paddlehub相片人像抠图精简源码实例
Python+Paddlehub相片人像抠图实例 无需PS软件,手动制作自己的抠图工具,在只有一张图片,需要细致地抠出人物的情况下,能帮你减少抠图步骤;在有多张图片需要抠的情况下,能直接帮你输出这些人 ...
- python编程超市购物系统_python 自动购物系统 超简单源码(入门级)
[实例简介] 用户管理购物系统 [实例截图] [核心代码] choice = input("""请输入你需要的业务: 1).购买商品: 2).管理员查询 输入:" ...
- python修改xml保留注释_Python批量修改XML,附源码,需要安装PY 3.7.2
本帖最后由 fenrir 于 2019-11-7 00:27 编辑 XML干啥的? 360截图20191106214044006.jpg (23.15 KB, 下载次数: 0) 2019-11-6 2 ...
- Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频、图片、获取网页源码等)整理
Python 爬虫 之 爬虫的一些基本知识和基本操作(爬取视频.图片.获取网页源码等)整理 目录
- 第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲—爬虫和反爬的对抗过程以及策略—scrapy架构源码分析图...
第三百四十五节,Python分布式爬虫打造搜索引擎Scrapy精讲-爬虫和反爬的对抗过程以及策略-scrapy架构源码分析图 1.基本概念 2.反爬虫的目的 3.爬虫和反爬的对抗过程以及策略 scra ...
- wallpaper代码_五行Python代码自动换你的电脑桌面壁纸(内附源码和exe)
很多行友问行哥,Python能不能自动更换电脑壁纸呀,今天它来了 只需要一行代码,指定图片地址即可更换电脑桌面.加上壁纸文件夹路径,让你随机更换电脑桌面,带来不期而遇的新鲜.使用爬虫技术,自动下载壁纸 ...
- 基于Python的旅游管理系统微信小程序设计与实现毕业论文+项目源码及数据库
源码获取:我的博客资源页面可以下载!!!! 项目名称 基于Python的旅游管理系统微信小程序设计与实现毕业论文+项目源码及数据库 系统说明 本商业旅游系统可以分为三个部分,即微信小程序的手机客户端 ...
- 【爬虫实战项目】Python爬虫批量下载评书音频并保存本地(附源码)
前言 今天给大家介绍的是Python爬虫批量下载评书音频并保存本地,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这 ...
最新文章
- 人工智能领域的经典著作!
- 细数Android 7.0“牛轧糖”的五大缺陷:不支持悬浮窗口
- 如何一键部署项目代码自动更新
- swift. 扩展类添加属性_Swift iOS-如何动态地向现有类添加属性然后访问它们
- java bean工厂_java-将Service用作“工厂”以返回不同的Bean...
- win8硬盘安装Ubuntu14.04双系统參考教程
- 【项目管理】风险分析
- redis的淘汰策略
- python输入y继续运行_Python二三事 - 接触Python(x,y)
- linux命令文本模式上网,Linux文本模式下上网简单命令
- 服务器鼠标键盘进系统不能用,笔记本开机后鼠标键盘都不能用了怎么办?
- 初学者儿童适合什么尺寸吉他?聪明的家长都这样选!
- php安装zend loader,PHP5.3安装Zend Guard Loader图文教程
- 清华大学五道口金融学院2021年博士生(联合培养项目)招生简章
- 微信斑马系统:微信朋友圈广告背后的利器
- android 服务检测,Android检测某个服务是否还活着代码
- mesh渲染到ui_Unity中UI曲面化
- 张艾迪(创始人): 趣味励志
- IP地址,子网掩码以及子网掩码的划分
- AndServer浅显使用
热门文章
- python学习高级篇(part3)--MRO
- 阿里大数据分析与应用(part4)--一站式大数据平台DataWorks
- CSS基础(part20)--CSS3结构伪类选择器
- Django(part42)--跨站请求伪造
- 20应用统计考研复试要点(part1)--统计学
- eclipse maven在哪里_Maven操作
- 关于 SAP Spartacus 的 Theme 颜色主题
- 关于 Hybris (SAP Commerce Cloud)产品的客户群
- SAP Commerce Cloud OAuth 实现介绍
- Jerry Wang的自我介绍和linkedin,欢迎大家添加 - for 云加社区评审海报