目标网址

http://pic.525zb.com/

开发环境

1、window11
2、python3.7
3、PyCharm Community Edition 2021.2.1
4、双核浏览器
5、浏览器自带开发者工具

网站分析

1、将本博客上面所给的目标网址放到浏览器导航栏访问网站,提取该网页的几个超链接(新品魅影、T台明星、风格搭配、珠宝红人、设计长廊、网友珠宝秀);
2、点击超链接浏览器页面发生跳转,进入超链对应的网页,每一个超链接都进行相同的操作,网页做了翻页设计,且新品魅影 189页、T台明星 97页、风格搭配 115页、珠宝红人 48页、设计长廊 48页、网友珠宝秀 65页;
3、查看网页源码发现:charset=gb2312;
4、超链接所在web代码:<a href="newproduct/" target="_top">新品魅影</a><a href="star/" target="_top">T台明星</a><a href="assort/" target="_top">风格搭配</a><a href="people/" target="_top">珠宝红人</a><a href="design/" target="_top">设计长廊</a><a href="show/" target="_top">网友珠宝秀</a>
使用re直接提取,正则字符串为'<a href="(.*?)" target="_top">(.*?)</a>';
5、图片链接所属web代码:<div class="list_k"><dl class="list_pic"><dd><a href="/album/14179/" target="_blank" title="把皇冠戴在指间"><img src="http://www.525zb.com/image/2011/201110/20111022/20111022161313_19240_thumbnail1.jpg" border="0" alt="把皇冠戴在指间"/></a></dd><dt><a href="/album/14179/" target="_blank" title="把皇冠戴在指间">把皇冠戴在指间</a></dt></dl><dl class="list_pic"><dd><a href="/album/14176/" target="_blank" title="国玉和田玉精品赏析"><img src="http://www.525zb.com/image/2011/201110/20111022/20111022105555_43631_thumbnail1.jpg" border="0" alt="国玉和田玉精品赏析"/></a></dd><dt><a href="/album/14176/" target="_blank" title="国玉和田玉精品赏析">国玉和田玉精品赏析</a></dt></dl><dl class="list_pic"><dd><a href="/album/14175/" target="_blank" title="国色天香系列翡翠"><img src="http://www.525zb.com/image/2011/201110/20111022/20111022102309_50411_thumbnail1.jpg" border="0" alt="国色天香系列翡翠"/></a></dd><dt><a href="/album/14175/" target="_blank" title="国色天香系列翡翠">国色天香系列翡翠</a></dt></dl><dl class="list_pic"><dd><a href="/album/14170/" target="_blank" title="Le Bal Des Roses Jewelry Collection Of Dior组图"><img src="http://www.525zb.com/image/2011/201110/20111021/20111021154040_21520_thumbnail1.jpg" border="0" alt="Le Bal Des Roses Jewelry Collection Of Dior组图"/></a></dd><dt><a href="/album/14170/" target="_blank" title="Le Bal Des Roses Jewelry Collection Of Dior组图">Le Bal Des Roses ..</a></dt></dl><div class="clear"></div>6、使用re直接提取,使用的正则字符串为'<img src="(.*?)" border="0" alt="(.*?)" />',提取出来的图片链接是完整的;


源代码

爬取到的图片

知识点复习

requests是一个简单而优雅的Python HTTP库,专为人类构建

1、requests可以非常轻松地发送HTTP/1.1请求。无需手动向URL中添加查询字符串,也无需对PUT和POST数据进行表单编码,只需使用json方法即可!
2、requests是当今下载量最大的Python软件包之一,每周下载量约为3000万次-据GitHub称,目前有1000000多个存储库依赖请求
-安装requests模块和支持的版本requests正式支持Python 3.7以上的版本,并且在PYPI上运行良好-安装命令
$ python -m pip install requests-requests支持的功能1、具有Cookie持久性的会话2、浏览器风格的TLS/SSL验证3、基本和摘要认证4、自动内容解压缩和解码5、支持文件上传6、支持SOCKS代理7、可以设置链接超时8、自动兑现.netrc

快速开始

-发出请求使用 Requests 发出请求非常简单。首先导入 Requests 模块:import requests
r = requests.get('https://api.github.com/events')现在,我们有一个Response名为 的对象r。我们可以从这个对象中获取我们需要的所有信息。requests 的简单 api 意味着所有形式的 http 请求都是显而易见的。例如,这是 HTTP POST 请求的方式:r = requests.post('https://httpbin.org/post', data={'key': 'value'})其他 http请求类型put、delete、head 和 options都一样简单:r = requests.put('https://httpbin.org/put', data={'key': 'value'})
r = requests.delete('https://httpbin.org/delete')
r = requests.head('https://httpbin.org/get')
r = requests.options('https://httpbin.org/get')-响应数据
我们可以读取服务器响应的内容,
import requestsr = requests.get('https://api.github.com/events')
r.text
'[{"repository":{"open_issues":0,"url":"https://github.com/...请求将自动解码来自服务器的内容。大多数 unicode 字符集都是无缝解码的。

python爬虫入门案例day10:珠宝图片相关推荐

  1. python爬虫入门案例day01:拼多多

    python爬虫入门案例day01:拼多多 目标网站 拼多多 目标网址 https://www.pinduoduo.com/ 开发环境 1.window11 2.python3.7 3.PyCharm ...

  2. Python爬虫入门案例教学:批量爬取彼岸桌面4K超清美女壁纸

    先图片开路 环境介绍 python 3.6 / 3.8 pycharm 编辑器 requests parsel os 文件操作 在cmd里面就可以进行安装 pip install requests 无 ...

  3. Python爬虫入门案例:获取百词斩已学单词列表

    本文首发在我的个人博客:https://jlice.top/p/6sjd1/.欢迎大家前去参观,么么哒~ 百词斩是一款很不错的单词记忆APP,在学习过程中,它会记录你所学的每个单词及你答错的次数,通过 ...

  4. Python爬虫入门教程 6-100 蜂鸟网图片爬取之一

    1. 蜂鸟网图片简介 国庆假日结束了,新的工作又开始了,今天我们继续爬取一个网站,这个网站为 http://image.fengniao.com/ ,蜂鸟一个摄影大牛聚集的地方,本教程请用来学习,不要 ...

  5. python爬虫入门案例day11:街舞

    引言 今天小编来带领大家批量下载街舞视频 爬虫应用 1.数据分析:2.商业领域: 开发爬虫的流程 1. 准备工作2. 获取数据3. 解析内容4. 保存数据 requests介绍 1.requests库 ...

  6. Python爬虫入门教程导航帖

    转载:梦想橡皮擦 https://blog.csdn.net/hihell/article/details/86106916 **Python爬虫入门教程导航,目标100篇** 本系列博客争取把爬虫入 ...

  7. python爬虫入门 - 代码、案例集合

    python爬虫入门 - 代码.案例集合 资源案例 · 统计 · 如下: 10个Python爬虫入门实例 以上就是关于"python爬虫入门 - 代码.案例集合"的全部内容.

  8. python爬虫入门教程(三):淘女郎爬虫 ( 接口解析 | 图片下载 )

    2019/10/28更新 网站已改版,代码已失效(其实早就失效了,但我懒得改...)此博文仅供做思路上的参考 代码使用python2编写,因已失效,就未改写成python3 爬虫入门系列教程: pyt ...

  9. python入门爬虫案例_10个python爬虫入门实例(小结)

    昨天带伙伴萌学习python爬虫,准备了几个简单的入门实例 涉及主要知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 python文件 ...

最新文章

  1. 程序 算法与数据结构
  2. swift_031(Swift 中的枚举/原始值(RawValues))
  3. 【Android】 Android中Log调试详解
  4. lvs负载均衡—ldirectord(DR模式的健康检查)
  5. 日语等级考试测试网站
  6. mysql 1016 145_Mysql中出现 errno:145的解决方法
  7. 第二次作业 项目质量管理重点知识梳理
  8. 旧版sai笔刷_最详细的SAI笔刷设置教程,非常全面详细!
  9. java分支讵_Java实现简体字向繁体字的转换
  10. 2013-2014年度总结
  11. Win10/11 移动C:\Users 目录
  12. 计算机配置64位几个字节,电脑装32位还是64位系统
  13. python 流水作业调度_动态规划——流水作业调度问题
  14. 腾讯短网址怎么在线生成
  15. mysql事务的隔离c_Mysql事务处理与隔离级别 -cyy
  16. 【源码】非常有用的Vml图像画板
  17. C++ 关于protected
  18. 外观模式-简化子系统的复杂性
  19. streamlit基本使用
  20. 获取多达 16GB 的 Dropbox 免费空间!

热门文章

  1. 资源网站合集 五个值得你收藏的网站
  2. sklearn之svm-葡萄酒质量预测(10)
  3. python脚本编辑器 v2ex_python3 模拟登录v2ex实例讲解
  4. 三度进击IPO,诚达药业为何如此执着?
  5. 新版本 chrome 手机浏览器关闭为您推荐的文章方法
  6. 构造拉丁方阵和正交拉丁方阵组
  7. 电子表格转web程序控件SpreadsheetWeb v6.0史上最大版本发布 | 附下载
  8. 并行:并行编程的基础概述
  9. uniapp——轮播图(官方)、卡片轮播图
  10. 川崎机器人几百个示教点位置的动态修正