图片和文字其实只有几个小地方是不同的,浏览器上每张图片都是通过一个url定位到的,且它是二进制文件。所以爬取过程和文字有一点点不同,,也就一点点。

这次爬取的网址是http://www.xiaohuar.com/2014.html。打开是不是发现里面有许多校花图片呢,没错,这次就是从爬取这些校花的图片并保存到自己磁盘中。

一、找规律

首先,你需要找到一张图片的url,怎么找呢?打开这个网站,按F12进入控制台界面。

先点击1处,再点击2处,就会发现3处有个url,这个就是这张图片的url地址了,你搜索这个url,即可看到图片。

在你多试探几次后,你会发现这些图片的url是由规律的,它们只有一部分地方不同。所以你现在需要从你知道的网址,即http://www.xiaohuar.com/2014.html中找到每张图片的url,将图片爬取下来即可。

import requests
import re# 起始url
first_url = "http://www.xiaohuar.com/2014.html"
# http响应
reponse = requests.get(first_url)
# 设置正确的编码
reponse.encoding = 'GBK'
# 获取文本信息
html = reponse.text
print(html)
# 找到所有的img的url
# src="/d/file/b14d5053e8f62f76ab4effe2d14aa419.jpg"
img_urls = re.findall(r'src="(/d/file/\w+\.jpg)"', html)
# \w匹配数字和字母后面接+匹配多个,,,全是数字就用\d# 拼接出完整的url加上域名
img_num = len(img_urls)
for i in range(img_num):img_urls[i] = "http://www.xiaohuar.com%s" % img_urls[i]# 下载
for img_url in img_urls:# 获取文件名,字符串分割,列表的索引最后一个/后的字符串img_file_name = img_url.split('/')[-1]img_data = requests.get(img_url).content  # 相当于reponse.contentwith open(img_file_name, "wb") as f:f.write(img_data)print(img_url)

运行之后,是不是发现文件夹中出现了许多图片文件呢,那么恭喜你,成功了!

python爬虫(三):校花图片爬取相关推荐

  1. python爬虫——百度贴吧图片爬取 小项目

    项目目的: 爬取贴吧中所有帖子里面的图片 将爬取到的图片存储到名称为贴吧名称的文件夹中 项目环境 python版本:python3.6 用到的库:requests.etree.unquote 浏览器: ...

  2. Python爬虫利用18行代码爬取虎牙上百张小姐姐图片

    Python爬虫利用18行代码爬取虎牙上百张小姐姐图片 下面开始上代码 需要用到的库 import request #页面请求 import time #用于时间延迟 import re #正则表达式 ...

  3. python爬虫实战(一)--爬取知乎话题图片

    原文链接python爬虫实战(一)–爬取知乎话题图片 前言 在学习了python基础之后,该尝试用python做一些有趣的事情了–爬虫. 知识准备: 1.python基础知识 2.urllib库使用 ...

  4. Python爬虫实战系列(一)-request爬取网站资源

    Python爬虫实战系列(一)-request爬取网站资源 python爬虫实战系列第一期 文章目录 Python爬虫实战系列(一)-request爬取网站资源 前言 一.request库是什么? 二 ...

  5. python项目开发案例集锦 豆瓣-Python第三个项目:爬取豆瓣《哪吒之魔童降世》 短评...

    前面爬完网站信息图片之后,今天的又有了个小目标,最近的电影哪吒很火,去豆瓣上看了一下 影评,决定了今天主要是实现Python第三个项目:爬取豆瓣<哪吒之魔童降世> 短评,然后下载在exce ...

  6. python爬虫之股票数据定向爬取

    python爬虫之股票数据定向爬取 功能描述 目标:获取上交所和深交所所有股票的名称和交易的信息 输出:保存到文件中 技术路线:requests-bs4-re 前期分析 选取原则:股票的信息静态存在H ...

  7. python爬虫初学实战——免登录爬取easyicon里的vip图标(2)

    python爬虫初学实战-免登录爬取easyicon里的vip图标(2) 实验日期:2020-08-09 tips:没看过前面(1)的可以康康,指路 -> 爬取easyicon里的png图标 成 ...

  8. python爬虫 - 起点女生榜单爬取 - 1

    python爬虫 - 起点女生榜单爬取 ​ 最近一直在追庆余年,顺带瞄了一眼小说,真真是精彩(虽然因为范闲多妻的设定接受不了就放弃了). ​ 说来说去,还是钟爱女频的修仙小说,所以就想爬一下起点女生网 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  10. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. 中盐总公司:盐业公司24小时配送保供应
  2. Cache与主存的三种映射
  3. 奇点云集聚数据中台优势,加速企业数智化升级
  4. SkyEye仿真ZYNQ芯片,轻松运行国产操作系统ReWorks
  5. MINIGUI编译方法【原创】
  6. 越是牛逼的人,越是不在意面子
  7. 淘宝ActiveMQ安装搭建
  8. win10计算机打开之后隐藏3d对象视频,Win10系统隐藏/删除此电脑中的3D对象文件夹的方法...
  9. android NDK 基础普及
  10. python蓝屏_plt.绘图()导致windows出现蓝屏
  11. 一行代码实现随意编辑网页内容
  12. 将自己的app加入到分享列表中,并适配锤子的one step功能
  13. IDEA全局查找快捷键
  14. Myeclipse报错:The word is not correctly spelled
  15. MCV 和 MTV框架基本信息
  16. 好文章,转的Java重构
  17. 网络推广文案八大步,让你的朋友圈引人注目!
  18. c语言图形学三角形平移,MFC怎么对所画几何图形进行旋转、填充、放缩???(急用)【...
  19. Google推出免费中秋祝福短信服务
  20. 2110-微服务核心知识点及问题分析

热门文章

  1. html单页模板wap,单页模板html
  2. 后渗透阶段的权限维持
  3. Flash 特效原理 震动效果
  4. 百度贴吧引流的一些技巧_专注流量研究-万能的小胡
  5. BUGS 小胡的学习日志
  6. JAVA学习(三)----常量和数据类型
  7. OpenGL ES 2.0 for Android教程(三):编译着色器并绘制到屏幕
  8. Bad client credentials
  9. annot keep settings in the secure 或WRITE_SETTINGS not granted
  10. Servlet作用域对象