目录

目标

第一步:拿到子页面链接

总结:

爬虫的基本思路

详细思路:

如果有

如果没有


活动地址:CSDN21天学习挑战赛

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。各位小伙伴,如果您:
想系统/深入学习某技术知识点…
一个人摸索学习很难坚持,想组团高效学习…
想写博客但无从下手,急需写作干货注入能量…
热爱写作,愿意让自己成为更好的人…

本次文章全部从该网址爬取(doge)

【唯美壁纸】桌面壁纸唯美小清新_唯美手机壁纸_电脑桌面壁纸高清唯美大全 - 优美图库 (umei.cc)

目标

首先想要爬取图片,我需要在网站的首页中,找到子页面的链接(因为在首页中的图片为缩略图,不够高清doge),然后请求到子页面,。

也就是说,想要把大象。。。呸

想要下载该网站的图片(高清大图),需要三步,

第一步,在主页面中拿到每个图片的子页面链接

第二步,在子页面中找到真正的图片下载链接

第三步,下载图片

第一步:拿到子页面链接

def main_page():#定义一个函数with open("childPage.txt",mode="w") as f:#创建一个名为childPage.txt的文件for i in range(1,56):#规定爬取数量try:resp = requests.get(f"https://www.umei.cc/bizhitupian/we
imeibizhi/{i}.htm")# <meta http-equiv="Content-Type"
content="text/html; charset=utf-8" />resp.encoding = 'utf-8' # 处理中
⽂乱码, 这⾥要和⻚⾯上的charset对应main_page = BeautifulSoup(resp.text, "html.parser")typeListDiv =main_page.find("div", attrs={"class":"TypeList"})main_a_list =typeListDiv.find_all("a")for main_a in main_a_list:href = main_a.get("href") #拿到某⼀个标签中xxx属性的值f.write(href)f.write("\n")print(f"https://www.umei.cc/bizhitupian/weimeibizhi/{i}.htm, 成功了!")time.sleep(0.5)except:print(f"https://www.umei.cc/bizhitupian/weimeibizhi/{i}.htm, 出错了")print(resp.text)break # 也可以记录下来, 供以后查错

第二步:获取到子页面信息,找到下载图片的图片路径

def child_page():with open("childPage.txt", mode="r") as
f:for line in f:line = line.strip()resp = requests.get(line)resp.encoding='utf-8'child = BeautifulSoup(resp.text,"html.parser")div = child.find("div",
class_="ImageBody")img = div.find("img")if img:src = img.get("src")print(src)else:print(line, "没有图⽚")

第三步:下载图片

def download_img(src):with open("img/"+src.split("/")[-1],mode="wb") as f:resp = requests.get(src) # 下载图⽚f.write(resp.content) # 图⽚写⼊⽂件print(src, "down!")

最后运行时要把img文件设置为excluded,否则pycharm会很卡。

总结:

爬虫的基本思路

1、打开一个具体的网页

2、编写代码访问这个网页并访问数据

3、解析自己想要的数据

详细思路:

1、打开网页

2、查看网站源代码,并查找自己所需要的数据

如果有

这时候打开开发者模式,点击network。这个时候你会看到需要的数据刚好在第一个网址返回。最后编写代码爬取网页并使用xpath解析

如果没有

就打开开发者模式,点击network,刷新。这时并不能在第一个网站中就返回数据。这个时候数据是藏在其他的js等文件中。

通过爬虫爬取一些图片相关推荐

  1. node:爬虫爬取网页图片 1

    代码地址如下: http://www.demodashi.com/demo/13845.html 前言 周末自己在家闲着没事,刷着微信,玩着手机,发现自己的微信头像该换了,就去网上找了一下头像,看着图 ...

  2. 小爬虫爬取小猫咪图片并存入本地文件夹

    小爬虫爬取小猫咪图片并存入本地文件夹 本人是安徽工业大学电气与信息工程学院研一学生,最近还不能开学真的是很糟心哦,由于自己比较笨吧,起步较晚还要忙着学习机器学习还有计算机视觉,但是总学这个感觉很闷也没 ...

  3. python爬虫,爬取下载图片

    python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

  4. 利用python爬虫爬取斗鱼图片(简单详细)

    关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

  5. Python爬虫爬取相关图片

    简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...

  6. python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

    当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...

  7. python爬虫爬取百度图片,python爬虫篇2:爬取百度图片

    入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...

  8. Python网络爬虫——爬取网站图片小工具

    最近初学python爬虫,就写了一个爬取网站图片的小工具,界面如下: 用到的包主要是爬虫常用的urllib,urllib2和图形界面用的Tkinter,完整代码如下: # -*- coding:utf ...

  9. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

  10. 超详细解析python爬虫爬取京东图片

    超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...

最新文章

  1. python脚本多线程爬虫爬电脑壁纸
  2. Seq2Seq (Attention) 的 PyTorch 实现 我的理想是数学家的博客,很详细实现过程
  3. 存储控制器wwn号_正文-新华三集团-H3C
  4. linux ha 切换脚本,linux-HA 系统的故障切换过程细节。
  5. 有关数据结构基础知识(数据结构 严蔚敏版)
  6. linux类似360软件,linux下有什么类似鲁大师查看电脑配置的软
  7. Android Intent 用法总结
  8. 文件查询之三:文件和目录的批量操作
  9. 这是一个定时器,定时执行一次,用在定时发送邮件
  10. 双十二大前端工程师读书清单
  11. digispark使用
  12. VMware硬盘不足踩坑记录:扩容分区 + 删除.cache文件夹
  13. 小型水库雨水情测报设施建设-水库大坝水文监测
  14. iOS——directory not found for option 链接错误
  15. python discuz论坛帖子_[Scrapy爬虫实战]Discuz论坛版块内全部帖子获取
  16. 安卓开发-Parcel机制
  17. java整型_java中长整型定义
  18. Docker部署微服务时Springcloud网关报错 java.net.UnknownHostException: xxx: Name or service not known
  19. APT命令行工具的使用
  20. 手机Camera基础知识

热门文章

  1. python程序设计,猜数游戏编程实践课程实验
  2. Python好学吗?要学多久?
  3. 项目管理模型总结---原型模型、迭代模型
  4. 修改win服务器防火墙端口号,Windows Server 修改防火墙和远程桌面(3389)默认端口...
  5. 局域网服务器如何设置代理访问公网
  6. gtx1650显卡什么级别! GTX1650相当于什么显卡
  7. 2015年3月1日起停止提供4年或5年SSL证书
  8. 2020Android不死我不倒,作为一个程序员,你觉得最大的悲哀是什么
  9. 带张光盘去装机(转)
  10. 联想电脑白屏了按哪个键可以修复?