BeautifulSoup案例2——抓取优美图库
总体思路:
网站地址:https://www.umei.net/bizhitupian/weimeibizhi/
注意我选中的这个区域, 我们想要的图片就在这里. 但是, 绝对不是现在你看到的样子。为什么呢? 不够高清大图~
真正的高清大图在子页面中, 比如, 我点击第⼀个图片
我需要在网站的首页中, 找到子页面的链接, 然后请求到子页面,才能看到这张大图~
也就是说, 想要下载该网站图片(高清大图), 需要三步,
第⼀步, 在主页面中拿到每⼀个图片的子页面链接
第二步, 在子页面中找到真正的图片下载地址
第三步, 下载图片
代码:
# 1.拿到主页面的源代码,然后提取到子页面的链接,href
# 2.通过href拿到子页面的内容,从子页面找到图片的下载地址 img->src
# 3.下载图片
import requests
from bs4 import BeautifulSoup
import timeurl = "https://www.umei.net/bizhitupian/weimeibizhi/"
resp = requests.get(url)
resp.encoding="utf-8"
# print(resp.text)
# 把源代码交给bs
main_page = BeautifulSoup(resp.text,"html.parser")
alist = main_page.find("div",class_="TypeList").find_all("a") # 把范围第一次缩小
# print(alist)
for a in alist:href = "https://www.umei.net"+a.get('href') # 直接通过get就可以拿到属性的值 第一步完成# 拿到子页面的源代码child_page_resp = requests.get(href)child_page_resp.encoding = 'utf-8'child_page_text = child_page_resp.text# 从子页面中拿到图片的下载路径child_page = BeautifulSoup(child_page_text,"html.parser")p = child_page.find("p",align="center") # p标签img = p.find("img") # img标签src = img.get("src")# print(src)# 下载图片img_resp = requests.get(src)# img_resp.content # 这里拿到的字节img_name = src.split("/")[-1] # 拿到url中的最后一个/以后的内容with open("img/"+img_name,mode="wb") as f:f.write(img_resp.content) # 图片内容写入文件print("over! ",img_name)time.sleep(1)f.close()
resp.close()
运行结果:
BeautifulSoup案例2——抓取优美图库相关推荐
- Python 爬取优美图库图片
# !/usr/bin/env python # -*-coding:utf-8-*- # date :2021/7/23 17:53 # author:Sabo"""爬 ...
- python第一天----爬取优美图库的图片
python第一天----爬取优美图库的图片 首先我们需要爬取的步骤: 1.选择爬取的网页,这里我选取的是https://www.umei.net/bizhitupian/,直接爬取的首页第一页的图片 ...
- Python使用bs4爬取优美图库
'''爬取优美图库 ''' import requests from bs4 import BeautifulSoup import time from tqdm import tqdm# 爬取页面源 ...
- python爬取优美图库
学了一段时间python,最近学习了一些python爬虫,今天写了一个爬取优美图库的的一段代码,下面给大家分享一下. 先看一下爬取的结果: 这段代码使用了下面的一些包,我们需要提前进行安装,在终端使用 ...
- php curl_setopt抓取内容,PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)
通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库 使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) ...
- Python爬虫编程思想(6):实战案例:抓取所有的网络资源
Python爬虫编程思想(7):实战案例:抓取博客文章列表 到现在为止,我们已经对网络爬虫涉及到的基本知识有了一个初步的了解.本文会编写一个简单的爬虫应用,以便让读者对爬虫有一个基本的认识.本节要编写 ...
- python爬取优美图库海量图片,附加代码,一键爬取
优美高清图片为大家提供高清美女套图赏析,非高清不录入,大家的网速要给力. 今天教大家爬取优美图库网站中高质量的图片!! 简单易上手哦~ 使用工具: Python 3.6 pycharm 相关环境: r ...
- 案例(一)爬取优美图库风景壁纸
文章目录 一.分析页面 二.爬取的关键步骤 2.1 初步信息获取 2.2 查找抓取信息 2.3 抓取新页面 2.4 获取新页面的图片真正的下载地址 2.5 遍历所有新页面的抓取信息,获取图片的SRC属 ...
- 爬虫python书籍-Python爬虫案例:抓取豆瓣编程类高评分书籍
对于很多正在学习计算机的朋友来说,选择合适的学习材料是非常重要的. 本文将通过 Python 来爬取豆瓣编程类评分大于 9.0 的书籍. 此案例很适合入门爬虫的朋友学习,总共也就 3 个函数. 下图是 ...
最新文章
- 图解Istio原理和实践--云平台技术栈18
- wso2_使用WSO2 ESB进行邮件内容过滤
- 面试浅谈 c++ 的空间两级配置器
- 编程练习:Matlab 一个小任务(-)
- 编写你的第一个 Django 应用,第 2 部分
- 《零基础》MySQL 连接(四)
- atitit.提升开发效率---mda 软件开发方式的革命
- 数据结构基础(10) --单链表迭代器的设计与实现
- WIN版的Jenkins Master加入LINUX的SLAVE节点,并作C++程序的集成交付
- python中如何打印阶梯_字符阶梯(python)
- plc 上位机编译算法_基于西门子PLC的Socket通信深度剖析
- Linux下2号进程的kthreadd--Linux进程的管理与调度(七)
- 如何在 Mac 上修复丢失的鼠标?
- java设计模式之单例模式详解
- 使用dockerfile创建一个包含jdk和tomcat的镜像
- iphone手机设置自定义铃声(mac环境下设置)
- EMV TLV 总结
- android 辅助功能(无障碍)
- wireshark抓包获取好友ip,定位所在位置
- ios15.0.1正式版耗电吗 ios15.0.1正式版值得升级吗