python爬虫,爬取下载图片
python爬虫,爬取下载图片
分别引入以下三个包
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests
如图,随便搜一个网站,这里测试用的 http://wmtp.net/tupian/haokan
from urllib.request import urlopen
from bs4 import BeautifulSoup
import os# 发送请求返回页面标签
response = urlopen("http://wmtp.net/tupian/haokan")
response = response.read().decode('utf-8')
获取网站标签内容
BeautifulSoup最主要的功能是从网页抓取数据。我们在这里使用。
打开浏览器开发者工具,可以看到img标签内有图片,我们只有抓取下来即可下载。
# 使用BeautifulSoup截取
soup = BeautifulSoup(response, 'html.parser')
# 截取所有img标签
print(soup.find_all("img"))
print(soup.find_all(“img”)):爬取页面内的所有img标签。
如图,我们已获取到所有img标签内容,包含图片url地址。(类型为集和)
所以我们可以使用for遍历
#遍历img标签集和
for item in soup.find_all("img"):print(item.attrs.get("src"))
item.attrs:获取标签内所有属性名称及值
如上图,我们已经获取到所有图片的下载地址。
接下载就是根据url开始下载
1:因为我们要下载多个文件,我们这里用阿拉伯数字代表文件名
2:存储的位置
# 文件名称
a = 0
# 遍历img标签集和
for item in soup.find_all("img"):print(item.attrs.get("src"))# 下载图片# 下载图片保存的位置及名称a += 1;fileurl = "C:/Users/Administrator/Desktop/" + str(a) + ".png"# 写入保存r = requests.get(item.attrs.get("src"))with open(fileurl, 'wb') as f:f.write(r.content)
爬取下载完成。
完整代码:
from urllib.request import urlopen
from bs4 import BeautifulSoup
import requests# 发送请求返回页面标签
response = urlopen("http://wmtp.net/tupian/haokan")
response = response.read().decode('utf-8')# 使用BeautifulSoup截取
soup = BeautifulSoup(response, 'html.parser')
# 截取所有img标签
print(soup.find_all("img"))# 文件名称
a = 0
# 遍历img标签集和
for item in soup.find_all("img"):print(item.attrs.get("src"))# 下载图片# 下载图片保存的位置及名称a += 1;fileurl = "C:/Users/Administrator/Desktop/" + str(a) + ".png"# 写入保存r = requests.get(item.attrs.get("src"))with open(fileurl, 'wb') as f:f.write(r.content)
python爬虫,爬取下载图片相关推荐
- Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...
- python爬虫爬取网页图片_Python爬虫:爬取网页图片
先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- python爬虫爬取百度图片,python爬虫篇2:爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
- 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
- python爬虫爬取4K图片实例
爬取目标网站https://pic.netbian.com/4kfengjing/index.html 之前写的时候发现爬取的图片都是缩略图,不是原图4k的,经过改良得以实现 思路: 话不多说,详细思 ...
- Python爬虫爬取src图片
Python爬虫爬取图片 需要用到的库: os time request lxml 代码源码如下: import os import time import requests from lxml im ...
- 超详细解析python爬虫爬取京东图片
超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...
最新文章
- 给AI系统做“安全体检”,阿里安全提出自动化AI对抗平台CAA | AAAI 2021
- Java设计模式之策略模式与状态模式
- java的actionevent_[java]ActionEvent事件:获取输入字符串的长度
- 技术盘点:2022 年容器、Serverless、可观测、服务网格有哪些值得关注的趋势?
- boost::log::sinks::file用法的测试程序
- EJB是什么?EJB的概念分析与理解(copy)
- html 自定义打印模板,HTML+CSS入门 自定义模板详解
- 爆破linux密码 $6$3uwqC9JI$d9iPRmTDAoXs/IbsplxS3iyeErHqw7fUycacXNHyZk1UCSwFEydl515/zXN7OEwHnyUaqYcNG...
- docfx组件介绍--MarkdownLite
- 利用HTML5 LocalStorage实现跨页面通信channel
- Win11延迟高怎么办?Win11延迟高的解决方法
- 为什么天朝互联网的三巨头是BAT
- Note for Consulting Handbook3
- 分享一个在线生成接口文档工具
- 可恨的KYLIN OS:动不动就不支持老机
- 二级c语言上机题库下载,二级C语言上机题库(全).doc
- hackerrank答案
- 技术宅改变世界 如何在12306买到下铺
- MSXML应用总结 开发篇(上)
- 计算机应届博士生的一点求职经验——概述篇