方法教程 | Python爬虫:爬取风景图片
“突发奇想,给各位爬爬壁纸图片,话不多说,开始行动。如果文章对你有帮助,点赞,收藏。”
一,知道爬取自己想要的壁纸图片网址
模型写出来
'''
爬取网络图片
1,要到主页面的源码,从主页面拿到子页面连接
2,通过子页面内容,找到子页面下载路径
3,下载图片
'''
def picture():
host_page(url)
son_page()
download()
def host_page():
#获取主页面
pass
def son_page():
#获取子页面
pass
def download():
#下载图片
pass
if __name__ == '__main__':
picture()
目标
点击f12,进入开发者模式。找到自己需要的图片(或者点击鼠标右键,点击检查也可以)
'''
爬取网络图片
1,要到主页面的源码,从主页面拿到子页面连接
2,通过子页面内容,找到子页面下载路径
3,下载图片
'''
import requests
from bs4 import BeautifulSoup
import time
def picture():
host_page()
download()
def host_page():
#获取主页面
url='https://pic.netbian.com/4kfengjing/'
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47"
} # 模拟的服务器头
resp=requests.get(url,headers=headers)#换头
newurl=BeautifulSoup(resp.text,'html.parser')#主页面内容就出来了
print(newurl)
def download():
#下载图片
pass
if __name__ == '__main__':
host_page()
显示乱码,所以进行编码更改
参考操作地址:https://editor.csdn.net/md/?articleId=112390388(处理方法小编写弄一个单独的博客,欢迎大家观看)
处理完乱码,进行筛选,选择自己想要内容
'''
爬取网络图片
1,要到主页面的源码,从主页面拿到子页面连接
2,通过子页面内容,找到子页面下载路径
3,下载图片
'''
import requests
from bs4 import BeautifulSoup
import time
def picture():
host_page()
download()
def host_page():
#获取主页面
url='https://pic.netbian.com/4kfengjing/'
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47"
} # 模拟的服务器头
resp=requests.get(url,headers=headers)#换头
resp.encoding='gbk'#处理乱码
newurl=BeautifulSoup(resp.text,'html.parser')#主页面内容就出来了
alist=newurl.find('div',class_='slist').find_all("a")#查找a标签
for i in alist :
print(i.get('href'))#获取子页面
def download():
#下载图片
pass
if __name__ == '__main__':
host_page()
现象:地址
下面创建一个文件夹,用来存储照片。
'''
爬取网络图片
1,要到主页面的源码,从主页面拿到子页面连接
2,通过子页面内容,找到子页面下载路径
3,下载图片
'''
import requests
from bs4 import BeautifulSoup
import time
def picture():
#获取主页面
url='https://pic.netbian.com/4kfengjing/'
headers = {
'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.47"
} # 模拟的服务器头
resp=requests.get(url,headers=headers)#换头
resp.encoding='gbk'#处理乱码
newurl=BeautifulSoup(resp.text,'html.parser')#主页面内容就出来了
alist=newurl.find('div',class_='slist').find_all("a")#查找a标签
for i in alist :
href=i.get('href')#获取子页面
child_resp=requests.get('https://pic.netbian.com/'+href)
child_resp.encoding='gbk'
text=child_resp.text
child_page = BeautifulSoup(text, 'html.parser')
a=child_page.find('a',id='img')
img=a.find('img')
src=img.get('src')
#下载图片
print(src)
img_resp=requests.get('https://pic.netbian.com/tupian/21953.html'+src)
img_name=src.split("/")[-1]#取url中最后一个/以后内容为名字
with open('picture/'+img_name,mode='wb') as f :
f.write(img_resp.content) #图片内容获取
print('下载完成')
time.sleep(1)#防止ip地址被封,休息1秒后继续
if __name__ == '__main__':
picture()
文件夹取消索引(方便)
这是保存下来的Python爬取风景图片的方法,如有不足之处或更多技巧,欢迎指教补充。愿本文的分享对您之后爬虫有所帮助。谢谢~
编辑排版:筱筱 原创:韶光不负
方法教程 | Python爬虫:爬取风景图片相关推荐
- python爬虫,爬取下载图片
python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...
- Python爬虫爬取相关图片
简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...
- python爬虫爬取网页图片_Python爬虫:爬取网页图片
先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...
- 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己
作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...
- python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片
当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...
- python爬虫爬取百度图片,python爬虫篇2:爬取百度图片
入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...
- 利用python爬虫爬取斗鱼图片(简单详细)
关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...
- python爬虫爬取4K图片实例
爬取目标网站https://pic.netbian.com/4kfengjing/index.html 之前写的时候发现爬取的图片都是缩略图,不是原图4k的,经过改良得以实现 思路: 话不多说,详细思 ...
- 使用python爬虫爬取搜狗图片无法获得图片网址
错误原因 找页面网址时:我是打开一张图片,从上方搜索栏复制的,然后发现了规律 xxxx#did=0 这个0一直往后增加,我把它作为页面规律.试验了一下,这些网址能进入到对应的图片. 然后打开了F12, ...
- Python爬虫爬取src图片
Python爬虫爬取图片 需要用到的库: os time request lxml 代码源码如下: import os import time import requests from lxml im ...
最新文章
- Winform中选取指定文件夹并获取其下所有文件
- python语言学完后学什么_学完Python语言可以做什么?发展前景怎么样?
- 网站维护404页面带音乐源码CSS本地化
- IIS rest服务delete 报错
- 用CSS画一些多边形状
- 3d激光雷达开发(lidar使用)
- 浏览Android系统源码的站点
- 区块链入门教程,这一篇就足够了
- 充分统计量(Sufficient Statistics)
- 【C语言项目设计】趣味算术游戏设计
- Kafka权威指南,Kafka消费者
- 程序员修炼之道 通往务实的最高境界
- 看清我辈基本盘!罗振宇2020跨年演讲全文来了(未删减)
- 百度分词ai php,百度分词技术
- 虎牙不想做一家游戏直播公司
- 统计学---总体与样本
- android开发者mac(含M1芯片)电脑全新配置2022
- 项目 调度 服务器,(2)项目构建(Reactor部分)【Lars-基于C++负载均衡远程服务器调度系统教程】...
- java让线程空转_详解Java编程中对线程的中断处理
- javaee期末考试复习个人总结