Python爬取网站图片并保存,超级简单
Python爬取网站图片并保存,超级简单
先看看结果吧,去bilibili上拿到的图片=-=
第一步,导入模块
import requests
from bs4 import BeautifulSoup
requests用来请求html页面,BeautifulSoup用来解析html
第二步,获取目标html页面
hd = {'user-agent': 'chrome/10'} # 伪装自己是个(chrome)浏览器=-=def download_all_html():try:url = 'https://www.bilibili.com/' # 将要爬取网站的地址request = requests.get(url, timeout=30, headers=hd) # 获取改网站的信息request.raise_for_status() # 判断状态码是否为200,!=200显然爬取失败request.encoding = request.apparent_encoding # 设置编码格式return request.text # 返回html页面except:return ''
第三步,分析网站html构造
1、显示网站html代码
2、找到图片位置
3、分析
第四步,直接上代码注释够详细=-=
def parse_single_html(html):soup = BeautifulSoup(html, 'html.parser') # 解析html,可以单独去了解一下他的使用divs = soup.find_all('div', class_='card-pic') # 获取满足条件的div,find_all(所有)for div in divs: # 瞒住条件的div有多个,我们单独获取p = div.find('p') # 有源代码可知,每个div下都有一个p标签,存储图片的title,获取p标签if p == None:continuetitle = p['title'] # 获取p标签中的title属性,用来做图片的名称img = div.find('img')['src'] # 获取图片的地址if img[0:6] != 'https:': # 根据源代码发现,有的地址缺少"https:"前缀img = 'https:' + img # 如果缺少,我们给他添上就行啦,都据情况而定response = requests.get(img) # get方法得到图片地址(有的是post、put)基本是getwith open('./Img/{}.png'.format(title), 'wb') as f: # 创建用来保存图片的.png文件f.write(response.content) # 注意,'wb'中的b 必不可少!!parse_single_html(download_all_html()) # 最后调用我们写的两个函数就行啦,
查看结果
Python爬取网站图片并保存,超级简单相关推荐
- python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例
先看看结果吧,去bilibili上拿到的图片=-= 第一步,导入模块 import requests from bs4 import BeautifulSoup requests用来请求html页面, ...
- Python爬取网站图片数据
Python爬取网站图片数据 找到需要爬取的网站地址 模拟网站http请求 根据调试模式获取的了解读取到真实的地址url,读取请求头数据和参数信息,模拟http请求调用 import requests ...
- Python爬取网站图片(爬虫入门demo)
代码功能: 爬取网站的教师图片,在用户主机上创建好PNG文件夹保存共110张图片,同时把每张图片的老师介绍内容写入H3.txt文件中. 实现思路: 打开该网页后用F12查看网页的html原代码,发现图 ...
- java爬取网页并保存_第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- 第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- python爬取一张图片并保存_第九讲:Python爬取网页图片并保存到本地
上一讲我们说了如何把网页的数据通过分析后存储到数据库,我们这次讲如何将网页上的图片提取并下载到本地. 思路如下: 我们本次要爬取的是昵图网首页的图片. 1.首先分析我们要爬取的网页的代码结构,每个网页 ...
- #python学习笔记#使用python爬取网站数据并保存到数据库
上篇说到如何使用python通过提取网页元素抓取网站数据并导出到excel中,今天就来说说如何通过获取json爬取数据并且保存到mysql数据库中. 本文主要涉及到三个知识点: 1.通过抓包工具获取网 ...
- 爬取网站图片并保存到本地
第一步:模拟浏览器发出请求,获取网页数据 import requests# 目标网站 url = 'https://baijiahao.baidu.com/s?id=16872785093955534 ...
- python爬取网站图片(尽力在讲解)
1.首先,先导入两个库(一个就是常用的reques库,另一个就是BeautiSoup库) import requests from bs4 import BeautifulSoup 2.确定你要爬取的 ...
最新文章
- VMware虚拟机NAT模式的具体配置
- Ubuntu启用休眠hibernate
- linux 查看服务器网络连接,1.3.2 查看Linux服务器的网络连接(2)
- Bean的依赖注入概念
- python基础-网络基础知识和网络编程
- 如何让Sublime Text2支持GBK编码
- python selenium中文文档-selenium-python中文版文档
- Leetcode—5.n sum 问题python解答
- Python:解决cmd中已经通过pip安装完某个包后在pycharm中却无法使用或安装
- 20200726每日一句
- 将华为路由器做成ftp服务器(实现上传下载功能)
- Topaz Sharpen A I人工智能清晰锐化PS插件
- Java-Aspose实现Word文字替换(本地储存或浏览器下载)
- html中footer怎么写,HTML DOM Footer用法及代码示例
- signature=506ccff074d130c2e8d4e3268d3b44f1,Secure proxy signature schemes from the Weil pairing
- 精选大数据面试真题10道(附答案详细解析)
- 电容笔和触控笔的区别是什么?好用的电容笔测评
- 穿山甲别于传统广告联盟,造势创建新角色
- (机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01
- pycharm此应用程序无法启动,因为无法初始化qt平台插件