python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例
先看看结果吧,去bilibili上拿到的图片=-=
第一步,导入模块
import requests
from bs4 import BeautifulSoup
requests用来请求html页面,BeautifulSoup用来解析html
第二步,获取目标html页面
hd = {'user-agent': 'chrome/10'} # 伪装自己是个(chrome)浏览器=-=
def download_all_html():
try:
url = 'https://www.bilibili.com/' # 将要爬取网站的地址
request = requests.get(url, timeout=30, headers=hd) # 获取改网站的信息
request.raise_for_status() # 判断状态码是否为200,!=200显然爬取失败
request.encoding = request.apparent_encoding # 设置编码格式
return request.text # 返回html页面
except:
return ''
第三步,分析网站html构造
1、显示网站html代码
2、找到编程客栈图片位置
3、分析
第四步,直接上代码注释够详细=-=
def parse_single_html(html):
soup = BeautifulSoup(html, 'html.parser') # 解析html,可以单独去了解一下他的使用
divs = soup.find_all('div', class_='card-pic') # 获取满足条件的div,find_all(所有)
for div in divs: # 瞒住条件的div有多个,我们单独获取
p = div.find('p') # 有源代码可知,每个div下都有一个p标签,存储图片的title,获取p标签
if p == None:
continue
title = p['title'] #http://www.cppcns.com 获取p编程客栈标签中的title属性,用来做图片的名称
img = div.find('img')['src'] # 获取图片的HkZavBbqA地址
if img[0:6] != 'https:': # 根据源代码发现,有的地址缺少"https:"前缀
img = 'https:' + img # 如果缺少,我们给他添上就行啦,都据情况而定
response = requests.get(img) # get方法得到图片地址(有的是post、put)基本是get
with open('./Img/{}.png'.format(title), 'wb') as f: # 创建用来保存图片的.png文件
f.write(response.content) # 注意,'wb'中的b 必不可少!!
parse_single_html(download_all_html()) # 最后调用我们写的两个函数就行啦,
查看结果
到此这篇关于python爬取http://www.cppcns.com网站图片并保存的实现示例的文章就介绍到这了,更多相关Python爬取图片保存内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
python爬取网站图片链接并保存,Python爬取网站图片并保存的实现示例相关推荐
- favicon自动获取_wordpress网站友情链接页面使用DNSPod自动获取网站favicon图标教程...
在网站的友情链接页面,经常可以看到网站的图标增加美感.在以前,有些是直接使用favicon.ico地址读取,但是确有弊端那就是很多网站首页并没有favicon.ico,就不可靠.还有一部分人采用的是谷 ...
- python实现网站测速软件_python实现网站友情链接查询与网站死链接查询的两个脚步...
在前几天写的一建抓取网站所有链接的脚步往后衍生了以下的两个脚步,一个是查询网站友情链接,另一个是查询网站的死链.我这里只是初步实现了功能,还有很多地方需要优化,比如说查询友情链接脚步会存在带www与不 ...
- 推荐|45个值得收藏的Python优质资源(附链接)
热门资源博客 Mybridge AI 比较了18000个关于Python的项目,并从中精选出45个最具竞争力的项目.我们进行了翻译,在此一并送上. 这份清单中包括了各不相同的20个主题,以及一些资深程 ...
- 网站内部链接优化大解析
相信广大站长们也知道,无论是什么样的网站,其内部链接都是必不可缺的,可能有部分刚入行的从业者会问内部链接是什么?其实内部链接是很好理解的,简单的来解释一下,内部链接是和外部链接相反的,外部链接我们俗称 ...
- C#解析Markdown文档,实现替换图片链接操作
前言 又是好久没写博客了 其实也不是没写,是最近在「做一个博客」,从2月21日开始,大概一个多星期的时间,疯狂刷进度,边写代码边写了一整系列的博客开发笔记,目前为止已经写了16篇了,然后上3月之后工作 ...
- 网站外部链接优化如何进一步提升?
随着搜索引擎的不断发展进步,网站传统外链以及常规的宣传手法对于网站优化来说并不能像之前一样收获良好的效用,也越来越不适应于当下的网站优化,因此,很多站长都开始转换网站建设链接的方法,比如说制造链接诱饵 ...
- nginx图片文件服务器,nginx 图片链接 文件服务器
nginx 图片链接 文件服务器 内容精选 换一换 图片组件作为一个基本组件,用于展示图片.用户可以通过属性"图片地址",来选择图片. 当桶中存在已经创建好的图片样式时,您可以通过 ...
- 网站服务器或者代理查找失败,新的网站收录最快的方法,没有之一 - 搜外SEO问答...
说到新的网站收录最快的方法,我相信会有很大一部分人建议这些新站长去让老站长给做友情链接,因为这样会给新站导入相当的权重,新网站权重高了,百度自然就会收录,但是这种方法真的是最快的吗? 接下来给大家分析 ...
- python多线程爬虫界面_多线程网页爬虫 python 实现
#!/usr/bin/env python #coding=utf-8 importthreadingimporturllibimportreimporttime g_mutex=threading. ...
- 怎么看网站域名有没有收录 收录情况怎么样 网站收录查询
对于网站收录的概念,互联网中或者搜索引擎中已经有大量的相关定义.网站收录,指的是爬虫爬取了网页,并将页面内容数据放入搜索引擎数据库中这一结果. 怎么看网站域名有没有收录?录情况怎么样? 用站长工具查询 ...
最新文章
- ednote服务器运行失败,endnote搜索文献时连不上服务器 Endnote连接服务器问题
- resnet keras 结构_Wandb用起来,一行Python代码实现Keras模型可视化
- 深入理解JavaScript的变量作用域
- Android中1像素Activity进程保活
- 小程序中 使用fixed自定义弹窗时,底部长页面禁止滚动
- android 平板方案,Android平板方案
- 为企业提供本地销售人员的Universal Avenue获1000万美元A轮融资
- C++笔记-C++11中default及delete的使用
- testNG单元测试学习
- 使用Jenkins配置自动化构建
- 若依如何修改数据监控登录账户密码?
- python获取读取文件的文件名_python文件名获取文件路径
- c语言for语句用法和例子
- 计算机类科技文献检索作业,研究生科技文献检索(理工类)考察作业任务.doc
- 东芝 rc100 linux,入门级NVMe固态硬盘首选,东芝RC100带来的超值体验
- IDEA工具-鼠标滚轮调整字体大小
- archLinux安装记录
- word排版快捷指令_常用的Word快捷键大全
- 互联网黑暗森林法则:想活?别喘气儿!
- building workspace js validation