python爬虫初学入门实战

——无需登录无需vip获得各种大小的png图标,爬取easyicon里的图标并储存
首先附上爬取的网址地址

实验环境

操作系统:windows 10
版本:python 3.8,并且已经安装requests库
时间:2020-08-08

实验示例

https://www.easyicon.net/1259436-vpn_icon.html
以此网站上的图标为例子,进行爬取

实验过程

直接点击下载,会显示需要登录且要vip,我们通过检查网页可以发现,easyicon网站给出了api接口url。(第一个链接)可以下载相应大小的png图片。

实现代码

import requests
#请求的头
head={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'}
#生成的文件名
path="picture.png"def main():id=input("图片的id")size=input("图片的大小")#根据id和size生成urlurl='https://www.easyicon.net/api/resizeApi.php?id='+str(id)+'&size='+str(size)try:r = requests.get(url,timeout=10,headers=head)r.raise_for_status()with open(path,'wb') as f:f.write(r.content)f.close()print("sucess")except:print("fail")input("任意键")
main()

实验结果

只需要输入想要爬取的图标id和大小,就能在python所在的目录下下载png文件
比如输入:1259436 48

成功获得图片

成功获得png格式的图标


注意事项

后来查询该网站的robots.txt,内容如下:

User-agent: * Disallow: Disallow: /demo Disallow: /color Disallow: /api Disallow: /download Disallow: /skinnew/ Disallow: /SkinNew/ Disallow: /s/ Sitemap: https://www.easyicon.net/sitemap/soft/today.xml Sitemap: https://www.easyicon.net/sitemap/soft/list.xml

原则上api目录下的图片是不能爬取的,请大家谨记爬虫规则。

本人初学者,可能会存在不足之处请见谅qwq。
后续改进,请看=> 图标爬虫(2)
代码仅用于个人学习交流,侵权删

python爬虫初学实战——免登录爬取easyicon里的vip图标(1)相关推荐

  1. python爬虫初学实战——免登录爬取easyicon里的vip图标(2)

    python爬虫初学实战-免登录爬取easyicon里的vip图标(2) 实验日期:2020-08-09 tips:没看过前面(1)的可以康康,指路 -> 爬取easyicon里的png图标 成 ...

  2. Python爬虫应用实战-网站数据爬取及数据分析

    实战一:中国大学排名 前言 由于上一篇文章中教会了大家如何存储数据,但是由于篇幅过大,就没有加入实战篇.想必大家也等着急了吧,所以今天就为大家带来两篇实战内容,希望可以帮助到各位更好的认识到爬虫与My ...

  3. Python爬虫应用实战-如何对爬取的数据进行数据存储?

    文件存储 文件储存的形式多种多样,比如说保存成TXT纯文本形式,也可以保存为JSON格式.CSV格式等等. TXT文本存储 将数据保存到TXT文件的操作是非常简单的,而且TXT文本几乎兼容任何平台,但 ...

  4. Python爬虫笔记(3)- 爬取丁香园留言

    Python爬虫笔记(3)- 爬取丁香园留言 爬取丁香园留言:主要用到了模拟登录 爬取丁香园留言:主要用到了模拟登录 import requests, json, re, random,time fr ...

  5. [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图

    [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...

  6. 从入门到入土:Python爬虫学习|实例练手|爬取猫眼榜单|Xpath定位标签爬取|代码

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  7. 从入门到入土:Python爬虫学习|实例练手|爬取百度翻译|Selenium出击|绕过反爬机制|

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  8. 从入门到入土:Python爬虫学习|实例练手|爬取新浪新闻搜索指定内容|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  9. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

最新文章

  1. 商汤科技举办病理、放疗两大MICCAI国际挑战赛,推动AI医疗落地
  2. python基础语法类型_Python基本语法[2]-简单数据类型,基础
  3. 我想做产品,实现一个非常优秀的电脑桌面记事本加闹钟
  4. Mongo数据库慢查询功能
  5. ERP系统和ERP软件的介绍
  6. AD快捷键的设置及推荐
  7. 阿里又起社交心,天天动听做音乐轻社交?
  8. 10种微信公众号的推广吸粉方法
  9. 三年硬件工程师薪水_硬件研发工程师,工资不高的真相
  10. 技能设计漫谈 ——从游戏性和流畅角度来看技能的设计要点。
  11. 基于PyTorch的生成对抗网络入门(3)——利用PyTorch搭建生成对抗网络(GAN)生成彩色图像超详解
  12. 2000年英语一真题及答案
  13. 入门推荐系统,你不应该错过的知识清单
  14. ChatGPT 类大语言模型为什么会带来“神奇”的涌现能力?
  15. 详解eclipse如何配置tomcat
  16. Linux设置开机自启
  17. 思岚科技受邀CES Asia 展示机器人定位导航领先技术
  18. python程序实验教程_20192428 实验一《Python程序设计》实验报告
  19. 什么叫五口POE交换机 五口POE交换机使用方法
  20. 转载 关于多线程MT和MD的区别。

热门文章

  1. PAT甲级 1068
  2. emmc tuning test-sw tuning
  3. Linux 中断原理之软中断
  4. pyqt5在表格中添加单选框(勾选框)
  5. HTML5 Canvas眨眼睛动画
  6. pdf批量加水印的方法?
  7. 小波神经网络的基本原理,小波神经网络数据分析
  8. 【自用】simetrix/simplis使用体验及问题分析(2)
  9. 施耐德EOCR-SS电子继电器如何应用?
  10. 如何用好Google?