• 前言
  • 夜太美,爬虫就没那么危险
  • 善于利用他人的UA
  • 爬虫过程分析网页获取每一位英雄的ID值分析原画网页
  • 结语

前言

学习py也有不少时间了,老是忘记写博客,我自己也是很无奈呀!作为会为代码而疯狂的啃书君,我都愧对自己的昵称啦!

看到csdn里面那么多的大佬,数十年如一日,从未停歇,也给了我很多的激励。我也想成为你们的榜样呀!我觉得我骄傲了。

作为喜欢读书的我,也是很喜欢打游戏的,之前看到有人爬王者荣耀的皮肤的,我可是王者荣耀的老玩家了,所以我把英雄联盟给爬了。

哈哈哈,没想到吧!

在本次的爬虫教程的过程中,我也会分享给大家一些简单实用的爬虫小技巧。

夜太美,爬虫就没那么危险

在爬取的时候,不要猛攻嘛~,啊啊。。人家服务器受不了啊。。。

你要学会停顿,克制一点,该 sleep 就 sleep。

趁着人家睡觉的时候,限制防范程度是最低的,能晚点就晚点爬,没有看过凌晨4点的洛杉矶,但是你还可以看到凌晨4点的爬虫呢。

这样你的IP地址才不会容易被封。

善于利用他人的UA

如果你在看别人网站的robots.txt,你就会看到别人的声明,声明什么内容可以爬,什么内容不可以爬。但是,不要忽略了人家的声明,希望给什么搜索引擎爬,比如下面这个

0BtYRO.png

看到没,这个别人定义的robots.txt值得注意的是 User-Agent ,那么当你在Python构造headers的时候,User-Agent就直接指定它们的robots定义的就好了啊,比如:百度的UA,Google的UA或者是搜狗的UA等等。你再去爬爬看,那叫一个友好啊。

爬虫过程

分析网页

通过开发者模式F12,你就会发现箭头所指的文件了,没有看到的话,刷新一下试试。

0BtUQe.png

url0 = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js'
try:response = requests.get(url0, headers=headers)response.raise_for_status()response.encoding = response.apparent_encoding  # 设置编码格式hreolist = response.json() # 将Response转换成json格式print(hreolist) # 打印出英雄列表print(len(hreolist['hero']))    # 打印英雄个数:151
except Exception as e:print(e)
复制代码

通过上面的代码,我成功的获取到了所有的英雄,以及英雄的总个数。

这里只是截取部分的打印信息

{'hero': [{'heroId': '1', 'name': '黑暗之女', 'alias': 'Annie', 'title': '安妮', 'roles': ['mage'], 'isWeekFree': '0', 'attack': '2', 'defense': '3', 'magic': '10', 'difficulty': '6', 'selectAudio': 'https://game.gtimg.cn/images/lol/act/img/vo/choose/1.ogg', 'banAudio': 'https://game.gtimg.cn/images/lol/act/img/vo/ban/1.ogg', 'isARAMweekfree': '0', 'ispermanentweekfree': '0', 'changeLabel': '无改动', 'goldPrice': '4800', 'couponPrice': '2000', 'camp': '', 'campId': '', 'keywords': '安妮,黑暗之女,火女,Annie,anni,heianzhinv,huonv,an,hazn,hn'}
复制代码

通过上面的json信息其实你会发现,英雄的列表信息是写在了hero下的。

获取每一位英雄的ID值

通过刚刚获取到的json值,你会发现,这些值里面有一个键: 'heroId' ,那么这个'heroId'是用来做什么的呢?

这个我开始是不知道的,接下来我进入到了皮肤原画的网址,马上就霍然开朗了

https://lol.qq.com/data/info-defail.shtml?id=1 安妮
https://lol.qq.com/data/info-defail.shtml?id=2 奥拉夫
https://lol.qq.com/data/info-defail.shtml?id=876 莉莉娅
复制代码

通过上面的三个URL地址你就会发现heroId就是一个查询参数id。

但是在这里有一个坑,想必你也看到了,英雄的个数只有151个,id值却是876,。没错,在前100多个英雄都不会有什么问题很有规律,但是100多之后就出现问题了,每个英雄的id值跳转的很多,所以要进入每一位英雄的原画去爬图片就必须要正确拼接URL。每位英雄的ID值获取就成了必不可少的一步。

url = 'https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js'
hero_list_json = hreolist
hero_lists = hero_list_json['hero']     # 获取英雄列表
heros_id = list(map(lambda x: x['heroId'], hero_lists))     # 获取英雄编号
复制代码

分析原画网页

打开开发者模式,你会发现一个文件

0BttzD.png

在上图中可以看到skins有10个值,点开第一个可以看到 loadingImg ,而这个键对应的值就是皮肤原画的URL地址。

当然,作为老玩家们都知道,莉莉娅只有两种皮肤,但是skins里面为什么有10个值,依次点开第三个至第十个,会发现其余的loadingImg的值都是空的。

url_list = []   # 保存每一位英雄信息的url地址
for hero_id in heros_id:url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(hero_id)# print(url)url_list.append(url)
复制代码
url1 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/876.js'
try:response = requests.get(url1, headers=headers)response.raise_for_status()response.encoding = response.apparent_encoding  # 设置编码格式hreo_info = response.json()skins = hreo_info['skins']  # 获取英雄皮肤信息# 遍历每一个皮肤的loadingImg与皮肤名称for skin in skins:print(skin['loadingImg'])print(skin['name'])except Exception as e:print(e)
复制代码

通过上面的两组代码的思路,那么已经可以实现一个英雄的皮肤原画的爬取了,需要获取所有的皮肤原画,无非就是多一个循环。

当你会爬第一个英雄的原画时,你还怕得不到其他英雄吗?

结语

爬取英雄联盟的英雄原画的思路已经分享给大家了。

请问亲爱的读者,你是否可以将王者荣耀的英雄皮肤全部拿下呢?

相信你绝对是没有问题的,加油!

一个非常简单的小爬虫案例!

完整项目代码需要参考的点这里

Python获取英雄联盟皮肤原画:新手玩家们都懵了!相关推荐

  1. 用Python获取英雄联盟皮肤原画?走过路过不要错过

    前言 作为喜欢读书的我,也是很喜欢打游戏的,之前看到有人爬王者荣耀的皮肤的,我可是王者荣耀的老玩家了,所以我把英雄联盟给爬了. 哈哈哈,没想到吧! 在本次的爬虫教程的过程中,我也会分享给大家一些简单实 ...

  2. python画画零基础_Python获取英雄联盟皮肤原画:新手玩家们都懵了!

    本爬虫是为了经验交流,喜欢博主的读者,可以点个关注~,更多精彩内容* 爬虫过程 * 分析网页 * 获取每一位英雄的ID值 * 分析原画网页 结语 前言 在本次的爬虫教程的过程中,我也会分享给大家一些简 ...

  3. python简单实现抓取英雄联盟皮肤原画:老玩家都哭了!

    写在前面: 自学py已经快两个多月了吧,作为新手,就是敢于尝试,之前有看到有人抓取王者荣耀皮肤的,但是作为一个联盟老玩家,还是想搞一个抓取联盟皮肤的,下面分享一下我自己的学习经过,如果有错误或者建议, ...

  4. Python获取英雄联盟的皮肤原画:新手玩家们都懵了!(一)

    本爬虫是为了经验交流,如果读者需要转载,请注明出处和链接 希望:喜欢博主的读者,可以点个关注~,更多精彩内容请收藏本栏目,不定期添加干货. 代码:如果你订阅了本专栏可以直接私信我,我可以发给你完整的代 ...

  5. python下载英雄联盟皮肤

    这里写自定义目录标题 python--下载英雄联盟皮肤图片 程序源代码 python–下载英雄联盟皮肤图片 一个简单的代码,就可以把英雄联盟英雄全部的皮肤爬取下载以及保存到mongodb数据库中 因为 ...

  6. 用Python获取英雄联盟所有皮肤图片

    先来看一张图片. image.png 先讲解下思路,然后直接放源码,想要获取源码的同学直接拉到最下面就好. 1.爬虫第一步 首先要分析网页的DOM结构,就是英雄联盟官网,然后在下面找到英雄资料.然后在 ...

  7. Python下载英雄联盟皮肤图片

    import urllib.requestimport jsonimport os save_dir = "D:\英雄联盟皮肤"if not os.path.exists(save ...

  8. 【综合类型第 14 篇】英雄联盟之原画“永恩“

    这是[综合类型第 14 篇],如果觉得有用的话,欢迎关注专栏. 图片详情 分辨率:3840x2160 原图大小:1100 KB 点击获取原图 提取码:w4f1 你的问题得到解决了吗?欢迎在评论区留言. ...

  9. 牛散村:python怎么爬取英雄联盟皮肤图片?爬虫实战!

    相信很多小伙伴都是喜爱英雄联盟的玩家,英雄联盟的皮肤制作还是比较精美的,有收集癖好的小编打算用爬虫将官网的皮肤爬取下来.接下来就看小编怎么用python爬取英雄联盟皮肤吧!(内附python爬虫源代码 ...

最新文章

  1. String类型数组 根据首字母排序
  2. Activiti工作流之网关
  3. 一些Java面试技巧分享,你不能错过!
  4. TCP/IP协议中的一些常用端口简单讲解
  5. 工业轨式 1-16路 4-20MA 模拟量光端机产品介绍
  6. wampserver启动报错:1 of 2 services running - 解决篇
  7. Jupyter Lab——如何在 Jupyter Lab调用相对路径的文件夹中的类
  8. oracle客户端ora 12541,Oracle 11g 64bit下程序报ORA-12541: TNS: 无监听程序解决办法
  9. MethodFilterInterceptor(方法拦截器)配置excludeMethors
  10. linux下哪个输入法最好,[最好]linux下输入法→linux下输入法
  11. 更改计算机时间格式,修改电脑日期时间显示格式
  12. 如何查看win10系统的激活情况
  13. PX4使用FPV DShot电调
  14. 《基于GPU加速的计算机视觉编程》学习笔记
  15. 【算法】剑指offer-删除链表中重复的节点最小栈
  16. Mac idea java 代码的前进后退 代码的撤销和前进快捷键
  17. 仿牛客项目(持续更新)
  18. 用计算机录入稿件,如何利用OCR文字识别软件快速录入信息到电脑上?
  19. Cannot download sources Sources not found for:xxx解决方法汇总
  20. C# 字符串去除制表符回车符换行符

热门文章

  1. 【数据分析】多重分形去趋势波动分析附matlab代码
  2. 【超图+CESIUM】【基础API使用示例】22、超图|CESIUM - 标绘面:Cesium.DrawHandler绘制面Cesium.DrawMode.Polygon
  3. 软件度量都该度个啥?(4)——项目进度、成本度量
  4. 2014年1月工作总结
  5. SpringBoot获取音频文件时长
  6. 600套axure可视化大数据原型元件库模板40G[收藏]
  7. 使用 Nmap 扫描 TCP 和 UDP 端口
  8. java 四则运算_java四则运算
  9. 如何使用HTTP协议,读写PLC点位状态(含欧姆龙、三菱、西门子、施耐德、松下等PLC)
  10. 一款翻译机背后的全球经济浪潮