爬虫的原理:

模拟浏览器的行为,通过网络请求将目标网页抓取到本地。

使用一定的匹配规则,将目标网页中需要的数据提取出来,把不需要的过滤掉。

根据需求,把提取出来的数据存储到磁盘中(json、csv、excel、数据库)。

需要安装的库:

requests:用来做网络请求的。就跟浏览器是一样的。安装方式:

pip install requests

bs4:用来将请求下来的数据进行解析的。安装方式:

pip install bs4

lxml:这个库是用来解析html和xml格式数据的。BeautifulSoup相当于只是一个壳,底层还是要基于lxml类似的这种解析器来解析。html5lib、html.parse。也要安装。安装方式如下:

pip install lxml

点击头像进去如下:

看下黄忠

我要获取的就是王者荣耀现在所有的88个英雄以及详情页英雄的皮肤,还有高清图片。

废话不多说,搞起!!!!

首先,搞定开头说的前两步,请求网络和提取数据!

headers = {

"user-agent": '"你自己的user-agent"

}

url =“抓取网页的目标url”

requestResult = requests.get(url, headers=headers)

resultJson = json.loads(requestResult.text)

print(type(resultJson))

heros = []

for li in resultJson:

hero = {}

hero['ename'] = li['ename']

hero['cname'] = li['cname']

hero['skin_name'] = li['skin_name']

hero['skin_name'] = str(hero['skin_name']).split('|')[::-1]

_ename = str(hero['ename'])

index = 1

smallImages = []

bigImages = []

# 获取某个英雄的所有皮肤和高清大图

for item in hero['skin_name']:

# url是分析得出,并且需要拼接好

singleSmallImage ='某个英雄的所有皮肤中的相对应的一个url‘

smallImages.append(singleSmallImage)

singleBigImage =‘某个英雄的高清皮肤中的相对应的一个url'

bigImages.append(singleBigImage)

hero['smallimages'] = smallImages

hero['bigimages'] = bigImages

index = index + 1

_imgurl = '这个是英雄默认皮肤的url'

hero['img'] = _imgurl

heros.append(hero)

heroTag = {'totalhero': heros}

上面用到的需要导入

import requests

我这里不需要Dom树形结构,没有用到BeautifulSoup

最后保存数据,这里保存为hero_json.json文件

with open('hero_json.json', 'w', encoding='utf-8') as fp:

json.dump(data, fp, ensure_ascii=False)

return 'ok'

hero_json.json文件整理:

赵云的数据

bigimages中的最后一条数据为赵云的“引擎之心”高清皮肤

smallimages为赵云的七款皮肤小图,不看了。

手机上的效果:

这里遇到坑了,最开始获取的所有英雄的列表数据是没有的,最后才看到是通过JavaScript实现的动态展示。

此文用作学习,以此记录!!!

如果此文对您有帮助,请点个赞让更多的人看到!

python爬取王者_Python爬取王者荣耀所有英雄以及高清大图相关推荐

  1. python爬取王者皮肤_Python爬取王者荣耀所有英雄以及高清大图

    爬虫的原理: 模拟浏览器的行为,通过网络请求将目标网页抓取到本地. 使用一定的匹配规则,将目标网页中需要的数据提取出来,把不需要的过滤掉. 根据需求,把提取出来的数据存储到磁盘中(json.csv.e ...

  2. Python爬取王者荣耀所有英雄以及高清大图

    转自 https://www.jianshu.com/p/93aba4661652

  3. python爬取王者_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注释

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  4. 【Python爬虫系列教程 18-100】Python网络爬虫实战:小姐姐手把手教你爬取并下载英雄联盟所有英雄皮肤高清大图

    文章目录 前言 一.分析页面 二.分析第二个页面 三.代码 四.下载结果 前言 上次教你怎么爬取王者荣耀,今天小姐姐教你使用几十行代码下载英雄联盟所有皮肤,你看我下载的九尾妖狐.

  5. python代码壁纸-爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注释

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  6. python代码手机壁纸_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸+超强注

    [python]代码库import urllib.request import re # 获取主页源码 url = 'https://pvp.qq.com/web201605/herolist.sht ...

  7. python高清壁纸_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸(完美版本)

    [python]代码库import urllib.request import json import os import re # 皮肤下载地址 skin_link = 'https://game. ...

  8. 【爬虫】9行python下载王者荣耀所有英雄的高清壁纸(附代码和图片下载)

    Python爬虫爬取王者荣耀全英雄皮肤图片 逛王者荣耀网站的时候,发现每个英雄介绍页面的壁纸很好,用来当壁纸挺好看的,于是就研究了一下如何用python爬虫将全部英雄的图片爬取下来,下面主要介绍了两种 ...

  9. python爬取王者皮肤_Python爬取王者荣耀英雄皮肤高清图片

    前言 临下班前,看到群里有人在讨论用王者农药的一些皮肤作为电脑的壁纸,什么高清的,什么像素稍低的,网上查了一手,也有,但像素都不一样,所以,我就想着,自己去官网直接爬他的高清皮肤就好了,然后就有了这边 ...

最新文章

  1. BT:胞外酶-化腐朽为神奇的催化剂
  2. noclobber:避免文件的重写
  3. Python入门,从19个语法开始!
  4. android两个耳机能连两部手机吗,AirPods使用技巧:如何让耳机同时连接两台手机...
  5. mes建设指南_给予和接受建设性批评的设计师指南
  6. AI算法连载21:统计之概率图模型
  7. 漫步最优化八——梯度信息
  8. php面试编程题_一位资深php程序员在北京的面试30个题目
  9. 网友建站经验——(转载)
  10. PHP单例模式经典讲解
  11. 平安智慧城市总部智慧政务事业部总监张巍:平安智慧城市大数据应用实践分享
  12. Linux 将某个文件夹授予某个用户读写权限
  13. Python告诉你NBA球星都喜欢在哪个位置出手?
  14. 深度学习如何参加阿里的天池比赛和进入天池实验室
  15. 【RNN】基于RNN的动态系统参数辨识matlab仿真
  16. JS节点操作——连缀
  17. MySQL数据库如何改名
  18. 【LeetCode】309. Best Time to Buy and Sell Stock with Cooldown 最佳买卖股票时机含冷冻期(Medium)(JAVA)
  19. 存储器的分类及各类型的特点
  20. spring boot: Whitelabel Error Page(小白的终极解决方案)

热门文章

  1. 超级马里奥Demo工程源文件
  2. Excel常用的函数与公式集锦,再也不用担心找不全公式了
  3. 帆软报表多源数据过滤为何不显示数据
  4. MySQL: Couldn't execute 'SET OPTION SQL_QUOTE_SHOW_CREATE=1':问题
  5. CNN也能用于NLP任务,一文简述文本分类任务的7个模型
  6. 面试系列 | 技术面试老是有劲使不出,该怎么办
  7. 韦达定理:根与系数的关系
  8. Git学习笔记 — 借鉴bilibili 鱼C-小甲鱼的教学视频
  9. 全球与中国轴向活塞液压马达和泵市场深度研究分析报告
  10. Everything-文件查找工具