wzry-spider

python通用爬虫-通用爬虫爬取静态网页,面向小白

基本上纯python语法切片索引,少用到第三方爬虫网络库

这是一只小巧方便,强大的爬虫,由python编写

主要实现了:

1.爬取高清皮肤大图

2.爬取所有英雄背景故事

所需的库有

    1. requests 只用来发送请求和保存二进制文件

纯python爬虫,利用python索引切片文件读写不依赖第三方网络爬虫库实现硬核爬虫

完整项目放在GitHub:https://github.com/Ymy214/meizitu-spider

具体实现思路:

    1. 分析网页源代码结构
    1. 找到合适的入口
    1. 穷举访问并解析
    1. 爬取所有英雄所有皮肤图片

代码思路/程序流程:

我分析王者荣耀网站上面的英雄资料库发现所有英雄的页面基本上都是连贯的,并且还是偏向与静态网页没有过多的JavaScript渲染,所以比较适合来一波穷举遍历爬虫,但是速度也很快。利用python语法字符串操作,列表操作,字典操作等等循环遍历英雄页面利用python列表切片索引和字符串拼接等等方法来解析HTML得到皮肤图片链接和背景故事文本,将皮肤图片二进制文件保存为png高清大图,将所有英雄背景故事合并保存为文本文档

下面是功能以及效果展示

整体展示

爬取效果展示-丰功伟绩

爬取效果展示-硕果累累

背景故事

所有图片链接写入文本文件

代码展示

王者荣耀【皮肤高清大图爬虫】源代码如下

#!/usr/bin/env python
# -*- encoding: utf-8 -*-import requests
fo = open('./wzry-jpg/wzry-pf.txt', 'w')path = './wzry-jpg/'
ls = []
for i in range(105,200):url = "http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{0}/{0}-bigskin-1.jpg".format(i)status_code = requests.request('get', url).status_codeif status_code != 200:continuefor j in range(1, 9):imgurl = url[:-5] + '{}.jpg'.format(j)response = requests.request('get', imgurl)if response.status_code != 200:            continuels.append(imgurl)##下载print("开始下载第{}-{}个英雄皮肤图片>>>".format(i,j), end='')with open(path+str(i)+'-'+str(j)+'.png', 'wb') as f:f.write(response.content)print('======下载完成======')for i in range(501,516):url = "http://game.gtimg.cn/images/yxzj/img201606/skin/hero-info/{0}/{0}-bigskin-1.jpg".format(i)status_code = requests.request('get', url).status_codeif status_code != 200:continuefor j in range(1, 9):imgurl = url[:-5] + '{}.jpg'.format(j)response = requests.request('get', imgurl)if response.status_code != 200:            continuels.append(imgurl)##下载print("开始下载第{}-{}个英雄皮肤图片>>>".format(i,j), end='')with open(path+str(i)+'-'+str(j)+'.png', 'wb') as f:f.write(response.content)print('======下载完成======')
##print(ls)##连接写入txt文件
for line in ls:fo.write(line+'\n')
fo.close()

王者荣耀【英雄背景故事爬虫】源代码如下

#!/usr/bin/env python
# -*- encoding: utf-8 -*-import requests
fo = open('R:/python123全国等考/wzry-jpg/pop-bd.txt', 'w')ls = []
for i in range(105,200):url = "https://pvp.qq.com/web201605/herodetail/{}.shtml".format(i)r = requests.request('get', url)if r.status_code != 200:continuer.encoding = 'gbk'name = r.text.split('cname')[1].split(',')[0].split("'")[1]text = r.text.split('pop-bd')[1].split('p>')[1][:-2]print("开始保存第{}个英雄背景故事>>>".format(i))fo.write('【'+name+'】'+'\n'+text+'\n'+'-'*30)for i in range(501,516):url = "https://pvp.qq.com/web201605/herodetail/{}.shtml".format(i)r = requests.request('get', url)if r.status_code != 200:continuer.encoding = 'gbk'name = r.text.split('cname')[1].split(',')[0].split("'")[1]text = r.text.split('pop-bd')[1].split('p>')[1][:-2]print("开始保存第{}个英雄背景故事>>>".format(i))fo.write('【'+name+'】'+'\n'+text+'\n'+'-'*30)##连接写入txt文件fo.close()

另外本人还有面下给小白的

    1. 反防盗链爬取妹子图
    1. 王者荣耀背景故事爬虫

欢迎学习支持

有用或帮到你的话不妨点个star我将感激不尽

python爬虫王者荣耀高清皮肤大图背景故事通用爬虫相关推荐

  1. python爬虫--王者荣耀高清壁纸下载(多线程)

    下面的代码是采用多线程的生产者消费者模式,下载速度比之前文章的普通下载快一点. 普通下载的链接:python爬虫–王者荣耀高清壁纸下载 代码在下载方面是没有问题的,可以直接运行,就是在收集打不开链接的 ...

  2. 爬取王者荣耀高清皮肤

    爬虫中使用多线程爬虫是一种很常见的方式,可以提高爬取的效率,特别是生产者消费者模型也经常可以见到,今天刚好学习了这种模式,爬取下王者荣耀的高清壁纸,作为练习 import requests from ...

  3. python手机壁纸超清_Python爬虫-王者荣耀高清壁纸下载

    绪论 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.python是一种跨平台的计算机程序设计语言.是一种 ...

  4. 爬虫 | 王者荣耀高清壁纸-多线程

    # CY3761 | 2021-11-04 18:23 import json import os import queue import time import urllibimport reque ...

  5. 使用Python爬出王者荣耀高清皮肤图片

    记录一下自己获取王者荣耀的高清皮肤图片的过程 先进入王者荣耀的官网https://pvp.qq.com/ 打开F12后,点到Network那里,再按F5,然后就会看到巴拉巴拉加载出很多网络包 对her ...

  6. 爬虫 | 王者荣耀高清壁纸-单线程

    # CY3761 | 2021-11-04 11:45# 把请求事务等封装成函数 一步步进行 import json import os import time import urllib.parse ...

  7. python爬虫王者荣耀高清壁纸

    # run.py import re, os, time, json, requests from urllib.parse import unquote import concurrent.futu ...

  8. python爬虫练习高清壁纸【王者荣耀高清壁纸】python爬虫

    python爬虫练习高清壁纸[王者荣耀高清壁纸] 仅做练习使用,各位小伙伴不用乱来!!! 现成的代码,直接拿走研究,已经精简了自行美化 页面自己去分析分析 ,学习效果更佳. import reques ...

  9. python爬取王者_python 爬取王者荣耀高清壁纸

    一.前言 打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 预览一下桌面吧: 是不是看着这样的桌面也很带感,_ (学会这个技术,你可以爬取其他网站的类似图片 ...

最新文章

  1. ORACLE11G 将dataguard的rman备份恢复到测试环境的单机oracle中的详细过程
  2. 动态链接库dll,静态链接库lib, 导入库lib
  3. QDoc文件结构documentstructure
  4. 2019宁波最重视的行业
  5. maven 中 pom.xml 配置文件标签说明,dependencyManagement和dependencies区别
  6. Oracle 11g for Windows 简体中文版的安装过程
  7. python dataframe去除重复项_python - Pandas DataFrame处理查找DataFrame中的重复项 - 堆栈内存溢出...
  8. 一步一步学会JDBC
  9. IDEA设置字体随鼠标滚动放大缩小
  10. AR涂涂乐⭐六、 UGUI精灵格式、自动延迟截图、优化“4”、移出扫描框终止截图进程
  11. BLE service, characteristic
  12. Windows 10 上使用 CMake GUI 编译 Krita 源代码并使用 MinGW 64 作为构建工具
  13. GitHub添加SSH key
  14. html在线编辑器代码运行,JSRun - 在线JS、HTML编辑器(同时也支持各种后台代码的编辑运行)...
  15. “秤”心不如务“时”,Libra合规路暗藏玄机
  16. Doom-Emacs安装和基本使用方法
  17. 线性代数--1.2 行化简与阶梯形矩阵
  18. English Learning - Day23 作业打卡 2022.12.29 周四
  19. 魅族手机MX4 MX4 Pro 魅蓝note 无法连接USB调试,adb连不上问题的解决方案
  20. 理一理COM、OLE、ActiveX~~

热门文章

  1. HTML5 App的代码注入攻击
  2. 电脑公司特别版8.5操作系统出来了;下载地址
  3. ElasticSearch学习总结(一)
  4. css:图文效果(上面图片下面文字)
  5. android 拨号器 目录,Android 电话拨号器
  6. TreeHelper 是一个将含有id,parentId属性的JavaBean转化为层次分明的树形结构的工具类。
  7. 泰捷we30c系统语言,泰捷方盒WE30C测评:看电视久违的清爽
  8. Android实战技巧之四十 Android5 1 1源代码编译与烧写
  9. 在你所有的项目中都加入 TailwindCSS 吧!
  10. 基于微信小程序的医院预约挂号系统设计与实现 毕业设计论文 课题题目参考(1)功能和界面效果