Python:网络爬虫入门

这只是一个最最最基础版本的Python爬虫入门,代码是我两年前写的,最近两天没事翻出来再写(shui)一篇博客。就是爬取王者荣耀英雄的皮肤。然后备注也是写的十分的详细,所以就不做过多的解释,如果想提高自己Python水平的同学可以照着敲一遍。

获取加载文件

打开某游戏官网。
然后随便点一个英雄的界面,然后按f12打开开发者调试工具。

然后我们把这个花间舞的头像指向的地址复制出来,就是后面那个地址,然后把它粘贴在地址栏,就可以看到我们得到了一张花间舞的高清图片,我们要爬取的就是这张图片。

获取图片地址信息

我们一般会多打开几张图片,然后观察他们的共性。

我们可以发现,就只有上面的141和bigskin后面的代码不一样,那我们就可以猜测414和199应该就是英雄的代号,2和3就是指第几张图片,这就好办了,那我们又怎么知道英雄的代码和皮肤的代号呢。
我们先返回到这个英雄界面,我们知道,网页要加载这些图片,肯定不是一开始就这样排好的,肯定有一个文件里面存了这些图片的信息,所以一般只需要更新那个文件就可以更新这个网页的内容了,我们先把那个文件找出来,一般这种文件都是json或者js为后缀的。

先按F12,然后刷新网页,就可以看到network下面加载出一堆的文件,然后把json一个个都找一遍。

我们把它下载下来。

右键,copy,第一个,然后复制链接地址,再粘贴到地址栏,就可以下载了。

可以看到里面的东西都非常详细,第一个ename就是英雄的代码了,第二个是英雄的中文名字,第三个就是默认皮肤的意思,第四个不知道啥玩意,别理他,第五个,好像是英雄的属性,法师坦克射手之类的,最后一个就是皮肤的名字啦。

编写代码

现在我们既然可以得到文件的准确地址,那么只要能够组合出图片地址就可以直接下载下来了。下面直接写代码。因为是古老的代码了,而且有些不全,我就不贴代码了,直接给图片吧。


然后就是我们关键的地方了,下载皮肤。
其实为了我们以后更加方便的下载,我这里是写了一个GUI界面。



然后新上架的皮肤不会及时更新到官网上面,但是可以组合出他们的图片地址,就暂时叫他们为隐藏皮肤,其实叫新皮肤会更合适。

我也把源码贴上去。
地址:https://github.com/luodeb/wzskin

非常非常简单的爬虫,可以用作Python入门级的教程了。

Python:网络爬虫入门相关推荐

  1. Python网络爬虫入门

    Python网络爬虫入门 网络爬虫(web crawler),也叫网络蜘蛛(Web Spider).网络机器人(Internet Bot).简单地说,抓取万维网(World Wide Web)上所需要 ...

  2. Python网络爬虫入门(一)入门

    Python网络爬虫(一)入门 使用到的库:requestspip+BeautifulSoup4pip+tqdmpip+html5lib python版本:3.8 编译环境:Jupyter Noteb ...

  3. Python网络爬虫入门篇---小白必看

    1.  预备知识 学习者需要预先掌握Python的数字类型.字符串类型.分支.循环.函数.列表类型.字典类型.文件和第三方库使用等概念和编程方法. 2. Python爬虫基本流程 a. 发送请求 使用 ...

  4. Python 网络爬虫入门详解

    什么是网络爬虫 网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序.众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容. 优先申明:我们使用 ...

  5. Python网络爬虫入门案例

    一.什么是网络爬虫? 网络爬虫又称网络蜘蛛.网络蚂蚁.网络机器人等,本质上是一段程序或脚本,可以自动化浏览网络中的信息,浏览信息时程序会按照一定的规则去浏览,这些规则我们称之为网络爬虫算法. 作用: ...

  6. python中国大学排名爬虫写明详细步骤-python网络爬虫入门实例:中国大学排名定向爬虫...

    中国大学排名定向爬虫的 设计和实现 一.环境安装: 1.选择一个适合自己的IDE(以下代码用Jupyter Notebook编写) 2.打开cmd,安装requests库和beautifulsoup4 ...

  7. python网络爬虫入门小程序_Python 实现网络爬虫小程序

    转载请注明作者和出处: http://blog.csdn.net/c406495762 运行平台: Windows Python版本: Python3.x IDE: Sublime text3 前言 ...

  8. python 网络爬虫入门(四)— 破解pexels高清原图

    最近貌似对好看的图着迷,Pixabay爬不到原图不甘心呀. 百度+知乎了下,于是转向pexels,同样一个高人气图片网站. 颜值逆天,画质不输Pixabay,瞬间感觉有了动力? 不到一下午就爬到高清原 ...

  9. python网络爬虫入门(二)——百度贴吧

    前面爬完了糗事百科,接下来看看百度贴吧. 可是光光获取评论文字也是忒无聊了,咱们来点图片. 然鹅,找哪儿的图好吶,翻来覆去,一个偶然的机会,让我看到了这个: 机智的我灵机一动,为什么创建这个" ...

  10. Python网络爬虫入门(五)—— 巧用抓包,爬遍SCU玻璃杯事件所有神回复

    最近我川又搞事情了 然后info又炸了,,, 据说最开始是这样的: 然后是这样的: 然后一发不可收拾了,校园各处不约而同响起了摔杯的声音,微信微博朋友圈qq空间,特么也全是玻璃碎片啊!!! (详情也可 ...

最新文章

  1. java培训面试技巧分享
  2. HP DL380 G6安装Windows server 2003(有光驱和无光驱两种方法)
  3. 性能提升-停用模块更新监控
  4. char *a 与char a[] 的区别
  5. 【Python基础】Matplotlib 实操干货,38个案例带你从入门到进阶!
  6. MDB!= JMS,反之亦然
  7. JAGUARSDN1网络的开机自动启动 禁用,WIFI模块的启动关闭控制
  8. word 编辑域中的汉字_word中插入的cad对象无法双击编辑问题解决记录
  9. AI算法连载20:统计之隐马尔可夫模型
  10. Python编程高手之路——第二章:流程控制
  11. 万字图解Java多线程,不信你学不会!
  12. 工具的使用——vs2013(二)
  13. 《现代操作系统(中文第四版)》课后习题答案 第三章 内存管理
  14. 腾讯X5WebView集成使用
  15. __stdcall调用约定
  16. Til the Cows Come Home POJ - 2387
  17. ffmpeg 中av_rescale_rnd 与av_rescale ()(AVRounding结构体)
  18. Linux之core dumped出错原因及位置分析
  19. Erupt Framework:开源神器,助你无需前端代码搞定企业级后台管理系统
  20. []575. Distribute Candies

热门文章

  1. 【身份鉴别-身份标识】Linux系统用户及用户组管理
  2. webuploader怎样上传文件夹
  3. 个人怎么做微信小程序?
  4. Python的文字转语音模块pyttsx3模拟测温提示
  5. mysql安装教程5.1_mysql 5.1安装教程详解
  6. Jenkins + 钉钉 + SpringBoot 极简入门,一键打包部署项目
  7. 坚持终身学习的重要性:只靠已有知识,你走不了多远
  8. c语言机票座位预定系统_课内资源 - 基于C语言的飞机票预订系统
  9. Q2海外收入首次过半 欢聚借Bigo能否再造一个“虎牙”?
  10. 计算机没有休眠睡眠状态,电脑没有睡眠模式_电脑怎么没有睡眠模式