python3半自动爬虫获取风暴英雄官方壁纸

  • 引(废)言(话)
  • 动机与目标
    • 我为什么会写这篇blog
    • 我写这篇blog有什么用
  • 干货
    • 开始之前
    • 导入模块
    • 定义路径和UA
    • 读取本地html文件
    • 解析并提取图片地址
    • 获取地址所指向的图片
    • 参考资料

引(废)言(话)

随便打开一个搜索引擎然后输入“Python”、“爬虫”、“图片”这样的关键词组合,返回结果里必然会出现“X女X图”或者“妹X图X”这样的字眼……
不得不感叹,色批是第一生产力。
当然也不排除某些营销号动了脑筋以后,想出这样的标题吸引流量,真是辛苦他们了呢;不过从结果上看你们还是贩卖焦虑更有效些。

动机与目标

自己动手,丰衣足食。

——辣个蓝棱

我为什么会写这篇blog

女人哪有游戏好玩?.jpg
风暴要火.png
你们难道没有手机吗.gif

我写这篇blog有什么用

  • 记录细节,以备后用
  • 日记
  • 可以直接抄走

干货

开始之前

这一次的目标是网站里的一个栏目,而且这一区域采用了动态加载的机制,你必须亲手点击那个“查看更多”按钮(若干次),才能最终得到所有图片的索引预览。
因此我手动拷贝了有关部分的HTML内容,至本地文件heroes.html;这是我称这个爬虫为“半自动”的原因(本菜鸟认为:一定存在自动化的方法来免除动手操作的麻烦,只是我水平太低,无从寻找和使用。欢迎留言或者以别的方式让我知道,如果确实有用,我会以实际行动向你表达我的感谢)。

导入模块

import time
import randomfrom bs4 import BeautifulSoup
import urllib.request as ureq
from tqdm import tqdm

定义路径和UA

不管网站是否采取什么严格的反爬措施,这个UA头字串还是加了为好。

headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'}
st="file:///X:/heroes.html"
pic_path = 'pic/'

读取本地html文件

r = ureq.urlopen(st)
hfr = r.read()

解析并提取图片地址

soup = BeautifulSoup(hfr, 'html.parser')
imglist = []
all_index = soup.find_all('ul',{'class':"m-media-download-box clearFix"})
for i in all_index:for imglink in i.find_all('a'):imglist.append(imglink.get('href'))pass

获取地址所指向的图片

# print(len(imglist))
test_dl = imglist[:2]
for el in tqdm(test_dl, ascii=True):ureq.urlretrieve(el,pic_path+el.split('/')[-1])time.sleep(random.random()*2)pass

参考资料

bs4官方中文说明https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html

python3半自动爬虫,获取风暴英雄官方壁纸相关推荐

  1. Python3: selenium 爬虫获取一卡通消费记录

    1.预登陆 首先手工登陆一次,通过抓包工具或者浏览器控制台分析登陆过程 2.模拟登陆 通常来说简单的爬虫用requests就能搞定 但是这个登陆过程,几次跳转,技术不够,没搞定 尝试使用seleniu ...

  2. Python3原生爬虫获取熊猫直播某一分类下的主播人气并保存到Excel

    import re import openpyxl from urllib import request# 断点调试class Spider:url = 'https://www.panda.tv/c ...

  3. 【Java项目】讲讲我用Java爬虫获取LOL英雄数据与图片(附源码)

  4. 利用selenium抓取英雄联盟壁纸

    本博客主要来利用selenium这一利器来爬取LOL官网各个英雄皮肤的壁纸,注意是壁纸,不是图片!壁纸是图片,但图片不是壁纸. selenium是一个自动化测试工具,利用它可以驱动浏览器执行一些特定的 ...

  5. 风暴英雄服务器无响应,win7系统下玩风暴英雄卡机的解决方法

    风暴英雄是一款备受玩家们喜爱的游戏之一,然而在玩的过程中,有不少win7旗舰版32位系统用户发现玩风暴英雄的时候出现了卡机的情况,碰到这样的问题该怎么办呢,本文就给大家带来win7系统下玩风暴英雄卡机 ...

  6. 图片链接用src不能被爬虫爬到吗_爬虫:带你一键爬取王者荣耀英雄皮肤壁纸

    一.前言 王者荣耀这款手游,想必大家都玩过或听过,游戏里英雄有各式各样的皮肤,制作得很精美,有些拿来做电脑壁纸它不香吗.本文带你利用Python爬虫一键下载王者荣耀英雄皮肤壁纸. 1. 目标 创建一个 ...

  7. python 山脊图_爬虫:带你一键爬取王者荣耀英雄皮肤壁纸

    一.前言 王者荣耀这款手游,想必大家都玩过或听过,游戏里英雄有各式各样的皮肤,制作得很精美,有些拿来做电脑壁纸它不香吗.本文带你利用Python爬虫一键下载王者荣耀英雄皮肤壁纸. 1. 目标 创建一个 ...

  8. 喜欢玩王者荣耀的有福了,用 Python 获取英雄皮肤壁纸

    出品:Python数据之道 (ID:PyDataLab) 作者:叶庭云,来自读者投稿 编辑:Lemon 一.前言 王者荣耀这款手游,想必大家都玩过或听过,游戏里英雄有各式各样的皮肤,制作得很精美,有些 ...

  9. python桌面爬虫_Python3爬虫爬取英雄联盟高清桌面壁纸功能示例【基于Scrapy框架】...

    本文实例讲述了Python3爬虫爬取英雄联盟高清桌面壁纸功能.分享给大家供大家参考,具体如下: 使用Scrapy爬虫抓取英雄联盟高清桌面壁纸 源码地址:https://github.com/snowy ...

最新文章

  1. WIN32 C++ 遍历文件夹
  2. 当安卓 Emoji 遇上苹果 Emoji:傻傻分不清楚
  3. 对html5的了解,HTML5——对HTML5的认识
  4. 自己封装一个弹框插件
  5. python猴子偷桃_Python实例100个(基于最新Python3.7版本)
  6. Oracle面对“数据倾斜列使用绑定变量”场景的解决方案
  7. iis10.0 php多版本,IIS7 IIS8 中多个版本php共存的方法
  8. Quartz.NET开源作业调度框架系列(二):CronTrigger-转
  9. 手机距离传感器坏了有什么影响_恢复出厂设置对手机有什么影响?
  10. 椒盐噪声 Python实现
  11. modulus CRT
  12. 动态添加和删除 ListView 项
  13. 30个ies光域网带图_15个让你脚下更细腻的经典控球训练
  14. 利用VBB仿真——实现摇杆时钟
  15. 百度文库和豆丁网的在线文档阅读功能
  16. 高等数学微积分公式大全
  17. 卡诺模型案例分析_设计师必修课:KANO 模型的讲解与案例分析
  18. 截图智能识字demo
  19. 产业分析:工业机器人市场研究
  20. 斜线“\”与反斜线“/”应用场景的整理

热门文章

  1. 永磁同步电机(pmsm,全速度切换无位置传感器控制(高速可以是超螺旋滑模)
  2. 我学炒外汇 第三篇外汇市场
  3. 复杂系统学习(七):基于代理的模型I
  4. 山东电销机器人_智能电销机器人公司 服务为先「山东启云创客网络科技供应」...
  5. easy connect电脑版_mysql 5.7解压版安装教程
  6. 【全奖博士】香港大学韩锴课题组计算机视觉和深度学习方向
  7. python编程超市购物系统_python面向过程编程小程序- 模拟超市收银系统
  8. 电影产业价值意义分析,影片定义至关重要
  9. 健康大数据中心总体规划方案(ppt)
  10. 什么是ROM-BIOS