本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

原画爬取

先看一下炉石传说的原画:
炉石传说原画链接:
http://news.4399.com/gonglue/lscs/kptj/

该网站通过点击查看更多加载新的内容,本打算使用Selenium模拟点击获取图片信息 ,尝试发现源码中 该按钮并无相应的跳转链接

这不应该啊 没有相应的跳转链接 点击后是如何加载新的图片?

后来浏览整体网站源码后 发现把问题想复杂 根本不需要模拟点击查看更多

网站其实已经加载了所有的卡牌原画 只是之后的原画做了隐藏处理默认不展示 style=display

点击查看更多后 显示原画

那么只需使用requests获取网页源码

用BeautiSoup/正则表达式/pyQuery解析元素 遍历相应img的url 即可下载

教训:爬虫前 不要根据网页所对的操作实施相应的代码爬取 不要有这样的思维定式 首先要做的是先大体浏览分析整个网页的源代码 有的可能直接写在源码或json或js中 无需再加工

卡牌爬取

炉石传说卡牌链接:
http://cha.17173.com/hs/

该网站通过下拉右边的滚动条不断加载新的卡牌

与上一个网站不同 上一个网站一次性写入了所有卡牌 只不过做了隐藏处理

该网站是通过js动态加载渲染出的卡牌 直接获取源码 无法得到所有卡牌信息

那么就用selenium模拟下拉滚动条(selenium简直居家必备之神器)

使用selenium执行js脚本 每次执行下拉1000个单位滚动条 执行90次

为什么是90次 测试出来的 大概90次拉到底

注意:这里要增加1~3秒的暂停时间 用于网页渲染

第一次没有设置停留时间 无法获取新的数据 怀疑自己 怀疑人生

经前端/后端好友L君的提示 需增加暂停时间 这样才能获得加载渲染后的数据

browser.page_source便可获得动态加载的所有数据

有了数据 之后就很简单 正则匹配获取相应url下载即可

既然获得了这么多卡牌和原画 不能浪费 利用起来 拼图!

以上文章来源于码农小黑屋,作者 丨像我这样的人丨

Python爬虫实战:炉石传说卡牌、原画数据抓取相关推荐

  1. Python爬虫教程:微医挂号网医生数据抓取

    1. 写在前面 今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...

  2. Python爬虫+可视化分析技术实现招聘网站岗位数据抓取与分析推荐系统

    程序主要采用Python 爬虫+flask框架+html+javascript实现岗位推荐分析可视化系统,实现工作岗位的实时发现,推荐检索,快速更新以及工作类型的区域分布效果,关键词占比分析等. 程序 ...

  3. Python爬虫入门教程 21-100 网易云课堂课程数据抓取

    写在前面 今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...

  4. python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例

    转载请注明出处:python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例 我们在前面的文章中已经学习了如果使用python进行数据抓取. 但我们常常会遇到一种场景,就是想要获取的页面内容或者接 ...

  5. python爬虫电影资源_【Python爬虫】第十六次 xpath整站抓取阳光电影网电影资源

    [Python爬虫]第十六次 xpath整站抓取阳光电影网电影资源# 一.解析电影url # 请求15题构造出的每个电影菜单的分页url,解析出每个电影url # 二.xpath解析电影资源 # 对第 ...

  6. Python爬虫系列之多多买菜小程序数据爬取

    Python爬虫系列之多多买菜小程序数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代码仅供学习交流, ...

  7. Python爬虫系列之MeiTuan网页美食版块商家数据爬取

    Python爬虫系列之MeiTuan网页美食版块商家数据爬取 小程序爬虫接单.app爬虫接单.网页爬虫接单.接口定制.网站开发.小程序开发> 点击这里联系我们 < 微信请扫描下方二维码 代 ...

  8. python爬虫实战经典案例,突破反爬!爬取短视频!

    今天在爬取某梨短视频时,发现前端代码跟之前都不一样了.加入了很多的反爬措施.在此特意记录一下! 先来看一下最终执行结果: 爬虫重要的不是写代码,而是分析!分析它的网页请求! 爬虫的基本过程一般如下: ...

  9. Python爬虫小偏方:如何用robots.txt快速抓取网站?

    作者 | 王平,一个IT老码农,写Python十年有余,喜欢分享通过爬虫技术挣钱和Python开发经验. 来源 | 猿人学Python 在我抓取网站遇到瓶颈,想剑走偏锋去解决时,常常会先去看下该网站的 ...

最新文章

  1. C++实现图像的绘制并实现鼠标交互
  2. 案例:用户信息列表展示||1. 需求 2. 设计 3. 开发4. 测试 5. 部署运维
  3. Computer:路由器、交换机、猫Modem的简介、区别之详细攻略
  4. “压扁数组”技巧(flattening the array)
  5. 【⚠️阴沟里翻船,这题都做错了!⚠️】C语言宏定义
  6. Spark不是唯一,三种新兴的开源数据分析工具
  7. Java发送邮件(QQ邮箱)
  8. 关于家庭路由器网络布线
  9. 大数据hadoop组件下载、windows环境搭建、官方文档查看详细步骤
  10. presentation健身主题HTML,如何用英文做presentation
  11. Windows10 开机密码破解
  12. “碰一碰”版本的蓝牙键盘,来啦!
  13. 高稳定性、低延时、支持多路的实时流媒体播放器之EasyPlayer.js在直播时隐藏倍速播放按钮操作方法
  14. Win10右下角小图标怎么叠起来?
  15. 计算机科学与技术万金油专业,盘点工学大类里的“万金油”专业
  16. 【js学习笔记三十九】简单工厂模式
  17. 人体动作捕捉格式BVH及其与三维坐标的转换
  18. PCA9554PW 电子元器件 NXP 封装TSSOP-16 批次22+
  19. 全国青少年软件编程(Scratch)等级考试一级真题——2022.9
  20. 软件设计师备考资料及策略

热门文章

  1. 【项目管理】如何进行项目变更管理?
  2. SQL数据集支持数据参考功能,新增飞书、钉钉、企业微信平台接入支持,DataEase开源数据可视化分析平台v1.15.0发布
  3. js创建数组(元素都是对象)
  4. mysql 查询当前月份 上个月份 上上个月份
  5. 材料力学研究的工程材料的基本假设是什么?均匀性假设与各向同性假设有何区别?...
  6. 深度讲解TS:这样学TS,迟早进大厂【17】:类
  7. 别让民间资本总盯着房地产
  8. 英文名字中的first name与last name
  9. 鼠标滚轮实现图片的缩放-------Day79
  10. 【微信小程序封装底部弹出框二】