抓取某游戏网站的英雄技能数据

(1)尝试抓取技能名称:

import scrapy
import loggingclass SpellList(scrapy.Spider):name = "SpellList"start_urls = ["https://pvp.qq.com/web201605/summoner.shtml",]def parse(self, response):spellList = response.css("#spellList p::text").extract()logging.info(spellList)for spell in spellList:logging.info("KPL 技能名称 " + spell)
输出结果:2019-06-26 15:49:36 [root] INFO: ['惩击', '终结', '狂暴', '疾跑', '治疗术', '干扰', '晕眩', '净化', '弱化', '闪现']
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 惩击
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 终结
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 狂暴
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 疾跑
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 治疗术
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 干扰
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 晕眩
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 净化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 弱化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 闪现

(2)抓取技能对应的图标链接及对应ID

    def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:#标签名::attr(属性名) 获取某一标签下的属性id = spell.css("li::attr(id)").extract_first() img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()logging.info("id "+id)logging.info("img "+img)logging.info("name "+name)
输出结果:2019-06-26 16:54:04 [root] INFO: id 80104
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80104.jpg
2019-06-26 16:54:04 [root] INFO: name 惩击
2019-06-26 16:54:04 [root] INFO: id 80108
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80108.jpg
2019-06-26 16:54:04 [root] INFO: name 终结
2019-06-26 16:54:04 [root] INFO: id 80110
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80110.jpg
2019-06-26 16:54:04 [root] INFO: name 狂暴
2019-06-26 16:54:04 [root] INFO: id 80109
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80109.jpg
2019-06-26 16:54:04 [root] INFO: name 疾跑
2019-06-26 16:54:04 [root] INFO: id 80102
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80102.jpg
2019-06-26 16:54:04 [root] INFO: name 治疗术
2019-06-26 16:54:04 [root] INFO: id 80105
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80105.jpg
2019-06-26 16:54:04 [root] INFO: name 干扰
2019-06-26 16:54:04 [root] INFO: id 80103
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80103.jpg
2019-06-26 16:54:04 [root] INFO: name 晕眩
2019-06-26 16:54:04 [root] INFO: id 80107
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80107.jpg
2019-06-26 16:54:04 [root] INFO: name 净化
2019-06-26 16:54:04 [root] INFO: id 80121
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80121.jpg
2019-06-26 16:54:04 [root] INFO: name 弱化
2019-06-26 16:54:04 [root] INFO: id 80115
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80115.jpg
2019-06-26 16:54:04 [root] INFO: name 闪现

(3)把数据写进个文件里面

 def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:id = spell.css("li::attr(id)").extract_first()img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()fileName = '技能.txt'  # 爬取的内容存入文件,文件名为:作者-语录.txtf = open(fileName, "a+")  # 追加写入文件f.write("id:"+id )  # 写入ID内容f.write('\n')  # 换行f.write("name:"+name)  # 写入技能名字内容f.write('\n')  # 换行f.write("img:https:"+ img)  # 写入图片链接内容f.write('\n')  # 换行f.close()  # 关闭文件操作

Scrapy 第一次爬虫相关推荐

  1. python scrapy框架爬虫_Python Scrapy爬虫框架

    Scrapy爬虫框架结构: 数据流的3个路径: 一: 1.Engine从Spider处获得爬取请求(Request) 2.Engine将爬取请求转发给Scheduler,用于调度 二: 3.Engin ...

  2. Scrapy分布式爬虫打造搜索引擎 - (三)知乎网问题和答案爬取

    Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 推荐前往我的个人博客进行阅读:http://blog.mtiany ...

  3. Scrapy框架爬虫小说网工作流程

    1.需求工具 pycharm 小说网的域名 (www.qisuu.com) 第一步-–创建文件 创建成功后显示如图: 这里写图片描述 第二步--将创建在桌面上的scrapy文件用pycharm打开: ...

  4. scrapy 分布式爬虫- RedisSpider

    scrapy 分布式爬虫- RedisSpider 爬去当当书籍信息 多台机器同时爬取,共用一个redis记录 scrapy_redis 带爬取的request对象储存在redis中,每台机器读取re ...

  5. Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息

    Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import scrapy class Dmoz ...

  6. 快速认识网络爬虫与Scrapy网络爬虫框架

    本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分 问:什么是网络爬虫 答:就是从网上下载数据的一个程序,只不过这个程序下载 ...

  7. Spider Scrapy 框架爬虫

    scrapy 是一款常用的爬虫框架,可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的: 首先要在命令行下转到你要创建的文件夹下: cd 目标文件夹路径 创建的是一个工 ...

  8. mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...

    基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...

  9. 十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令

    Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip 2.安装,wheel(建议网络安装) pip install whee ...

最新文章

  1. iclr 2020 | Geom-GCN:几何图神经网络
  2. (LeetCode 153)Find Minimum in Rotated Sorted Array
  3. 3.6.1 局域网的基本概念和体系结构
  4. JLINK通过SW模式下载程序的方法
  5. 数据结构 线性存储 -- 栈 讲解
  6. 安装JDK-- Java基础
  7. pageContext对象和config对象
  8. 解决PL/SQL链接ORACLE中文乱码问题
  9. 文本生成解码策略笔记-常见解码策略
  10. Android Studio向项目中导入jar包的方法
  11. C语言实例:斐波那契数列
  12. 应用密码学:协议、算法与C源程序(学习第一章)
  13. python case用法_Python Switch Case三种实现方法代码实例
  14. 电脑连接手机热点频繁掉线问题
  15. 深入理解Android L新特性之 页面内容amp;共享元素过渡动画
  16. 文件夹删除了如何恢复?轻松恢复教学
  17. mysql COMMENT字段注释,表注释使用(转)
  18. 三层神经网络实现分类器
  19. java中单根_通俗易懂的告诉你什么是java的单根继承结构
  20. 【良心】C语言零基础学习,C语言初学者入门基础知识讲解

热门文章

  1. 9月最新版 H5移动棋牌游戏联运推广平台移动游戏系统源代码下载(带安装说明)
  2. 设计模式 _第五招式_建造者模式
  3. Junit测试多线程与Shutting down ExecutorService ‘applicationTaskExecutor‘
  4. 【Python】使用Scikit-Learn进行机器学习步骤介绍
  5. 幻灯片更换模板_如何创建Google幻灯片模板
  6. C++ 入门基础 取余数的应用价值
  7. IP地址绕过 . 拦截
  8. 重磅 | 揭秘IARPA项目:解码大脑算法或将彻底改变机器学习
  9. 固态硬盘对于linux提升,固态硬盘在Linux系统下提升使用率妙方
  10. 百家争鸣的低代码平台