Scrapy 第一次爬虫
抓取某游戏网站的英雄技能数据
(1)尝试抓取技能名称:
import scrapy
import loggingclass SpellList(scrapy.Spider):name = "SpellList"start_urls = ["https://pvp.qq.com/web201605/summoner.shtml",]def parse(self, response):spellList = response.css("#spellList p::text").extract()logging.info(spellList)for spell in spellList:logging.info("KPL 技能名称 " + spell)
输出结果:2019-06-26 15:49:36 [root] INFO: ['惩击', '终结', '狂暴', '疾跑', '治疗术', '干扰', '晕眩', '净化', '弱化', '闪现']
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 惩击
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 终结
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 狂暴
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 疾跑
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 治疗术
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 干扰
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 晕眩
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 净化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 弱化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 闪现
(2)抓取技能对应的图标链接及对应ID
def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:#标签名::attr(属性名) 获取某一标签下的属性id = spell.css("li::attr(id)").extract_first() img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()logging.info("id "+id)logging.info("img "+img)logging.info("name "+name)
输出结果:2019-06-26 16:54:04 [root] INFO: id 80104
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80104.jpg
2019-06-26 16:54:04 [root] INFO: name 惩击
2019-06-26 16:54:04 [root] INFO: id 80108
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80108.jpg
2019-06-26 16:54:04 [root] INFO: name 终结
2019-06-26 16:54:04 [root] INFO: id 80110
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80110.jpg
2019-06-26 16:54:04 [root] INFO: name 狂暴
2019-06-26 16:54:04 [root] INFO: id 80109
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80109.jpg
2019-06-26 16:54:04 [root] INFO: name 疾跑
2019-06-26 16:54:04 [root] INFO: id 80102
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80102.jpg
2019-06-26 16:54:04 [root] INFO: name 治疗术
2019-06-26 16:54:04 [root] INFO: id 80105
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80105.jpg
2019-06-26 16:54:04 [root] INFO: name 干扰
2019-06-26 16:54:04 [root] INFO: id 80103
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80103.jpg
2019-06-26 16:54:04 [root] INFO: name 晕眩
2019-06-26 16:54:04 [root] INFO: id 80107
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80107.jpg
2019-06-26 16:54:04 [root] INFO: name 净化
2019-06-26 16:54:04 [root] INFO: id 80121
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80121.jpg
2019-06-26 16:54:04 [root] INFO: name 弱化
2019-06-26 16:54:04 [root] INFO: id 80115
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80115.jpg
2019-06-26 16:54:04 [root] INFO: name 闪现
(3)把数据写进个文件里面
def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:id = spell.css("li::attr(id)").extract_first()img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()fileName = '技能.txt' # 爬取的内容存入文件,文件名为:作者-语录.txtf = open(fileName, "a+") # 追加写入文件f.write("id:"+id ) # 写入ID内容f.write('\n') # 换行f.write("name:"+name) # 写入技能名字内容f.write('\n') # 换行f.write("img:https:"+ img) # 写入图片链接内容f.write('\n') # 换行f.close() # 关闭文件操作
Scrapy 第一次爬虫相关推荐
- python scrapy框架爬虫_Python Scrapy爬虫框架
Scrapy爬虫框架结构: 数据流的3个路径: 一: 1.Engine从Spider处获得爬取请求(Request) 2.Engine将爬取请求转发给Scheduler,用于调度 二: 3.Engin ...
- Scrapy分布式爬虫打造搜索引擎 - (三)知乎网问题和答案爬取
Python分布式爬虫打造搜索引擎 基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站 推荐前往我的个人博客进行阅读:http://blog.mtiany ...
- Scrapy框架爬虫小说网工作流程
1.需求工具 pycharm 小说网的域名 (www.qisuu.com) 第一步-–创建文件 创建成功后显示如图: 这里写图片描述 第二步--将创建在桌面上的scrapy文件用pycharm打开: ...
- scrapy 分布式爬虫- RedisSpider
scrapy 分布式爬虫- RedisSpider 爬去当当书籍信息 多台机器同时爬取,共用一个redis记录 scrapy_redis 带爬取的request对象储存在redis中,每台机器读取re ...
- Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息 目录 输出结果 实现代码 输出结果 后期更新-- 实现代码 import scrapy class Dmoz ...
- 快速认识网络爬虫与Scrapy网络爬虫框架
本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分 问:什么是网络爬虫 答:就是从网上下载数据的一个程序,只不过这个程序下载 ...
- Spider Scrapy 框架爬虫
scrapy 是一款常用的爬虫框架,可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的: 首先要在命令行下转到你要创建的文件夹下: cd 目标文件夹路径 创建的是一个工 ...
- mysql scrapy 重复数据_大数据python(scrapy)爬虫爬取招聘网站数据并存入mysql后分析...
基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...
- 十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip 2.安装,wheel(建议网络安装) pip install whee ...
最新文章
- iclr 2020 | Geom-GCN:几何图神经网络
- (LeetCode 153)Find Minimum in Rotated Sorted Array
- 3.6.1 局域网的基本概念和体系结构
- JLINK通过SW模式下载程序的方法
- 数据结构 线性存储 -- 栈 讲解
- 安装JDK-- Java基础
- pageContext对象和config对象
- 解决PL/SQL链接ORACLE中文乱码问题
- 文本生成解码策略笔记-常见解码策略
- Android Studio向项目中导入jar包的方法
- C语言实例:斐波那契数列
- 应用密码学:协议、算法与C源程序(学习第一章)
- python case用法_Python Switch Case三种实现方法代码实例
- 电脑连接手机热点频繁掉线问题
- 深入理解Android L新特性之 页面内容amp;共享元素过渡动画
- 文件夹删除了如何恢复?轻松恢复教学
- mysql COMMENT字段注释,表注释使用(转)
- 三层神经网络实现分类器
- java中单根_通俗易懂的告诉你什么是java的单根继承结构
- 【良心】C语言零基础学习,C语言初学者入门基础知识讲解
热门文章
- 9月最新版 H5移动棋牌游戏联运推广平台移动游戏系统源代码下载(带安装说明)
- 设计模式 _第五招式_建造者模式
- Junit测试多线程与Shutting down ExecutorService ‘applicationTaskExecutor‘
- 【Python】使用Scikit-Learn进行机器学习步骤介绍
- 幻灯片更换模板_如何创建Google幻灯片模板
- C++ 入门基础 取余数的应用价值
- IP地址绕过 . 拦截
- 重磅 | 揭秘IARPA项目:解码大脑算法或将彻底改变机器学习
- 固态硬盘对于linux提升,固态硬盘在Linux系统下提升使用率妙方
- 百家争鸣的低代码平台