Scrapy 第一次爬虫

抓取某游戏网站的英雄技能数据

（1）尝试抓取技能名称：

import scrapy
import loggingclass SpellList(scrapy.Spider):name = "SpellList"start_urls = ["https://pvp.qq.com/web201605/summoner.shtml",]def parse(self, response):spellList = response.css("#spellList p::text").extract()logging.info(spellList)for spell in spellList:logging.info("KPL 技能名称 " + spell)

输出结果：2019-06-26 15:49:36 [root] INFO: ['惩击', '终结', '狂暴', '疾跑', '治疗术', '干扰', '晕眩', '净化', '弱化', '闪现']
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 惩击
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 终结
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 狂暴
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 疾跑
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 治疗术
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 干扰
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 晕眩
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 净化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 弱化
2019-06-26 15:49:36 [root] INFO: KPL 技能名称 闪现

（2）抓取技能对应的图标链接及对应ID

    def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:#标签名::attr(属性名) 获取某一标签下的属性id = spell.css("li::attr(id)").extract_first() img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()logging.info("id "+id)logging.info("img "+img)logging.info("name "+name)

输出结果：2019-06-26 16:54:04 [root] INFO: id 80104
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80104.jpg
2019-06-26 16:54:04 [root] INFO: name 惩击
2019-06-26 16:54:04 [root] INFO: id 80108
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80108.jpg
2019-06-26 16:54:04 [root] INFO: name 终结
2019-06-26 16:54:04 [root] INFO: id 80110
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80110.jpg
2019-06-26 16:54:04 [root] INFO: name 狂暴
2019-06-26 16:54:04 [root] INFO: id 80109
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80109.jpg
2019-06-26 16:54:04 [root] INFO: name 疾跑
2019-06-26 16:54:04 [root] INFO: id 80102
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80102.jpg
2019-06-26 16:54:04 [root] INFO: name 治疗术
2019-06-26 16:54:04 [root] INFO: id 80105
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80105.jpg
2019-06-26 16:54:04 [root] INFO: name 干扰
2019-06-26 16:54:04 [root] INFO: id 80103
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80103.jpg
2019-06-26 16:54:04 [root] INFO: name 晕眩
2019-06-26 16:54:04 [root] INFO: id 80107
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80107.jpg
2019-06-26 16:54:04 [root] INFO: name 净化
2019-06-26 16:54:04 [root] INFO: id 80121
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80121.jpg
2019-06-26 16:54:04 [root] INFO: name 弱化
2019-06-26 16:54:04 [root] INFO: id 80115
2019-06-26 16:54:04 [root] INFO: img //game.gtimg.cn/images/yxzj/img201606/summoner/80115.jpg
2019-06-26 16:54:04 [root] INFO: name 闪现

（3）把数据写进个文件里面

 def parse(self, response):spellList = response.css("#spellList li")for spell in spellList:id = spell.css("li::attr(id)").extract_first()img = spell.css("img::attr(src)").extract_first()name = spell.css("p::text").extract_first()fileName = '技能.txt'  # 爬取的内容存入文件，文件名为：作者-语录.txtf = open(fileName, "a+")  # 追加写入文件f.write("id："+id )  # 写入ID内容f.write('\n')  # 换行f.write("name："+name)  # 写入技能名字内容f.write('\n')  # 换行f.write("img：https:"+ img)  # 写入图片链接内容f.write('\n')  # 换行f.close()  # 关闭文件操作

Scrapy 第一次爬虫相关推荐

python scrapy框架爬虫_Python Scrapy爬虫框架
Scrapy爬虫框架结构: 数据流的3个路径: 一: 1.Engine从Spider处获得爬取请求(Request) 2.Engine将爬取请求转发给Scheduler,用于调度二: 3.Engin ...
Scrapy分布式爬虫打造搜索引擎 - （三）知乎网问题和答案爬取
Python分布式爬虫打造搜索引擎基于Scrapy.Redis.elasticsearch和django打造一个完整的搜索引擎网站推荐前往我的个人博客进行阅读:http://blog.mtiany ...
Scrapy框架爬虫小说网工作流程
1.需求工具 pycharm 小说网的域名 (www.qisuu.com) 第一步-–创建文件创建成功后显示如图: 这里写图片描述第二步--将创建在桌面上的scrapy文件用pycharm打开: ...
scrapy 分布式爬虫- RedisSpider
scrapy 分布式爬虫- RedisSpider 爬去当当书籍信息多台机器同时爬取,共用一个redis记录 scrapy_redis 带爬取的request对象储存在redis中,每台机器读取re ...
Crawler之Scrapy：Python实现scrapy框架爬虫两个网址下载网页内容信息
Crawler之Scrapy:Python实现scrapy框架爬虫两个网址下载网页内容信息目录输出结果实现代码输出结果后期更新-- 实现代码 import scrapy class Dmoz ...
快速认识网络爬虫与Scrapy网络爬虫框架
本课程为之后Scrapy课程的预先课程,非常简单,主要是为了完全没有基础的小白准备的,如果你已经有了一定的了解那么请跳过该部分问:什么是网络爬虫答:就是从网上下载数据的一个程序,只不过这个程序下载 ...
Spider Scrapy 框架爬虫
scrapy 是一款常用的爬虫框架,可以实现分布式爬虫和高性能的爬虫 scrapy 框架的创建实在cmd命令行下进行的: 首先要在命令行下转到你要创建的文件夹下: cd 目标文件夹路径创建的是一个工 ...
mysql scrapy 重复数据_大数据python（scrapy）爬虫爬取招聘网站数据并存入mysql后分析...
基于Scrapy的爬虫爬取腾讯招聘网站岗位数据视频(见本头条号视频) 根据TIOBE语言排行榜更新的最新程序语言使用排行榜显示,python位居第三,同比增加2.39%,为什么会越来越火,越来越受欢迎 ...
十 web爬虫讲解2—Scrapy框架爬虫—Scrapy安装—Scrapy指令
Scrapy框架安装 1.首先,终端执行命令升级pip: python -m pip install --upgrade pip 2.安装,wheel(建议网络安装) pip install whee ...

Scrapy 第一次爬虫

（1）尝试抓取技能名称：

（2）抓取技能对应的图标链接及对应ID

Scrapy 第一次爬虫相关推荐

最新文章

热门文章