在上一篇文章中讲述了scrapy爬虫的基本步骤,但是只可爬取strat_url的数据,https://blog.csdn.net/reset2021/article/details/124449231?spm=1001.2014.3001.5502

这里继续讲述一下多个url的爬虫流程

这次以同花顺行情数据url为讲解对象,主要爬取最新的行情数据。

1)新建项目

scrapy startproject tonghuashun

2) 新建爬虫

scrapy genspider quote_data q.10jqka.com.cn

此时的start_urls如下所示。

start_urls = ['http://q.10jqka.com.cn/']

首先需要解析该网页的行情数据的总页面。

    def parse(self,response):print(self.pageNum)if self.pageNum == 0:num_info = response.xpath("//*[@id='m-page']/span/text()").extract()self.total_number = int(num_info[0].split('/')[-1])else:items = []

3)增加具体的url

    url = 'http://q.10jqka.com.cn/index/index/board/all/field/zdf/order/desc/page/%d/ajax/1/'pageNum = 0total_number = 0

这些url为本次爬虫的主要目标,是要爬取具体的行情数据。

4)url爬虫的流程实现如下:

        if self.pageNum <= self.total_number: self.pageNum += 1print('爬第:%d 页' % self.pageNum)new_url = self.url % self.pageNum# callback 回调函数,页面进行解析yield scrapy.Request(url=new_url, callback=self.parse)

通过yield来进行循环爬取。

这样的话,整个流程实现了爬取 total_number+1 个页面的数据。

对url的爬取的数据进行解析,获取股票id,股票名称,股票最新价与最新的涨跌幅。

            for each in response.xpath('/html/body/table/tbody/tr'):item = TonghuashunItem()td_info = each.xpath('.//td')[1:]stock_id = td_info[0].xpath('a/text()').extract()[0]stock_name = td_info[1].xpath('a/text()').extract()[0]  price = td_info[2].xpath('text()').extract()[0]range = td_info[3].xpath('text()').extract()[0]print(stock_id,stock_name,price,range)if(stock_id != []):item['stock_id'] = stock_idif(stock_name != []):item['stock_name'] = stock_nameif(price != []):item['price'] = priceif(range != []):item['range'] = rangeitems.append(item)

该blog中内容比较简单明了,就不发布整体源码拉,后续将结合存储以及相关应用实现爬虫的数据分析。

scrapy多个url爬虫相关推荐

  1. Scrapy 豆瓣搜索页爬虫

    Scrapy 豆瓣搜索页爬虫 使用scrapy爬虫框架对豆瓣图书搜索结果进行爬取 Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架 可以应用在包括数据挖掘,信息处理或存 ...

  2. Scrapy中的crawlspider爬虫

    crawlspider 介绍 创建模板 具体参数和解释 重点在rules中: 栗子: 介绍 Scrapy框架中分两类爬虫 Spider类和CrawlSpider类. crawlspider是Spide ...

  3. python scrapy教程实例_爬虫框架Scrapy的第一个爬虫示例入门教程

    原标题:爬虫框架Scrapy的第一个爬虫示例入门教程 我们使用dmoz.org这个网站来作为小抓抓一展身手的对象. 首先先要回答一个问题. 问:把网站装进爬虫里,总共分几步? 答案很简单,四步: 新建 ...

  4. python爬虫框架教程_Python爬虫实战(十二):爬虫框架Scrapy的第一个爬虫示例入门教程...

    本文主要向大家介绍了Python爬虫实战的爬虫框架Scrapy的第一个爬虫示例入门教程,通过具体的内容向大家展现,希望对大家学习Python爬虫实战有所帮助. 我们使用dmoz.org这个网站来作为小 ...

  5. scrapy初步-简单静态爬虫(爬取电影天堂所有电影)

    之前用java写过一个简单的爬取电影天堂信息的爬虫,后来发现用python写这种简单的爬虫程序更简单,异步网络框架在不使用多线程和多进程的情况下也能增加爬取的速度,目前刚开始学scrapy,用这个写了 ...

  6. Python爬虫进阶——Scrapy框架原理及分布式爬虫构建

    1 Scrapy简介 1.1 概念 Scrapy是由Python语言开发的一个快速.高层次的屏幕抓取和web信息抓取框架,用于抓取web站点并从页面中提取结构化的数据. Scrapy用途广泛,可以用于 ...

  7. Scrapy——可配置的爬虫

    转自:  http://bbs.cnpameng.com/bbs/forum.php?mod=viewthread&tid=12&extra=page%3D1 Scrapy--可配 ...

  8. Python爬虫总结——Scrapy+Gerapy部署网络爬虫

    Python爬虫总结--从基础爬虫到Scrapy+Gerapy部署网络爬虫 前言 一.常用pip模块介绍 1.NumPy库 2.Pandas库 3.Requests库 4.BeautifulSoup库 ...

  9. 4.基于scrapy的实时电影爬虫开发

    在前面搭建好了前后台的基本框架之后,就可以使用websocket+scrapy来开发和用户交互的实时爬虫系统了.基本的思路为:当用户在前台发送请求之后,通过websocket的方式来进行前后台交互,并 ...

最新文章

  1. for、for / in循环
  2. php中文截取无乱码,PHP截取中文无乱码_PHP教程
  3. python炫酷特效代码_推荐几个炫酷的 Python 开源项目
  4. java的构造特点_JAVA学习第八课(构造函数及其特点)
  5. CentOS安装运行NodeJS框架Express
  6. H5红包互换源码 免公众号+对接支付完美营运 附视频教程
  7. 探探被安卓市场下架 官方回应:深入开展整改
  8. android 蓝牙与单片机通信原理图,手机蓝牙与HC-06蓝牙模块控制单片机程序加APP...
  9. ceph rbd双挂载导致ext4文件系统inode链接数据污染
  10. python垂直输出_Python实现图像的垂直投影示例
  11. (转)【JSON工具】一个JSON格式化查看工具——HIJSON
  12. pionner软件操作笔记
  13. php程序员工作日记,PHP程序员战地日记
  14. C# 读取写入Json文件
  15. linux中文显示为乱码
  16. 2021年电赛F题智能送药小车(国二)开源分享
  17. 基于OpenCV的图像透视变换详解(从理论到实现再到实践)
  18. Linux系统定时任务crond那些事
  19. 单点登录 ( 踢人模式 )
  20. python做cae库,基于Python的CAE自动后处理开发

热门文章

  1. 黑产工具情报的分析方式浅析
  2. 流浪日记无限金币html,流浪日记无敌版金钱版
  3. BitTorrent应用
  4. MSDC 4.3 接口规范(28)
  5. mybatis/mybatis plus lambda会话缓存失效(1)
  6. leetcode 385. 迷你语法分析器
  7. 【计算机图形学】期末大作业_虚拟场景建模
  8. 面条代码 vs. 馄沌代码
  9. 用计算机算加法与乘法应该怎么算,你知道计算机是怎么计算加减乘除算式的么?...
  10. 在电商平台落地大数据应用的6个场景、2类服务、12个框架