文章目录

  • 基于数据指纹的增量式
  • 概念

基于数据指纹的增量式

概念

  1. 检测网站数据更新的内容
  2. 核心:去重
  3. url
  4. 数据指纹

增量式爬虫 :电影名称与电影类型的爬取
url:https://www.4567tv.co/list/index1.html

新建文件夹:
4567tv
在文本框中改为cmd回车

在cmd中写入命令


定位

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redisclass DySpider(CrawlSpider):conn = Redis('127.0.0.1',6379)name = 'dy'allowed_domains = ['www.baidu.com']start_urls = ['https://www.4567tv.co/list/index1.html']link = LinkExtractor(allow=r'/list/index1-\d+\.html')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):li_list =  response.xpath('//div[contains(@class,"index-area")]/ul/li')for li in li_list:my_link='https://www.4567tv.co' + li.xpath('./a/@href').extract_first()#向redis的集合中添加数据时,如果数据不存在,返回1,如果数据存在,返回0ret = self.conn.sadd('mv_link',my_link)if ret:scrapy.Request(url=my_link)else:    print('没有数据更新,无需爬取')

左边redis运行 右边的 查看

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from zls.items import ZlsItemclass AvSpider(CrawlSpider):conn = Redis('127.0.0.1', 6379)name = 'av'# allowed_domains = ['www.baidu.com']start_urls = ['https://www.4567tv.co/list/index1.html']link = LinkExtractor(allow=r'/list/index1-\d+\.html')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):print(11111111111111111111111111111111)print(response)li_list = response.xpath('//div[contains(@class,"index-area")]/ul/li')for li in li_list:mv_link = 'https://www.4567tv.co' + li.xpath('./a/@href').extract_first()# 向redis的集合中添加数据时, 如果数据不存在, 返回1, 如果数据存在, 返回0ret = self.conn.sadd('mv_link', mv_link)if ret:print('有数据更新......................................')yield scrapy.Request(url=mv_link, callback=self.parse_detail)else:print('没有数据更新, 无需爬取!!!!!!!!!!!!!!!!!!!!!!!!!!!')def parse_detail(self, response):title = response.xpath('//h1[@class="title"]/text()').extract_first()item = ZlsItem()item['title'] = titleprint(item)yield item

基于数据指纹的增量式相关推荐

  1. 基于自适应算法和增量式PID算法的模拟直升飞机控制系统

    基于自适应算法和增量式PID算法的模拟直升飞机控制系统 文章目录 基于自适应算法和增量式PID算法的模拟直升飞机控制系统 控制系统硬件 单片机系统 传感器系统介绍 直升机模拟系统介绍 系统模块介绍 A ...

  2. 基于FPGA和ABZ增量式编码器的转子位置检测

    ​​ 前言 最近在做一个使用FPGA和增量式编码器实时检测转子位置的小课题,第一次完成从硬件到软件的设计以及软硬件的联调,想做一个总结,鼓起勇气开始自己的第一次发帖.并且,在做这个课题的过程中,发现相 ...

  3. 增量式爬虫与分布式爬虫

    文章目录 1.redis的安装 2.基于crawlSpider的全站数据爬取 3.分布式 4.增量式 5.scrapy提高数据爬取效率 6.虚拟环境 1.redis的安装 1.将安装包解压到一个文件夹 ...

  4. dataObject可以去重吗java_python爬虫scrapy框架之增量式爬虫的示例代码

    scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...

  5. python爬虫Scrapy框架之增量式爬虫

    一 增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...

  6. python增量爬虫_python爬虫Scrapy框架之增量式爬虫

    一 增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...

  7. scrapy框架之增量式爬虫

    scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...

  8. python爬虫实时更新数据_爬虫的增量式抓取和数据更新

    一些想法 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题.一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能 ...

  9. 23-爬虫之scrapy框架增量式实时监测数据爬取10

    增量式 概念:监测网站数据更新的情况,以便于爬取到最新更新出来的数据 实现核心:去重 实战中去重的方式:记录表 记录表需要记录的是爬取过的相关数据 爬取过的相关信息:url,标题,等唯一标识(我们使用 ...

最新文章

  1. 哪些深度相机有python接口_python 从深度相机realsense生成pcl点云
  2. 【算法基础】数据结构导论第二章-线性表.pptx
  3. c++: internal compiler error: Killed
  4. jmeter html 乱码,jmeter压测学习14-jmeter返回内容中文乱码问题
  5. BZOJ1906树上的蚂蚁BZOJ3700发展城市——RMQ求LCA+树链的交
  6. jtm 一键安装mysql_通过docker-compose配置快速实现zabbix安装
  7. VMware Cloud Director 10 百度网盘 下载
  8. 分分钟搞定 OpenV2X 开发环境
  9. java语言介绍及特点
  10. 手机如何远程连接服务器
  11. 【程序人生】上海,想说爱你不容易
  12. OSChina 周日乱弹 —— 每天叫醒我的是Bug
  13. 闹钟(Alarm Clock)
  14. 软件漏洞之Zabbix
  15. 什么是AWS Athena
  16. Windows系统DOS命令之多线程技术
  17. 纯css动画-div从左到右出现
  18. arcgis标注有的显示有的不显示
  19. jdk8安装教程及环境变量配置
  20. yarn 错误:There appears to be trouble with your network connection. Retrying…

热门文章

  1. 全球及中国浏览器即服务行业运营模式与前景趋势展望报告2022版
  2. Android常用面试题大全
  3. 我读经典(5):读《大话重构》迷你书有感
  4. 后台管理系统的美化以及模板的编写
  5. echart自定义动画_ECharts使用—折线图动态加载
  6. 魔兽3无法启动此程序因为计算机中丢失,win10运行war3出错无法启动怎么办_win10系统war3不能启动如何解决...
  7. 利用python绘制简易词云图(使用jieba进行中文分词)
  8. 吴恩达老师深度学习视频课笔记:总结
  9. 海量数据处理算法—Bloom Filter
  10. matlab乖离率计算,终于有人把“乖离率”说清楚了,看懂少走十年弯路!