基于数据指纹的增量式
文章目录
- 基于数据指纹的增量式
- 概念
基于数据指纹的增量式
概念
- 检测网站数据更新的内容
- 核心:去重
- url
- 数据指纹
增量式爬虫 :电影名称与电影类型的爬取
url:https://www.4567tv.co/list/index1.html
新建文件夹:
4567tv
在文本框中改为cmd回车
在cmd中写入命令
定位
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redisclass DySpider(CrawlSpider):conn = Redis('127.0.0.1',6379)name = 'dy'allowed_domains = ['www.baidu.com']start_urls = ['https://www.4567tv.co/list/index1.html']link = LinkExtractor(allow=r'/list/index1-\d+\.html')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):li_list = response.xpath('//div[contains(@class,"index-area")]/ul/li')for li in li_list:my_link='https://www.4567tv.co' + li.xpath('./a/@href').extract_first()#向redis的集合中添加数据时,如果数据不存在,返回1,如果数据存在,返回0ret = self.conn.sadd('mv_link',my_link)if ret:scrapy.Request(url=my_link)else: print('没有数据更新,无需爬取')
左边redis运行 右边的 查看
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from redis import Redis
from zls.items import ZlsItemclass AvSpider(CrawlSpider):conn = Redis('127.0.0.1', 6379)name = 'av'# allowed_domains = ['www.baidu.com']start_urls = ['https://www.4567tv.co/list/index1.html']link = LinkExtractor(allow=r'/list/index1-\d+\.html')rules = (Rule(link, callback='parse_item', follow=True),)def parse_item(self, response):print(11111111111111111111111111111111)print(response)li_list = response.xpath('//div[contains(@class,"index-area")]/ul/li')for li in li_list:mv_link = 'https://www.4567tv.co' + li.xpath('./a/@href').extract_first()# 向redis的集合中添加数据时, 如果数据不存在, 返回1, 如果数据存在, 返回0ret = self.conn.sadd('mv_link', mv_link)if ret:print('有数据更新......................................')yield scrapy.Request(url=mv_link, callback=self.parse_detail)else:print('没有数据更新, 无需爬取!!!!!!!!!!!!!!!!!!!!!!!!!!!')def parse_detail(self, response):title = response.xpath('//h1[@class="title"]/text()').extract_first()item = ZlsItem()item['title'] = titleprint(item)yield item
基于数据指纹的增量式相关推荐
- 基于自适应算法和增量式PID算法的模拟直升飞机控制系统
基于自适应算法和增量式PID算法的模拟直升飞机控制系统 文章目录 基于自适应算法和增量式PID算法的模拟直升飞机控制系统 控制系统硬件 单片机系统 传感器系统介绍 直升机模拟系统介绍 系统模块介绍 A ...
- 基于FPGA和ABZ增量式编码器的转子位置检测
前言 最近在做一个使用FPGA和增量式编码器实时检测转子位置的小课题,第一次完成从硬件到软件的设计以及软硬件的联调,想做一个总结,鼓起勇气开始自己的第一次发帖.并且,在做这个课题的过程中,发现相 ...
- 增量式爬虫与分布式爬虫
文章目录 1.redis的安装 2.基于crawlSpider的全站数据爬取 3.分布式 4.增量式 5.scrapy提高数据爬取效率 6.虚拟环境 1.redis的安装 1.将安装包解压到一个文件夹 ...
- dataObject可以去重吗java_python爬虫scrapy框架之增量式爬虫的示例代码
scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...
- python爬虫Scrapy框架之增量式爬虫
一 增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...
- python增量爬虫_python爬虫Scrapy框架之增量式爬虫
一 增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的电影.那么,当我们在爬虫的过程中 ...
- scrapy框架之增量式爬虫
scrapy框架之增量式爬虫 一 .增量式爬虫 什么时候使用增量式爬虫: 增量式爬虫:需求 当我们浏览一些网站会发现,某些网站定时的会在原有的基础上更新一些新的数据.如一些电影网站会实时更新最近热门的 ...
- python爬虫实时更新数据_爬虫的增量式抓取和数据更新
一些想法 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题.一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能 ...
- 23-爬虫之scrapy框架增量式实时监测数据爬取10
增量式 概念:监测网站数据更新的情况,以便于爬取到最新更新出来的数据 实现核心:去重 实战中去重的方式:记录表 记录表需要记录的是爬取过的相关数据 爬取过的相关信息:url,标题,等唯一标识(我们使用 ...
最新文章
- 哪些深度相机有python接口_python 从深度相机realsense生成pcl点云
- 【算法基础】数据结构导论第二章-线性表.pptx
- c++: internal compiler error: Killed
- jmeter html 乱码,jmeter压测学习14-jmeter返回内容中文乱码问题
- BZOJ1906树上的蚂蚁BZOJ3700发展城市——RMQ求LCA+树链的交
- jtm 一键安装mysql_通过docker-compose配置快速实现zabbix安装
- VMware Cloud Director 10 百度网盘 下载
- 分分钟搞定 OpenV2X 开发环境
- java语言介绍及特点
- 手机如何远程连接服务器
- 【程序人生】上海,想说爱你不容易
- OSChina 周日乱弹 —— 每天叫醒我的是Bug
- 闹钟(Alarm Clock)
- 软件漏洞之Zabbix
- 什么是AWS Athena
- Windows系统DOS命令之多线程技术
- 纯css动画-div从左到右出现
- arcgis标注有的显示有的不显示
- jdk8安装教程及环境变量配置
- yarn 错误:There appears to be trouble with your network connection. Retrying…
热门文章
- 全球及中国浏览器即服务行业运营模式与前景趋势展望报告2022版
- Android常用面试题大全
- 我读经典(5):读《大话重构》迷你书有感
- 后台管理系统的美化以及模板的编写
- echart自定义动画_ECharts使用—折线图动态加载
- 魔兽3无法启动此程序因为计算机中丢失,win10运行war3出错无法启动怎么办_win10系统war3不能启动如何解决...
- 利用python绘制简易词云图(使用jieba进行中文分词)
- 吴恩达老师深度学习视频课笔记:总结
- 海量数据处理算法—Bloom Filter
- matlab乖离率计算,终于有人把“乖离率”说清楚了,看懂少走十年弯路!