1、scrapy对接selenium

动态数据加载:
1.ajax:
①url接口存在规律, 可以自行构建url, 直接爬取
②selenium自动化测试框架, 抓取动态数据
2.js动态数据加载
①js逆向
②selenium抓取

selenium可以实现抓取动态数据
scrapy不能抓取动态数据, 如果是ajax请求, 可以请求接口, 如果是js动态加载, 需要结合selenium

import scrapy
from selenium import webdriver
from ..items import WynewsItem
from selenium.webdriver import ChromeOptionsclass NewsSpider(scrapy.Spider):name = 'news'# allowed_domains = ['www.baidu.com']start_urls = ['https://news.163.com/domestic/']option.add_experimental_option('excludeSwitches', ['enable-automation'])                                                                          bro=webdriver.Chrome(executable_path=r'C:\Users\Administrator\Desktop\news\wynews\wynews\spiders\chromedriver.exe')def detail_parse(self, response):content_list = response.xpath('//div[@id="endText"]/p//text()').extract()content = ''title = response.meta['title']for s in content_list:content += sitem = WynewsItem()item["title"] = titleitem["content"] = contentyield itemdef parse(self, response):div_list = response.xpath('//div[contains(@class, "data_row")]')for div in div_list:link = div.xpath('./a/@href').extract_first()title = div.xpath('./div/div[1]/h3/a/text()').extract_first()yield scrapy.Request(url=link, callback=self.detail_parse, meta={"title":title})

# 中间件编码:
from scrapy.http import HtmlResponse
class WynewsDownloaderMiddleware(object):def process_response(self, request, response, spider):bro = spider.broif request.url in spider.start_urls:bro.get(request.url)time.sleep(3)js = 'window.scrollTo(0, document.body.scrollHeight)'bro.execute_script(js)time.sleep(3)response_selenium = bro.page_sourcereturn HtmlResponse(url=bro.current_url, body=response_selenium, encoding="utf-8", request=request)return response

# Pipeline编码:
import pymongoclass WynewsPipeline(object):conn = pymongo.MongoClient('localhost', 27017)db = conn.wynewstable = db.newsinfodef process_item(self, item, spider):self.table.insert(dict(item))return item

2、pipeline数据持久化

介绍:
1.pipelines: 用于数据持久化
2.数据持久化的方式有很多种: MongoDB, MySQL, Redis, CSV
3.必须实现的方法: process_item

# 核心方法讲解:
open_spider(self, spider): spider开启是被调用
close_spider(self, spider): spider关闭是被调用
from_crawler(cls, crawler): 类方法, 用@classmethod标识, 可以获取配置信息
Process_item(self, item, spider): 与数据库交互存储数据, 该方法必须实现 *****
# 重点: 所有的方法名都必须一致

# MongoDB交互:
import Pymongo
# 管道类
class MongoPipeline(object):# 初始化方法, __new__: 构造方法, 在内存中开辟一块空间def __init__(self, mongo_uri, mongo_db):self.mongo_uri = mongo_uriself.mongo_db = mongo_db@classmethoddef from_crawler(cls, crawler):return cls(mongo_uri = crawler.settings.get('MONGO_URI'),mongo_db = crawler.settings.get('MONGO_DB'))def open_spider(self, spider):self.client = pymongo.MongoClient(self.mongo_uri)self.db = self.client[self.mongo_db]def process_item(self, item, spider):self.db['news'].insert(dict(item))# 在一个项目中可能存在多个管道类, 如果该管道类后面还有管道类需要存储数据, 必须return itemreturn itemdef close_spider(self, spider):self.client.close()

# MySQL交互:
import pymysqlclass MysqlPipeline(object):def __init__(self, host, database, user, password, port):self.host = hostself.database = databaseself.user = userself.password = passwordself.port = port@classmethod  def from_crawler(cls, crawler):return cls(host = crawler.settings.get('MYSQL_HOST')database = crawler.settings.get('MYSQL_DATABASE')user = crawler.settings.get('MYSQL_USER')password= crawler.settings.get('MYSQL_PASSWORD')port = crawler.settings.get('MYSQL_PORT'))def open_spider(self, spider):self.db = pymysql.connect(self.host, self.user, self.password, self.database, charset='utf-8', port=self.port)self.cursor = self.db.cursor()def process_item(self, item, spider):data = dict(item)keys = ','.join(data.keys())values = ','.join(['%s']*len(data))sql = 'insert into %s (%s) values (%s)' % (tablename, keys, values)self.cursor.execute(sql, tuple(data.values()))self.db.commit()return item

用于文件下载的管道类

# spider编码:
import scrapy
from ..items import XhxhItem
class XhSpider(scrapy.Spider):name = 'xh'# allowed_domains = ['www.baidu.com']start_urls = ['http://www.521609.com/qingchunmeinv/']def parse(self, response):li_list = response.xpath('//div[@class="index_img list_center"]/ul/li')for li in li_list:item = XhxhItem()link = li.xpath('./a[1]/img/@src').extract_first()item['img_link'] = 'http://www.521609.com' + linkprint(item)yield item

# items编码:
import scrapy
class XhxhItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()img_link = scrapy.Field()

# 管道编码:
import scrapy
from scrapy.pipelines.images import ImagesPipelineclass XhxhPipeline(object):def process_item(self, item, spider):return itemclass ImgPipeLine(ImagesPipeline):def get_media_requests(self, item, info):yield scrapy.Request(url=item['img_link'])def file_path(self, request, response=None, info=None):url = request.urlfile_name = url.split('/')[-1]return file_namedef item_completed(self, results, item, info):return item

# settings编码:
ITEM_PIPELINES = {'xhxh.pipelines.XhxhPipeline': 300,'xhxh.pipelines.ImgPipeLine': 301,
}
IMAGES_STORE = './mvs'

scrapy框架对接seleniumpipeline数据持久化相关推荐

Scrapy框架爬取数据
因为对爬虫有着很大的好奇心,所以又找了一些资料继续开始了学习之旅. 文章目录一.Scrapy框架简介二.爬取网络数据 2.1爬取单个网页数据 2.2爬取多个网页数据三.一些小方法四.小结一. ...
Python3网络爬虫之Scrapy框架实现招聘数据抓取
项目需求: 某招聘网上面有公司发布的的各种工作岗位,进入首页 https://careers.tencent.com/ 后可见到一个搜索框,如下图所示: 在搜索框输入岗位名称,跳转到如下图所示页面, ...
android数据持久化框架,Android：数据持久化、Environment、SharedPreferences、内部存储internalStorage...
1.数据持久化-SDCard//数据持久化-SDCard findViewById(R.id.button1).setOnClickListener(new OnClickListener() { @ ...
Scrapy爬虫框架（实战篇）【Scrapy框架对接Splash抓取javaScript动态渲染页面】
(1).前言动态页面:HTML文档中的部分是由客户端运行JS脚本生成的,即服务器生成部分HTML文档内容,其余的再由客户端生成静态页面:整个HTML文档是在服务器端生成的,即服务器生成好了,再发送 ...
python爬虫十二：初步使用Scrapy框架爬取数据
1.通过pipelines操作拿到的数据要点一:爬虫文件必须通过关键字yield生成器才能与pipelines建立链接才可以操作,当运行爬虫文件之后执行的顺序如下图简介,如果重写模块或者内部方法可能 ...
scrapy框架之全站数据的爬取
全站数据的爬取有俩种方式: 1.基于spider的全站数据爬取:需要自己进行分页操作,并进行手动发送请求 2.基于CrawlSpider ,今天主要讲解基于CrawlSpider 的爬取方式 Craw ...
python爬虫库scrapy_使用Python爬虫Scrapy框架爬取数据
时隔数月,国庆期间想做个假期旅游的分析展示. 1.通过Python爬取旅游网站上数据,并存储到数据库 2.通过Echart/FineReport/Superset等数据分析工具对数据展示环境: Wi ...
【python爬虫】scrapy框架案例实现数据保存入MySQL
文章目录
Python Scrapy 爬虫框架爬取推特信息及数据持久化！整理了我三天！
最近要做一个国内外新冠疫情的热点信息的收集系统,所以,需要爬取推特上的一些数据,然后做数据分类及情绪分析.作为一名合格的程序员,我们要有「拿来主义精神」,借助别人的轮子来实现自己的项目,而不是从头搭建 ...

scrapy框架对接seleniumpipeline数据持久化

文章目录

1、scrapy对接selenium

2、pipeline数据持久化

scrapy框架对接seleniumpipeline数据持久化相关推荐

最新文章

热门文章