用scrapy+selenium+Firefox爬取腾讯新闻

一。首先配置

1.scrapy
2.selenium
3.webdriver
4.浏览器Firefox
具体的安装可以去这个兄弟的博客看看https://blog.csdn.net/azsx02/article/details/68947429

注意：这是重点
webdriver在github上下载需要翻墙，还有selenium+webdriver+Firefox的版本问题，这么说吧，scrapy通过selenium下的webdriver（很遗憾它需要另行下载）去超控浏览器Firefox，webdriver是要与浏览器连接吧，如果webdriver的版本与Firefox不对应，就相当于你用安卓充电器去冲苹果手机，插都插不进去，还冲个屁。

二。scrapy爬取过程

Scrapy 中的数据流用执行引擎控制，其过程如下：

1，引擎打开一个网站（open a domain ）,找到处理该网站的spider.py并向该spider请求第一个要爬取的URL.
（engine就相当于你的的大脑，你要爬出去寻找猎物了，首先你得确定一个区域（allowed_domains）是安全的，于是你就在这个scrapy文件中的spider.py文件中找到了它，所有你打开了spider.py，并且按顺序执行其中的命令，首先打开可执行的区域网站，紧接着你想打开第一个爬取的目标网址url，于是你就生成了一个请求（request））

2,引擎从spider中获取第一个要爬取的URL并在调度器中schedule调度
（spider.py只是你的身体，你生成请求得由你的大脑engine去发送给调度器schedule（就是一先进先出队列），先存着，等下调用。好比说你要去超市买东西，牙膏，洗发露，卫生纸都是你的请求request，你不得先把它们记住，然后到超市在执行啊，schedule相当于大脑的指令缓存的区域）

3，引擎向调度器返回下一个要爬取的URL
（你到超市了，这个时候你就把你之前存的指令一个一个按顺序调出来执行，所以说为啥要弄一个schedule，就是为了缓存你的指令）

4,调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载器中间件Downloader middleware（请求request的方向）转发给下载器
(下载器中间件就是你的眼睛，你去超市要买东西，你要不要用眼睛去找一下吧，你还得看一下啥牌子，啥价格再买不是。所以说在把整个页面源代码现在下来之前我们得通过整个下载器中间件判断一下，这个页面可不可以下载，符不符合要求，所以说下载器中间键是设定在请求执行前，因此可以设定代理，请求头，cookie等）

5，一旦页面下载完毕，下载器就生成一个该页面的response，并通过下载器中间件（返回response的方向）发送给引擎
（下载器就把整个页面的源代码下载下来，生成一个可以直接获得源代码的响应response，给爬虫，相当于你在超市挑选完你要买的东西后，
付钱（Downloader）阿姨就把你的商品response给你）

6，引擎从下载器接收到response并通过spider中间件（输入方向）发送给spider处理
（Spider中间件处理的是即将发往Spider处理的Response对象，以及从Spider返回的Response对象或Item对象。好比说你买完东西回去了，在路上发现买的东西有点小小的瑕疵，于是你就通过Spider中间件操作一下，弄好了，问题不大）

7，spider处理response并返回爬取到的Item及新的request给引擎
（spider接收到response开始对它有用的部分进行提取也就是你的item，通过yield生成对象，有时候yield生成item，那就直接给itempipline处理了，有时候你要生成request，比如在多级页面的爬取当中，这个时候你要把这个request发给调度器。这就相当于你买完东西回到宿舍开始把牙膏拆开，外壳丢掉，牙膏给pipline存起来，如果发现没买牙杯于是又把这个买牙杯的request发送给调度器，等下次去超市的时候买）
8，引擎将（spider返回的）request给调度器。

9，（从大二步）重复知道调度器没有更多的request，引擎关闭该网站

三。selenium+webdriver+Firefox主要为了解决一个什么样的问题呢？它的执行过程是什么呢？

想要爬取由js生成的页面，就拿腾讯新闻首页来说吧，整个HTML页面的数据基本由js生成，我使用scrapy shell https://news.qq.com/，检查页面的反爬取，通过
view（response）打开网页发现是空白网页，再观察浏览器中它的源代码页面都没有要爬取的内容，可以判定它的页面由js生成。常规的方法根本不能爬取它的页面，所以使用scrapy通过selenium下的webdriver（很遗憾它需要另行下载）去控制浏览器Firefox进入你要爬取的页面，把这个由它js生成页面的HTML给返回来这个HTML和他的源代码可不一样，源代码都是js脚本，而它里面有我们需要爬取的内容。

四。案例

要爬取的网站https://news.qq.com/
内容：几日要闻下面的五个标题+每个标题里面的内容
1。spider.py文件

import scrapy
from selenium import webdriver#用于操作浏览器
from scrapy import signals#用于爬虫运行结束时发信号
from scrapy.xlib.pydispatch import dispatcher#用于把浏览器关闭函数和爬虫结束运行联系在一起
from qqn.items import QqnItemclass QqnSpider(scrapy.Spider):
name = 'qqn'#爬虫的名字
allowed_domains = ['news.qq.com']#可允许被爬取的域名
start_urls = ['http://news.qq.com/']#开始爬取的urldef __init__(self):'''浏览器设置'''self.browser = webdriver.Firefox()#实例化一个浏览器操作对象super(QqnSpider,self).__init__()#然后把类QqnSpider的对象self转换为它父类的对象，然后用这个对象来调用自己的__init__函数.dispatcher.connect(self.spider_closed, signals.spider_closed)#这个函数的功能是在爬虫运行完毕后，自动调用spider_closed函数来关闭浏览器def spider_closed(self,spider):'''整个程序运行结束关闭浏览器:param spider::return:'''print('close spider')self.browser.quit()def parse(self, response):item = QqnItem()lis = response.xpath('//ul[@class="list top-list"]/li')#定位要爬取内容到容器i = 0for li in lis:i = i+1item['title_{}'.format(i)] = li.xpath('div/h3/a/text()').extract()#'title_{}'.format(i)——这个是用i去替换{}的位置item['href_{}'.format(i)] = li.xpath('div/h3/a/@href')[0].extract()yield scrapy.Request(url=item['href_{}'.format(i)], meta={"item": item},callback=self.parse_detail, dont_filter=True)#这里是生成（yield）了一个request请求，请求的内容是url连接和meta数据，meta数据保存着item数据的所有内容，通过callback传给parse_detail进行下一步的解析，并且声明dont_filter=True，使得url不能重复def parse_detail(self, response):item = response.meta['item']#item接收由上面函数返回到这个函数请求数据中的meta['item']，类似于继承，它既可以有上个函数属性（上个函数的item是QqnItem类的实例化），又得到了它的所有数据content = response.xpath('//div[@class="content-article"]/p/text()').extract()#对二级页面的文本进行提取，这里提取的是所有的段落内容，注意提取完后它是一个listitem['article'] = contentyield item

2。item.py

import scrapy
class QqnItem(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()title_1 = scrapy.Field()title_2 = scrapy.Field()title_3 = scrapy.Field()title_4 = scrapy.Field()title_5 = scrapy.Field()href_1 = scrapy.Field()href_2 = scrapy.Field()href_3 = scrapy.Field()href_4 = scrapy.Field()href_5 = scrapy.Field()article = scrapy.Field()

3。middleware.py

from scrapy import signals
import time
from scrapy.http import HtmlResponseclass JSPageMiddleware(object):
def process_request(self, request, spider):'''方法中的参数一定不要改，因为这个方法就是来处理request 请求:param request::param spider::return: 　browser 解析过后的url, 得到的页面给解析函数中的 def parse(self, response) 来处理'''# 　如果是我们需要的项目名称，就会把　spider 里面的　request 带过来if spider.name == 'qqn':print(request.url)# 这里的 spider.browser 会调用我们在解析函数里面写的 webdriverspider.browser.get(request.url)#get函数去控制浏览器进去我们要爬取的页面time.sleep(2)#等待2秒return HtmlResponse(url=spider.browser.current_url, body=spider.browser.page_source, encoding='utf-8',request=request)#把这个页面的HTML页面返回给Downloader下载，注意    body=spider.browser.page_source，#这就是获取到浏览器当前的页面的HTML

4。setting.py

DOWNLOADER_MIDDLEWARES = {
# 'qqn.middlewares.NqDownloaderMiddleware': 543,
'qqn.middlewares.JSPageMiddleware': 4}

5。然后就。。。。。。。。。成功了呗
当然了你要保存的时候注意了，那个item[‘article’]里面的内容是list