Scrapy框架爬取名人名言网信息—

问题背景

目的是将该名人名言网站的作者、标签以及文本信息爬取下来。

实现过程

一、调出cmd窗口

cd /d  所要保存的路径
#q2为新建的文件名
scrapy startproject q2
cd q2
scrapy genspider q2q quotes.toscrape.com
#接下来可直接在cmd窗口中进行测试，也可以到Python编辑器里面进行测试
cd q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

二、在PyCharm中打开q2文件
在Pycharm中进行测试

#在Pycharm下方的Terminal框中
cd /d 所要保存的路径\q2\q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

在q2的spiders文件下打开q2q文件，补充相关代码：

import scrapy
from q2.items import Q2Itemclass Q2qSpider(scrapy.Spider):name = "q2q"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com']def parse(self, response):qs = response.css('.quote')for q in qs:item = Q2Item()text = q.css('.text::text').extract_first()author = q.css('.author::text').extract_first()tags = q.css('.tags .tag::text').extract()item['author'] = authoritem['text'] = textitem['tags'] = tagsyield itemnext = response.css('.pager .next a::attr(href)').extract_first()url = response.urljoin(next)yield scrapy.Request(url=url, callback=self.parse)

打开q2下的items文件，补充相关代码：

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass Q2Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()text = scrapy.Field()author = scrapy.Field()tags = scrapy.Field()

导出结果

#在Pycharm下方的Terminal框中scrapy crawl quotes -o quotes.json#也可导出为其他格式文件scrapy crawl quotes -o 输出文件名.csvscrapy crawl quotes -o 输出文件名.jlscrapy crawl quotes -o 输出文件名.xmlscrapy crawl quotes -o 输出文件名.marshalscrapy crawl quotes -o 输出文件名.pickle

Scrapy框架爬取名人名言网信息——基于css内置选择器相关推荐

Python中用Requests爬取名人名言网信息——基于BeautifulSoup和CSS选择器
效果预览代码实现也可用Scrapy框架实现,通过此代码可比较BeautifulSoup中CSS选择器和Scrapy中内置CSS选择器和Xpath用法的差别.Scrapy实现代码链接:https:/ ...
python实现爬取名人名言
python实现爬取名人名言技术路线:requests-bs4-re 第一步首先打开名人名言的网站https://mingyan.supfree.net/search.asp 第二步然后查看源代 ...
运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件分析网站 ...
scrapy框架爬取古诗文网的名句
使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...
python爬取链家网实例——scrapy框架爬取-链家网的租房信息
说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...
使用Scrapy框架爬取88读书网小说，并保存本地文件
Scrapy框架,爬取88读书网小说链接: 88读书网源码工具 python 3.7 pycharm scrapy框架教程 spider: # -*- coding: utf-8 -*- im ...

Scrapy框架爬取名人名言网信息——基于css内置选择器

问题背景

实现过程

导出结果

Scrapy框架爬取名人名言网信息——基于css内置选择器相关推荐

最新文章

热门文章