问题背景


目的是将该名人名言网站的作者、标签以及文本信息爬取下来。

实现过程

一、调出cmd窗口

cd /d  所要保存的路径
#q2为新建的文件名
scrapy startproject q2
cd q2
scrapy genspider q2q quotes.toscrape.com
#接下来可直接在cmd窗口中进行测试,也可以到Python编辑器里面进行测试
cd q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

二、在PyCharm中打开q2文件
在Pycharm中进行测试

#在Pycharm下方的Terminal框中
cd /d 所要保存的路径\q2\q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")

在q2的spiders文件下打开q2q文件,补充相关代码:

import scrapy
from q2.items import Q2Itemclass Q2qSpider(scrapy.Spider):name = "q2q"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com']def parse(self, response):qs = response.css('.quote')for q in qs:item = Q2Item()text = q.css('.text::text').extract_first()author = q.css('.author::text').extract_first()tags = q.css('.tags .tag::text').extract()item['author'] = authoritem['text'] = textitem['tags'] = tagsyield itemnext = response.css('.pager .next a::attr(href)').extract_first()url = response.urljoin(next)yield scrapy.Request(url=url, callback=self.parse)

打开q2下的items文件,补充相关代码:

# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass Q2Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()text = scrapy.Field()author = scrapy.Field()tags = scrapy.Field()

导出结果

#在Pycharm下方的Terminal框中scrapy crawl quotes -o quotes.json#也可导出为其他格式文件scrapy crawl quotes -o 输出文件名.csvscrapy crawl quotes -o 输出文件名.jlscrapy crawl quotes -o 输出文件名.xmlscrapy crawl quotes -o 输出文件名.marshalscrapy crawl quotes -o 输出文件名.pickle

Scrapy框架爬取名人名言网信息——基于css内置选择器相关推荐

  1. Python中用Requests爬取名人名言网信息——基于BeautifulSoup和CSS选择器

    效果预览 代码实现 也可用Scrapy框架实现,通过此代码可比较BeautifulSoup中CSS选择器和Scrapy中内置CSS选择器和Xpath用法的差别.Scrapy实现代码链接:https:/ ...

  2. python实现爬取名人名言

    python实现爬取名人名言 技术路线:requests-bs4-re 第一步 首先打开名人名言的网站https://mingyan.supfree.net/search.asp 第二步 然后查看源代 ...

  3. 运用Scrapy框架爬取淘车网十七万二手车数据

    本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...

  4. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  5. Scrapy框架爬取中国裁判文书网案件数据

    Scrapy框架爬取中国裁判文书网案件数据 项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...

  6. 利用Scrapy框架爬取前途无忧招聘信息

    利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...

  7. scrapy框架爬取古诗文网的名句

    使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...

  8. python爬取链家网实例——scrapy框架爬取-链家网的租房信息

    说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...

  9. 使用Scrapy框架爬取88读书网小说,并保存本地文件

    Scrapy框架,爬取88读书网小说 链接: 88读书网 源码 工具 python 3.7 pycharm scrapy框架 教程 spider: # -*- coding: utf-8 -*- im ...

最新文章

  1. zTree实现节点修改的实时刷新
  2. 小学五年级计算机进度安排,五年级下册信息技术年度教学计划
  3. docker目录挂载
  4. 浅析SAX,DOM,JAXP,JDOM与DOM4J之间的关系
  5. s5pv210——I2C的代码实践
  6. imgaug批量椒盐噪声 python_python手写给图像加椒盐噪声和高斯噪声
  7. 互联网日报 | 7月19日 星期一 | 美团外卖成立骑手服务部;金山办公发布“文档中台”;一汽-大众奥迪在华销量突破700万辆...
  8. UI设计超干货素材!小图标里的大学问!
  9. 看了500个人的面经:我发现混的好的程序员,都在用这个数据库!
  10. html点击标签c,html - 标签并以html形式输入点击其他提交按钮(所有浏览器) - 堆栈内存溢出...
  11. 【asm基础】使用vs创建asm库
  12. python处理千万级数据_python实现千万级+点云数据三维坐标球面坐标互转
  13. java代码生成密钥库,Java密钥库keystore
  14. LoadRunner 录制IE 8卡死
  15. wordpress 更改excerpt的长度,设置excerpt后面'[...]'的字样和链接
  16. 和LinkedSee灵犀一起备战GITC全球互联网技术大会
  17. K-SVD简述——字典学习,稀疏编码
  18. 【IOS】IOS工程自动打包并发布脚本实现
  19. 设计师眼中的旅游LOGO设计——以小见大,一眼知世界
  20. [项目管理-33]:需求管理与范围管理的异同

热门文章

  1. MFC 华而不实的鼠标响应事件
  2. 如何选择网站更新监控方式
  3. 转码首日遇到问题,我枯了
  4. Jquery UI sortable
  5. 集团注册什么品牌企业邮箱好用?适合集团使用的安全企业邮箱有什么?
  6. GraphPad Prism教程:对数正态分布,几何均值,几何SD因子
  7. w8系统dns服务器,W8系统无法更改DNS提示安装网络适配器的解决方法
  8. Android studio登录界面之记住密码
  9. Android 蓝牙开发(十)A2DP源码分析
  10. DRF自动生成OpenAPI文档