Scrapy框架爬取名人名言网信息——基于css内置选择器
问题背景
目的是将该名人名言网站的作者、标签以及文本信息爬取下来。
实现过程
一、调出cmd窗口
cd /d 所要保存的路径
#q2为新建的文件名
scrapy startproject q2
cd q2
scrapy genspider q2q quotes.toscrape.com
#接下来可直接在cmd窗口中进行测试,也可以到Python编辑器里面进行测试
cd q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")
二、在PyCharm中打开q2文件
在Pycharm中进行测试
#在Pycharm下方的Terminal框中
cd /d 所要保存的路径\q2\q2
scrapy shell http://quotes.toscrape.com
response.body
sel.xpath("/html/body/div/div[2]/div[1]/div[1]/span[1]/text()")
在q2的spiders文件下打开q2q文件,补充相关代码:
import scrapy
from q2.items import Q2Itemclass Q2qSpider(scrapy.Spider):name = "q2q"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com']def parse(self, response):qs = response.css('.quote')for q in qs:item = Q2Item()text = q.css('.text::text').extract_first()author = q.css('.author::text').extract_first()tags = q.css('.tags .tag::text').extract()item['author'] = authoritem['text'] = textitem['tags'] = tagsyield itemnext = response.css('.pager .next a::attr(href)').extract_first()url = response.urljoin(next)yield scrapy.Request(url=url, callback=self.parse)
打开q2下的items文件,补充相关代码:
# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass Q2Item(scrapy.Item):# define the fields for your item here like:# name = scrapy.Field()text = scrapy.Field()author = scrapy.Field()tags = scrapy.Field()
导出结果
#在Pycharm下方的Terminal框中scrapy crawl quotes -o quotes.json#也可导出为其他格式文件scrapy crawl quotes -o 输出文件名.csvscrapy crawl quotes -o 输出文件名.jlscrapy crawl quotes -o 输出文件名.xmlscrapy crawl quotes -o 输出文件名.marshalscrapy crawl quotes -o 输出文件名.pickle
Scrapy框架爬取名人名言网信息——基于css内置选择器相关推荐
- Python中用Requests爬取名人名言网信息——基于BeautifulSoup和CSS选择器
效果预览 代码实现 也可用Scrapy框架实现,通过此代码可比较BeautifulSoup中CSS选择器和Scrapy中内置CSS选择器和Xpath用法的差别.Scrapy实现代码链接:https:/ ...
- python实现爬取名人名言
python实现爬取名人名言 技术路线:requests-bs4-re 第一步 首先打开名人名言的网站https://mingyan.supfree.net/search.asp 第二步 然后查看源代 ...
- 运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- Scrapy框架爬取中国裁判文书网案件数据
Scrapy框架爬取中国裁判文书网案件数据 项目Github地址: https://github.com/Henryhaohao/Wenshu_Spider 中国裁判文书网 - http://wens ...
- 利用Scrapy框架爬取前途无忧招聘信息
利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...
- scrapy框架爬取古诗文网的名句
使用scrapy框架爬取名句,在这里只爬取的了名句和出处两个字段.具体解析如下: items.py 用来存放爬虫爬取下来的数据模型,代码如下: import scrapyclass QsbkItem( ...
- python爬取链家网实例——scrapy框架爬取-链家网的租房信息
说明: 本文适合scrapy框架的入门学习. 一.认识scrapy框架 开发python爬虫有很多种方式,从程序的复杂程度的角度来说,可以分为:爬虫项目和爬虫文件. scrapy更适合做爬虫项目,ur ...
- 使用Scrapy框架爬取88读书网小说,并保存本地文件
Scrapy框架,爬取88读书网小说 链接: 88读书网 源码 工具 python 3.7 pycharm scrapy框架 教程 spider: # -*- coding: utf-8 -*- im ...
最新文章
- zTree实现节点修改的实时刷新
- 小学五年级计算机进度安排,五年级下册信息技术年度教学计划
- docker目录挂载
- 浅析SAX,DOM,JAXP,JDOM与DOM4J之间的关系
- s5pv210——I2C的代码实践
- imgaug批量椒盐噪声 python_python手写给图像加椒盐噪声和高斯噪声
- 互联网日报 | 7月19日 星期一 | 美团外卖成立骑手服务部;金山办公发布“文档中台”;一汽-大众奥迪在华销量突破700万辆...
- UI设计超干货素材!小图标里的大学问!
- 看了500个人的面经:我发现混的好的程序员,都在用这个数据库!
- html点击标签c,html - 标签并以html形式输入点击其他提交按钮(所有浏览器) - 堆栈内存溢出...
- 【asm基础】使用vs创建asm库
- python处理千万级数据_python实现千万级+点云数据三维坐标球面坐标互转
- java代码生成密钥库,Java密钥库keystore
- LoadRunner 录制IE 8卡死
- wordpress 更改excerpt的长度,设置excerpt后面'[...]'的字样和链接
- 和LinkedSee灵犀一起备战GITC全球互联网技术大会
- K-SVD简述——字典学习,稀疏编码
- 【IOS】IOS工程自动打包并发布脚本实现
- 设计师眼中的旅游LOGO设计——以小见大,一眼知世界
- [项目管理-33]:需求管理与范围管理的异同