python scrapy 基本操作演示代码
# -*- coding: utf-8 -*-
import scrapy
# from quotetutorial.items import QuoteItem
from quotetutorial.items import QuotetutorialItem# 主要编辑项目信息基本上都在在这里完成的class QuotesSpider(scrapy.Spider):name = 'quotes'allowed_domains = ['quotes.toscrape.com']start_urls = ['http://quotes.toscrape.com/']# 爬取信息def parse(self, response):# pass# 打印源代码# print(response.text)quotes = response.css('.col-md-8 .quote')for quote in quotes:item = QuotetutorialItem()text = quote.css('.text::text').extract_first()author = quote.css('.author::text').extract_first() # 只提取一个内容 类似于 findonetags = quote.css('.tags .tag::text').extract() # 提多多个内容 类似于 findallitem['text'] = textitem['author'] = authoritem['tags'] = tagsyield itemnext = response.css('.pager .netxt a::attr(href)').extract_first() # 选择下一页url = response.urljoin(next) # 因为获取的地址不完整,获取完整的网址加内容连接地址yield scrapy.Request(url=url,callback=self.parse()) # 从新调用自己并翻页
# 保存文件
# scrapy crawl quotes -o quotes.json
# scrapy crawl quotes -o quotes.jl
# scrapy crawl quotes -o quotes.csv
# scrapy crawl quotes -o quotes.xml
# scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/quotes.csv
转载于:https://www.cnblogs.com/wordgao/p/9824658.html
python scrapy 基本操作演示代码相关推荐
- python 喜马拉雅 音乐下载 演示代码
python 喜马拉雅 音乐下载 演示代码 1.主程序文件 import os import jsonimport requests from contextlib import closing fr ...
- 你见过的最全面的Python重点(附代码演示)
原文链接: https://segmentfault.com/a/1190000018737045 这是一份来自于 SegmentFault 上的开发者 @二十一 总结的 Python 重点.由于总结 ...
- 设计模式之外观模式(C# / JavaScript / PHP / Java / Python / C++ 演示代码)
GoF定义:为子系统中的一组接口提供一个一致的界面,Facade模式定义了一个高层接口,这个接口使得这一子系统更加容易使用. 这个模式比较简单. 1.C#演示代码: using System; usi ...
- 如何用 Python + Scrapy 爬取视频?
今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...
- python scrapy 简单教程_python之scrapy入门教程
看这篇文章的人,我假设你们都已经学会了python(派森),然后下面的知识都是python的扩展(框架). 在这篇入门教程中,我们假定你已经安装了Scrapy.如果你还没有安装,那么请参考安装指南. ...
- Python scrapy 实现网页爬虫
Python scrapy 安装和网页爬虫功能实现 现在组内有个工作就是维护恶意URL库,然后这个维护工作,主要是通过从几个会发布恶意URL地址的网站获取恶意网址,每次都得花费半天,很乏味的事情.所以 ...
- python编程基础与案例集锦,python经典程序实例代码
你都用Python 来做什么? 当我知道可以做这些之后,我特别想会.因为论文查阅.答案确认查询:想知道豆瓣8分以上电影,或者穿越类的电影.处理工资数据考核表等. 可以干什么1.上学吧答案神器 主要实现 ...
- Python Scrapy爬虫框架实战应用
通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...
- 搭建python_Crawlab准备之python+scrapy环境搭建
阅读文本大概需要3分钟. 上篇<分布式爬虫管理平台Crawlab开发搭建>把爬虫的管理后台搭建起来了:捣鼓一番发现要真正爬取数据还有下不少的功夫.这篇看看怎么搭建python+scrapy ...
最新文章
- ecshop模板的原理分析
- 数据挖掘技术在出行体验上的应用!
- SmartDroid论文阅读
- PHP对Excel导入导出操作
- jsp+tomcat程序helloworld
- 二极管为什么单向导电?
- oracle10g生成awr报告,awr报告生成位置.docx
- logisim优先编码器怎么用_编码器简介、应用的stm32代码及注释
- 阻尼衰减曲线用python_高阻尼橡胶支座隔震原理
- 杭电1754I Hate It 线段树与非线段树
- HCIE-Security Day18:防火墙用户管理(一)上网用户+本地认证(portal认证)
- c语言中学生信息管理系统中删除学生信息,学生信息管理系统C语言编程
- 黑马程序员---初学java建议(亲身经历)
- raw文件格式 Android,手机摄影知识讲堂:关于RAW格式的那些事
- 为什么RTC晶振频率是32768Hz
- 一步一步安装及配置R及Rstudio(详细图文)
- Python-Bunch模式
- 《紫川》之远东战火 第八卷
- 手机QQ浏览器解析A链接访问过后颜色发生变化的Bug
- 计算机硬件工程师需要学哪些,嵌入式硬件工程师要求是什么?需要掌握哪些内容...
热门文章
- python信用卡客户_Python开发之基于模板匹配的信用卡数字识别功能
- 部署前端项目 Linux系统的nginx配置
- 国外经典!架构师必备:《MongoDB实战》第2版
- 调用android自带的下载功能,进度在消息通知栏上显示
- DHCP+TFTP+PXE自动网络引导安装Linux操作系统
- 1088 三人行 (20分)
- linux如何查询一个文件夹大小,Linux下如何查看某个文件夹所占空间大小
- 相同MAC地址,相同IP的两天电脑为什么可以同时上网互不影响(转自Nothel的blog)
- c#异常类的闰年判断
- Layui或Layuimini整合Echarts 5