python scrapy 基本操作演示代码
# -*- coding: utf-8 -*-
import scrapy
# from quotetutorial.items import QuoteItem
from quotetutorial.items import QuotetutorialItem# 主要编辑项目信息基本上都在在这里完成的class QuotesSpider(scrapy.Spider):name = 'quotes'allowed_domains = ['quotes.toscrape.com']start_urls = ['http://quotes.toscrape.com/']# 爬取信息def parse(self, response):# pass# 打印源代码# print(response.text)quotes = response.css('.col-md-8 .quote')for quote in quotes:item = QuotetutorialItem()text = quote.css('.text::text').extract_first()author = quote.css('.author::text').extract_first() # 只提取一个内容 类似于 findonetags = quote.css('.tags .tag::text').extract() # 提多多个内容 类似于 findallitem['text'] = textitem['author'] = authoritem['tags'] = tagsyield itemnext = response.css('.pager .netxt a::attr(href)').extract_first() # 选择下一页url = response.urljoin(next) # 因为获取的地址不完整,获取完整的网址加内容连接地址yield scrapy.Request(url=url,callback=self.parse()) # 从新调用自己并翻页
# 保存文件
# scrapy crawl quotes -o quotes.json
# scrapy crawl quotes -o quotes.jl
# scrapy crawl quotes -o quotes.csv
# scrapy crawl quotes -o quotes.xml
# scrapy crawl quotes -o ftp://user:pass@ftp.example.com/path/quotes.csv

posted on 2018-10-21 12:57 电子灵魂 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/wordgao/p/9824658.html

python scrapy 基本操作演示代码相关推荐

  1. python 喜马拉雅 音乐下载 演示代码

    python 喜马拉雅 音乐下载 演示代码 1.主程序文件 import os import jsonimport requests from contextlib import closing fr ...

  2. 你见过的最全面的Python重点(附代码演示)

    原文链接: https://segmentfault.com/a/1190000018737045 这是一份来自于 SegmentFault 上的开发者 @二十一 总结的 Python 重点.由于总结 ...

  3. 设计模式之外观模式(C# / JavaScript / PHP / Java / Python / C++ 演示代码)

    GoF定义:为子系统中的一组接口提供一个一致的界面,Facade模式定义了一个高层接口,这个接口使得这一子系统更加容易使用. 这个模式比较简单. 1.C#演示代码: using System; usi ...

  4. 如何用 Python + Scrapy 爬取视频?

    今天将带大家简单了解Scrapy爬虫框架,并用一个真实案例来演示代码的编写和爬取过程. 一.scrapy简介 1. 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框 ...

  5. python scrapy 简单教程_python之scrapy入门教程

    看这篇文章的人,我假设你们都已经学会了python(派森),然后下面的知识都是python的扩展(框架). 在这篇入门教程中,我们假定你已经安装了Scrapy.如果你还没有安装,那么请参考安装指南. ...

  6. Python scrapy 实现网页爬虫

    Python scrapy 安装和网页爬虫功能实现 现在组内有个工作就是维护恶意URL库,然后这个维护工作,主要是通过从几个会发布恶意URL地址的网站获取恶意网址,每次都得花费半天,很乏味的事情.所以 ...

  7. python编程基础与案例集锦,python经典程序实例代码

    你都用Python 来做什么? 当我知道可以做这些之后,我特别想会.因为论文查阅.答案确认查询:想知道豆瓣8分以上电影,或者穿越类的电影.处理工资数据考核表等. 可以干什么1.上学吧答案神器 主要实现 ...

  8. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  9. 搭建python_Crawlab准备之python+scrapy环境搭建

    阅读文本大概需要3分钟. 上篇<分布式爬虫管理平台Crawlab开发搭建>把爬虫的管理后台搭建起来了:捣鼓一番发现要真正爬取数据还有下不少的功夫.这篇看看怎么搭建python+scrapy ...

最新文章

  1. ecshop模板的原理分析
  2. 数据挖掘技术在出行体验上的应用!
  3. SmartDroid论文阅读
  4. PHP对Excel导入导出操作
  5. jsp+tomcat程序helloworld
  6. 二极管为什么单向导电?
  7. oracle10g生成awr报告,awr报告生成位置.docx
  8. logisim优先编码器怎么用_编码器简介、应用的stm32代码及注释
  9. 阻尼衰减曲线用python_高阻尼橡胶支座隔震原理
  10. 杭电1754I Hate It 线段树与非线段树
  11. HCIE-Security Day18:防火墙用户管理(一)上网用户+本地认证(portal认证)
  12. c语言中学生信息管理系统中删除学生信息,学生信息管理系统C语言编程
  13. 黑马程序员---初学java建议(亲身经历)
  14. raw文件格式 Android,手机摄影知识讲堂:关于RAW格式的那些事
  15. 为什么RTC晶振频率是32768Hz
  16. 一步一步安装及配置R及Rstudio(详细图文)
  17. Python-Bunch模式
  18. 《紫川》之远东战火 第八卷
  19. 手机QQ浏览器解析A链接访问过后颜色发生变化的Bug
  20. 计算机硬件工程师需要学哪些,嵌入式硬件工程师要求是什么?需要掌握哪些内容...

热门文章

  1. python信用卡客户_Python开发之基于模板匹配的信用卡数字识别功能
  2. 部署前端项目 Linux系统的nginx配置
  3. 国外经典!架构师必备:《MongoDB实战》第2版
  4. 调用android自带的下载功能,进度在消息通知栏上显示
  5. DHCP+TFTP+PXE自动网络引导安装Linux操作系统
  6. 1088 三人行 (20分)
  7. linux如何查询一个文件夹大小,Linux下如何查看某个文件夹所占空间大小
  8. 相同MAC地址,相同IP的两天电脑为什么可以同时上网互不影响(转自Nothel的blog)
  9. c#异常类的闰年判断
  10. Layui或Layuimini整合Echarts 5