scrapy的简单爬取不用新建项目。安装好scrapy后编写爬虫文件

import scrapyclass ZaobaoScrapy(scrapy.Spider):name = "zaobao"start_urls = ["http://www.zaobao.com/finance/china"]def parse(self, response):for href in response.css(".l_title .title a::attr(href)"):full_url = response.urljoin(href.extract())yield scrapy.Request(full_url,callback=self.parse_news)def parse_news(self, response):yield {'title':response.css('#a_title h1::text').extract()[0],'time':response.css(".time::text").extract(),'content':response.css(".a_body").extract()[0],'link': response.url,}

上面爬虫的深度为1  爬取第一个页面,分析出网址后,爬取第二个页面

执行scrapy runspider zaobao_scrapy.py -o mm.json  就会生成json文件

scrapy一些优点

1,内置的数据抽取器
2,交互式控制台用于调试数据抽取方法
3,内置对结果输出的支持,可以保存为JSON, CSV, XML等
4,自动处理编码
5,支持自定义扩展
6,丰富的内置扩展,可用于处理:
1)cookies and session
2)HTTP features like compression, authentication, caching
3) user-agent spoofing
7,远程调试scrapy
8,更多的支持,比如可爬取xml、csv,可自动下载图片等等。
4)robots.txt
5) crawl depth restriction

scrapy简单爬取内容相关推荐

  1. python+scrapy简单爬取淘宝商品信息

    python结合scrapy爬取淘宝商品信息 一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...

  2. 利用scrapy简单爬取新片场前20页视频数据,并存入mysql数据库

    1.创建Scrapy项目 scrapy startproject XPC 2.进入项目目录,使用命令genspider创建Spider(注意后面允许爬取的域要增加) scrapy genspider ...

  3. 使用scrapy简单爬取网易新闻

    已经安装scrapy的跳过 1.scrapy的安装和项目的创建 安装scrapy pip install scrapy 项目的创建 在Termianl中输入scrapy startproject 项目 ...

  4. Scrapy 简单爬取厨房网站菜谱清单,并将结果保存为csv文件

    链接:http://www.xiachufang.com/explore/ from scrapy import Request from scrapy.spiders import Spidercl ...

  5. Scrapy学习之第一个简单爬取小程序

    1.首先,先安装scrapy模块,使用命令:pip install scrapy,安装如果出现error: Microsoft Visual C++ 14.0 is required错误的话可参考文章 ...

  6. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

  7. scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容

    python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息 点击此处,获取 ...

  8. scrapy汽车之家车型的简单爬取

    汽车之家车型的简单爬取 spider # -*- coding: utf-8 -*- import scrapy from scrapy import Request from mininova.it ...

  9. 百度搜索引擎和必应搜索引擎搜索内容简单爬取Python

    这个博客用于记录我的计算机学习的路途,本文用于记录Python百度搜索爬虫编写过程. 第一步 本程序所用的python库 1,requests 用于GET网页返回的信息,这个库比较重要.可以用来模拟浏 ...

最新文章

  1. SpringMVC源码系列:HandlerMapping
  2. 第十五届全国大学智能汽车提问回答问题 2020-8-9
  3. TensorFlow 损失函数
  4. Python的定义编码以及注释等
  5. unity 背包选中_Unity背包系统实现
  6. 阻止JavaScript事件冒泡到父元素
  7. OutOfMemoryError:Java堆空间–分析和解决方法
  8. 自定义Mac睡眠时间,保持运行状态
  9. Redis分布式锁之:RedLock
  10. 多个panel控件重合使用时,某个panel控件不显示问题?
  11. transductive inference(转导推理,直推式学习)
  12. cpu飙升 死循环_CPU飙升问题的解决实例
  13. 符号常量和常变量的区别
  14. 小小明_小小明手游框架_xxm_小小明手游平台
  15. (转)execute、executeQuery和executeUpdate之间的区别
  16. 单片机编程学习:自己编写的一个很简单的传感器控制电机
  17. margin-top不起作用???
  18. Hillstone 基础上网配置
  19. 基于GEC6818的智能家居系统[完整源码/项目报告/笔记分享]
  20. 有哪些特别的生存法则?

热门文章

  1. [创新工具和方法论]-02- DOE实验设计步骤
  2. C++之std::atmoic、std::pair、enum class
  3. php 两个时间戳相隔小时数,php 计算两个时间戳相隔的时间实例
  4. 我的铁人三项训练计划
  5. 程序员:孤独的人是可耻的!
  6. 再见ip.taobao,全网显示 IP 归属地,用上这个开源库,实现也太简单了!
  7. Python时间差中seconds和total_seconds的区别
  8. 百人计划 图形1.4 PC手机图形API介绍
  9. DeepMind研究团队使用Sawyer进行连续离散混合学习研究和验证
  10. Warning: This Python interpreter is in a conda environment, but the environment has not been activat