scrapy简单爬取内容

scrapy的简单爬取不用新建项目。安装好scrapy后编写爬虫文件

import scrapyclass ZaobaoScrapy(scrapy.Spider):name = "zaobao"start_urls = ["http://www.zaobao.com/finance/china"]def parse(self, response):for href in response.css(".l_title .title a::attr(href)"):full_url = response.urljoin(href.extract())yield scrapy.Request(full_url,callback=self.parse_news)def parse_news(self, response):yield {'title':response.css('#a_title h1::text').extract()[0],'time':response.css(".time::text").extract(),'content':response.css(".a_body").extract()[0],'link': response.url,}

上面爬虫的深度为1 爬取第一个页面，分析出网址后，爬取第二个页面

执行scrapy runspider zaobao_scrapy.py -o mm.json 就会生成json文件

scrapy一些优点

1，内置的数据抽取器
2，交互式控制台用于调试数据抽取方法
3，内置对结果输出的支持，可以保存为JSON, CSV, XML等
4，自动处理编码
5，支持自定义扩展
6，丰富的内置扩展，可用于处理：
1）cookies and session
2）HTTP features like compression, authentication, caching
3） user-agent spoofing
7，远程调试scrapy
8，更多的支持，比如可爬取xml、csv，可自动下载图片等等。
4）robots.txt
5） crawl depth restriction

scrapy简单爬取内容相关推荐

python+scrapy简单爬取淘宝商品信息
python结合scrapy爬取淘宝商品信息一.功能说明: 已实现功能: 通过scrapy接入selenium获取淘宝关键字搜索内容下的商品信息. 待扩展功能: 爬取商品中的全部其他商品信息. 二. ...
利用scrapy简单爬取新片场前20页视频数据，并存入mysql数据库
1.创建Scrapy项目 scrapy startproject XPC 2.进入项目目录,使用命令genspider创建Spider(注意后面允许爬取的域要增加) scrapy genspider ...
使用scrapy简单爬取网易新闻
已经安装scrapy的跳过 1.scrapy的安装和项目的创建安装scrapy pip install scrapy 项目的创建在Termianl中输入scrapy startproject 项目 ...
Scrapy 简单爬取厨房网站菜谱清单，并将结果保存为csv文件
链接:http://www.xiachufang.com/explore/ from scrapy import Request from scrapy.spiders import Spidercl ...
Scrapy学习之第一个简单爬取小程序
1.首先,先安装scrapy模块,使用命令:pip install scrapy,安装如果出现error: Microsoft Visual C++ 14.0 is required错误的话可参考文章 ...
利用python的scrapy框架爬取google搜索结果页面内容
scrapy google search 实验目的爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...
scrapy获取a标签的连接_python爬虫——基于scrapy框架爬取网易新闻内容
python爬虫--基于scrapy框架爬取网易新闻内容 1.需求[前期准备] 2.分析及代码实现(1)获取五大板块详情页url(2)解析每个板块(3)解析每个模块里的标题中详情页信息点击此处,获取 ...
scrapy汽车之家车型的简单爬取
汽车之家车型的简单爬取 spider # -*- coding: utf-8 -*- import scrapy from scrapy import Request from mininova.it ...
百度搜索引擎和必应搜索引擎搜索内容简单爬取Python
这个博客用于记录我的计算机学习的路途,本文用于记录Python百度搜索爬虫编写过程. 第一步本程序所用的python库 1,requests 用于GET网页返回的信息,这个库比较重要.可以用来模拟浏 ...

scrapy简单爬取内容

scrapy简单爬取内容相关推荐

最新文章

热门文章