Python爬虫scrapy

2019独角兽企业重金招聘Python工程师标准>>>

准备工作

Python
scrapy
IDE（我选择使用Pycharm）

虚拟环境

tianshl@T:~/workspace$ mkdir reptile
tianshl@T:~/workspace$ cd reptile/
tianshl@T:~/workspace/reptile$ virtualenv venv
tianshl@T:~/workspace/reptile$ source venv/bin/activate

安装scrapy

(venv) tianshl@T:~/workspace/reptile$ pip install scrapy

创建一个工程，例如：reptile

(venv) tianshl@T:~/workspace/reptile$ scrapy startproject reptile

此条指令会得到scrapy创建的一个目录结构

|__  reptile/|__  reptile/|__  spiders/|__  __init__.py|__  __init__.py|__  items.py|__  middlewares.py|__  pipelines.py|__  settings.py|__ scrapy.cfg

编写爬虫脚本

以锐聘学院首页推荐课程为例
在spiders目录下创建mooc.py
编辑mooc.py

# -*- coding: utf-8 -*-import scrapy
from scrapy import Selectorclass MooCollege(scrapy.Spider):# 爬虫的名称name = 'MooCollege'# 爬取的入口（锐聘学院）start_urls = ['http://www.moocollege.cn/']# 域名host = 'http://www.moocollege.cn'def parse(self, response):ele = Selector(response)# 以推荐课程为例，获取课程名称和课程链接courses = ele.xpath(".//*[@id='recommend_courses_show']/a")for course in courses:print '课程名称: ', course.xpath('div[2]/div/text()').extract_first()print '课程链接', '{}{}'.format(self.host, course.xpath('@href').extract_first())

执行爬虫脚本

(venv) tianshl@T:~/workspace/reptile$ cd reptile/
(venv) tianshl@T:~/workspace/reptile/reptile$ scrapy crawl MooCollege

运行结果如下

课程名称:  Java Web技术及应用
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/S003/Always/about?course_base=56&course_package=-1
课程名称:  Unity3D基础入门
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/G001/Always/about?course_base=46&course_package=-1
课程名称:  UI入门：零基础时尚APP界面设计
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/U001/Always/about?course_base=148&course_package=-1

至此,一个简单的爬虫就写好了

数据永久化

使用Pipeline可以将数据保存在文件或数据库中

转载于:https://my.oschina.net/tianshl/blog/852035

Python爬虫scrapy相关推荐

Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
Python爬虫——Scrapy 的基本使用
文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...
Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下创建项目 sc ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
Python爬虫—Scrapy框架—Win10下载安装
Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...
Python爬虫——Scrapy 简介和安装
文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...
Python爬虫-Scrapy框架（四）- 内置爬虫文件 - 4.2 初探Crawl Spider
Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面初探Crawl Spider 创建Crawl Spider项目对比Basic与Crawl ...
python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了常见爬虫框 ...
安装python爬虫scrapy踩过的那些坑和编程外的思考
'转载地址:http://www.cnblogs.com/rwxwsblog/p/4557123.html' 这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬 ...
python爬虫scrapy步骤mac系统_Mac中Python 3环境下安装scrapy的方法教程
前言最近抽空想学习一下python的爬虫框架scrapy,在mac下安装的时候遇到了问题,逐一解决了问题,分享一下,话不多说了,来一起看看详细的介绍吧. 步骤如下: # 在Mac上Python3环境 ...

Python爬虫scrapy

准备工作

虚拟环境

安装scrapy

创建一个工程，例如：reptile

编写爬虫脚本

执行爬虫脚本

运行结果如下

数据永久化

Python爬虫scrapy相关推荐

最新文章

热门文章