2019独角兽企业重金招聘Python工程师标准>>>

准备工作

  • Python
  • scrapy
  • IDE(我选择使用Pycharm)

虚拟环境

  • tianshl@T:~/workspace$ mkdir reptile
  • tianshl@T:~/workspace$ cd reptile/
  • tianshl@T:~/workspace/reptile$ virtualenv venv
  • tianshl@T:~/workspace/reptile$ source venv/bin/activate

安装scrapy

  • (venv) tianshl@T:~/workspace/reptile$ pip install scrapy

创建一个工程,例如:reptile

  • (venv) tianshl@T:~/workspace/reptile$ scrapy startproject reptile

此条指令会得到scrapy创建的一个目录结构

|__  reptile/|__  reptile/|__  spiders/|__  __init__.py|__  __init__.py|__  items.py|__  middlewares.py|__  pipelines.py|__  settings.py|__ scrapy.cfg

编写爬虫脚本

  • 以锐聘学院首页推荐课程为例
  • 在spiders目录下创建mooc.py
  • 编辑mooc.py
# -*- coding: utf-8 -*-import scrapy
from scrapy import Selectorclass MooCollege(scrapy.Spider):# 爬虫的名称name = 'MooCollege'# 爬取的入口(锐聘学院)start_urls = ['http://www.moocollege.cn/']# 域名host = 'http://www.moocollege.cn'def parse(self, response):ele = Selector(response)# 以推荐课程为例,获取课程名称和课程链接courses = ele.xpath(".//*[@id='recommend_courses_show']/a")for course in courses:print '课程名称: ', course.xpath('div[2]/div/text()').extract_first()print '课程链接', '{}{}'.format(self.host, course.xpath('@href').extract_first())

执行爬虫脚本

  • (venv) tianshl@T:~/workspace/reptile$ cd reptile/
  • (venv) tianshl@T:~/workspace/reptile/reptile$ scrapy crawl MooCollege

运行结果如下

课程名称:  Java Web技术及应用
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/S003/Always/about?course_base=56&course_package=-1
课程名称:  Unity3D基础入门
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/G001/Always/about?course_base=46&course_package=-1
课程名称:  UI入门:零基础时尚APP界面设计
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/U001/Always/about?course_base=148&course_package=-1

至此,一个简单的爬虫就写好了



数据永久化

  • 使用Pipeline可以将数据保存在文件或数据库中

转载于:https://my.oschina.net/tianshl/blog/852035

Python爬虫scrapy相关推荐

  1. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  2. Python爬虫——Scrapy 的基本使用

    文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...

  3. Python爬虫 scrapy框架爬取某招聘网存入mongodb解析

    这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...

  4. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

  5. Python爬虫—Scrapy框架—Win10下载安装

    Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...

  6. Python爬虫——Scrapy 简介和安装

    文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...

  7. Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider

    Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...

  8. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  9. 安装python爬虫scrapy踩过的那些坑和编程外的思考

    '转载地址:http://www.cnblogs.com/rwxwsblog/p/4557123.html' 这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬 ...

  10. python爬虫scrapy步骤mac系统_Mac中Python 3环境下安装scrapy的方法教程

    前言 最近抽空想学习一下python的爬虫框架scrapy,在mac下安装的时候遇到了问题,逐一解决了问题,分享一下,话不多说了,来一起看看详细的介绍吧. 步骤如下: # 在Mac上Python3环境 ...

最新文章

  1. 关于StartCoroutine的简单线程使用
  2. ZooKeeper的基本原理
  3. 3 月,跳还是不跳?
  4. AI“换脸”打开潘多拉魔盒,如何应对?
  5. YESLAB的数据中心课程介绍
  6. 如何在MFC中调用CUDA
  7. git 常见命令,规范 整理
  8. 弱网优化在支付宝的深度实践 | mPaaS 线下沙龙 CodeDay#1 分享实录
  9. SAP UI5 WebIDE里使用Mock数据的工作原理介绍
  10. html5实现圆圈里带一个三角形,CSS制作箭头图标代码(圆,三角形,椭圆)c
  11. 2021“MINIEYE杯”中国大学生算法设计超级联赛(7)部分题解
  12. codeforces 734A-C语言解题报告
  13. Android 系统(22)--Android P 行为变更
  14. 如何看待不会写代码的架构师?
  15. 英语四级高频词汇电子版_英语四级使用频率最高的580个词汇
  16. HTML+CSS+JS生日祝福网页在线制作(多种款式)
  17. 2021计算机考研总结即经验贴(初试、复试、调剂、心态调整)
  18. 通用软件体系结构风格总结为五个大类
  19. 基于神经网络的车牌识别系统
  20. 推荐几个我收藏且星标的嵌入式技术公众号

热门文章

  1. Chart图表整合——面积对比图、扇形图、柱状图
  2. 碧昂丝多伦多再度失守 胸部走光画面爆红网络(图)
  3. 外刊精读第01篇 (Economist Jun 4th 2016) Avoiding sunburn
  4. (转)MS Exchange揭开拨号音还原法的神秘面纱
  5. python投掷骰子实验实验结论_博饼伤我心我,决定用Python对投骰子(色子)做数据分析...
  6. [转载] 通用版 联想金钥匙/联想工具包
  7. PHPWORD 自动生成文档并下载
  8. TCP 打洞和UDP打洞
  9. 程序员的简历要点概括
  10. 海康网络SDK概要分析