Python爬虫scrapy
2019独角兽企业重金招聘Python工程师标准>>>
准备工作
- Python
- scrapy
- IDE(我选择使用Pycharm)
虚拟环境
- tianshl@T:~/workspace$ mkdir reptile
- tianshl@T:~/workspace$ cd reptile/
- tianshl@T:~/workspace/reptile$ virtualenv venv
- tianshl@T:~/workspace/reptile$ source venv/bin/activate
安装scrapy
- (venv) tianshl@T:~/workspace/reptile$ pip install scrapy
创建一个工程,例如:reptile
- (venv) tianshl@T:~/workspace/reptile$ scrapy startproject reptile
此条指令会得到scrapy创建的一个目录结构
|__ reptile/|__ reptile/|__ spiders/|__ __init__.py|__ __init__.py|__ items.py|__ middlewares.py|__ pipelines.py|__ settings.py|__ scrapy.cfg
编写爬虫脚本
- 以锐聘学院首页推荐课程为例
- 在spiders目录下创建mooc.py
- 编辑mooc.py
# -*- coding: utf-8 -*-import scrapy
from scrapy import Selectorclass MooCollege(scrapy.Spider):# 爬虫的名称name = 'MooCollege'# 爬取的入口(锐聘学院)start_urls = ['http://www.moocollege.cn/']# 域名host = 'http://www.moocollege.cn'def parse(self, response):ele = Selector(response)# 以推荐课程为例,获取课程名称和课程链接courses = ele.xpath(".//*[@id='recommend_courses_show']/a")for course in courses:print '课程名称: ', course.xpath('div[2]/div/text()').extract_first()print '课程链接', '{}{}'.format(self.host, course.xpath('@href').extract_first())
执行爬虫脚本
- (venv) tianshl@T:~/workspace/reptile$ cd reptile/
- (venv) tianshl@T:~/workspace/reptile/reptile$ scrapy crawl MooCollege
运行结果如下
课程名称: Java Web技术及应用
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/S003/Always/about?course_base=56&course_package=-1
课程名称: Unity3D基础入门
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/G001/Always/about?course_base=46&course_package=-1
课程名称: UI入门:零基础时尚APP界面设计
课程链接 http://www.moocollege.cn/courses/MOOCOLLEGE/U001/Always/about?course_base=148&course_package=-1
至此,一个简单的爬虫就写好了
数据永久化
- 使用Pipeline可以将数据保存在文件或数据库中
转载于:https://my.oschina.net/tianshl/blog/852035
Python爬虫scrapy相关推荐
- Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
- Python爬虫——Scrapy 的基本使用
文章目录 Python爬虫--Scrapy 的基本使用 1.创建 Scrapy 爬虫项目 2.Scrapy-创建爬虫文件 3.Scrapy-运行爬虫文件 Python爬虫--Scrapy 的基本使用 ...
- Python爬虫 scrapy框架爬取某招聘网存入mongodb解析
这篇文章主要介绍了Python爬虫 scrapy框架爬取某招聘网存入mongodb解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 创建项目 sc ...
- python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...
- Python爬虫—Scrapy框架—Win10下载安装
Python爬虫-Scrapy框架-Win10下载安装 1. 下载wheel 2.下载twisted 3. 下载pywin32 4. 下载安装Scrapy 5. 创建一个scrapy项目 6. fir ...
- Python爬虫——Scrapy 简介和安装
文章目录 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 2.Scrapy 下载安装 Python爬虫--Scrapy 简介和安装 1.Scrapy 简介 Scrapy 简介 S ...
- Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider
Python爬虫-Scrapy框架(四)- 内置爬虫文件 - 4.2 初探Crawl Spider 写在前面 初探Crawl Spider 创建Crawl Spider项目 对比Basic与Crawl ...
- python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍
从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...
- 安装python爬虫scrapy踩过的那些坑和编程外的思考
'转载地址:http://www.cnblogs.com/rwxwsblog/p/4557123.html' 这些天应朋友的要求抓取某个论坛帖子的信息,网上搜索了一下开源的爬虫资料,看了许多对于开源爬 ...
- python爬虫scrapy步骤mac系统_Mac中Python 3环境下安装scrapy的方法教程
前言 最近抽空想学习一下python的爬虫框架scrapy,在mac下安装的时候遇到了问题,逐一解决了问题,分享一下,话不多说了,来一起看看详细的介绍吧. 步骤如下: # 在Mac上Python3环境 ...
最新文章
- 关于StartCoroutine的简单线程使用
- ZooKeeper的基本原理
- 3 月,跳还是不跳?
- AI“换脸”打开潘多拉魔盒,如何应对?
- YESLAB的数据中心课程介绍
- 如何在MFC中调用CUDA
- git 常见命令,规范 整理
- 弱网优化在支付宝的深度实践 | mPaaS 线下沙龙 CodeDay#1 分享实录
- SAP UI5 WebIDE里使用Mock数据的工作原理介绍
- html5实现圆圈里带一个三角形,CSS制作箭头图标代码(圆,三角形,椭圆)c
- 2021“MINIEYE杯”中国大学生算法设计超级联赛(7)部分题解
- codeforces 734A-C语言解题报告
- Android 系统(22)--Android P 行为变更
- 如何看待不会写代码的架构师?
- 英语四级高频词汇电子版_英语四级使用频率最高的580个词汇
- HTML+CSS+JS生日祝福网页在线制作(多种款式)
- 2021计算机考研总结即经验贴(初试、复试、调剂、心态调整)
- 通用软件体系结构风格总结为五个大类
- 基于神经网络的车牌识别系统
- 推荐几个我收藏且星标的嵌入式技术公众号
热门文章
- Chart图表整合——面积对比图、扇形图、柱状图
- 碧昂丝多伦多再度失守 胸部走光画面爆红网络(图)
- 外刊精读第01篇 (Economist Jun 4th 2016) Avoiding sunburn
- (转)MS Exchange揭开拨号音还原法的神秘面纱
- python投掷骰子实验实验结论_博饼伤我心我,决定用Python对投骰子(色子)做数据分析...
- [转载] 通用版 联想金钥匙/联想工具包
- PHPWORD 自动生成文档并下载
- TCP 打洞和UDP打洞
- 程序员的简历要点概括
- 海康网络SDK概要分析