简单scrapy爬虫实例
简单scrapy爬虫实例
流程分析
抓取内容:网站课程
页面:https://edu.hellobi.com
数据:课程名、课程链接及学习人数
观察页面url变化规律以及页面源代码帮助我们获取所有数据
1、scrapy爬虫的创建
在pycharm的Terminal中输入以下命令:
创建scrapy项目:scrapy startproject ts
进入到项目目录中:cd first
创建一个新的spider:scrapy genspider -t basic lesson hellobi.com
2、scrapy爬虫代码编写
2.1items文件编写
在items.py文件中定义自己要抓取的数据,我们要爬取天善智能网站的课程、课程链接和学习人数,需要这三者的数据,所以此时创建item的三个类。
2.2编写spider文件(lesson.py)
由于要提取该网站所有课程的消息,需要构造了所有的课程url。此时观察观察多个url,找出其中url变化的规律,以此来构造所有的url。由于每个课程都需要包含课程名、课程链接以及学习人数,所有设置相应的xpath,分别匹配item的三个类。
2.3修改pipeline.py的内容:
将爬取到的数据写入“F:/天善课程爬取/1.txt”中。
2.4修改settings.py文件,配置pipeline:
3、总结
至此,爬虫就全部编写完成了,在scrapy中xpath很重要,如果xpath提取错误的话,可能会造成许多错误。另外在输出和写入文件时也要注意,不然也会有错误发生。在程序的最后一定要关闭文件,不然最后打开文件的内容为空。
转载于:https://www.cnblogs.com/whliscoming/p/10795420.html
简单scrapy爬虫实例相关推荐
- python爬虫简单实例-Python 利用Python编写简单网络爬虫实例3
利用Python编写简单网络爬虫实例3 by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站"http://bbs.51tes ...
- python3爬虫实例-python3.7简单的爬虫实例详解
python3.7简单的爬虫,具体代码如下所示: #https://www.runoob.com/w3cnote/python-spider-intro.html #Python 爬虫介绍 impor ...
- python爬虫实例-python3.7简单的爬虫实例详解
python3.7简单的爬虫,具体代码如下所示: #https://www.runoob.com/w3cnote/python-spider-intro.html #Python 爬虫介绍 impor ...
- 【python实现网络爬虫(5)】第一个Scrapy爬虫实例项目(Scrapy原理及Scrapy爬取名言名句网站信息)
Scrapy介绍 总共有五部分组成的:具体的流程可看图示 引擎.调度器.下载器.蜘蛛和项目管道 爬取流程 针对于每个URL, Scheduler -> Downloader -> Spid ...
- $python爬虫系列(1)——一个简单的爬虫实例
本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片. 1. 概述 本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片.下载图片的步骤如下: 获取网页html文本内容: 分析html ...
- Scrapy爬虫实例——校花网
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地.Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能. Scrapy官方定义:Scrapy是用于抓取网 ...
- Scrapy 爬虫实例 抓取豆瓣小组信息并保存到mongodb中
这个框架关注了很久,但是直到最近空了才仔细的看了下 这里我用的是scrapy0.24版本 先来个成品好感受这个框架带来的便捷性,等这段时间慢慢整理下思绪再把最近学到的关于此框架的知识一一更新到博客来. ...
- SCRAPY爬虫实例
一:Scrapy简介 scrapy是一个爬虫框架,支持多线程爬取数据,使用简单,爬取效率高. 二:项目介绍 1:爬取对象 #乐彩网历史双色球开奖号码,网址如下 http://www.17500.cn/ ...
- python网页爬虫例子_Python 利用Python编写简单网络爬虫实例3
by:授客 QQ:1033553122 实验环境 python版本:3.3.5(2.7下报错 实验目的 获取目标网站"http://bbs.51testing.com/forum.php&q ...
最新文章
- python3 socket shutdown 简介
- 电源完整性仿真让电路板更完美
- 『重构--改善既有代码的设计』读书笔记----Remove Middle Man
- java servlet文件下载_Java之Servlet文件下载20190228
- form的enctype和action
- 第十一节课 课堂总结
- 【Elasticsearch】ELASTICSEARCH集群节点的扩容(移除与添加)
- git如何移除某文件夹的版本控制
- webots自学笔记(五)使用物理插件ODE建立铰链
- 如何注册、发布 CSDN博客
- 梦幻西游的服务器能修改吗,【梦幻西游端游互通版修真西游】Win服务端+架设教程+各种修改教程...
- AVR-GCC与AVR单片机C语言开发,[推荐]AVR 单片机与GCC 编程 教程
- 地图数字化步骤及问题总结
- 心随风飞扬,仍存一线牵~
- 护网笔记(三)-Windows基础、常用服务和入侵排查
- 基于Android的校园二手交易平台App
- 前端登录界面通用模版
- 网易游戏 Flink SQL 平台化实践
- IT研发技能表v3.1
- python实现五子棋双人对弈