Python爬虫学习之scrapy框架（一）爬取豆瓣图书榜

2024-06-05 06:59:05

Python爬虫学习之scrapy框架（一）爬取豆瓣图书榜

资源链接

Web+爬虫

文章目录

Python爬虫学习之scrapy框架（一）爬取豆瓣图书榜
资源链接
一.什么是Scrapy
二.准备环境
三.大致流程
四.使用框架
- 1.创建项目
- 2.各个部分介绍
- 3.创建爬虫
- 4.设置数据存储模板
- 5.分析网页，编写爬虫
- 6.进行数据处理
- 7.设置部分
- 8.执行爬虫

一.什么是Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。自己写Python爬虫程序不是不可，但有框架可以用，为什么不用呢？相信Scrapy可以起到事半功倍的效果，相比与request，scrapy重点在于爬虫框架而不是页面下载。

二.准备环境

scrapy爬虫需要的库pypiwin32，lxml，twisted，scrapy，Microsoft Visual C++ 14.0以上编译环境
数据库连接模块，pymysql，以上这些库我都是使用pip安装的，我把清华的镜像源放在这里-i https://pypi.tuna.tsinghua.edu.cn/simple

三.大致流程

首先，引擎从调度器中取出一个链接(URL)用于接下来的抓取
1.引擎把URL封装成一个请求(Request)传给下载器，下载器把资源下载下来，并封装成应答包(Response)
2.然后，爬虫解析Response。
3.若是解析出实体（Item）,则交给实体管道进行进一步的处理。
4.若是解析出的是链接（URL）,则把URL交给Scheduler等待抓取。

四.使用框架

1.创建项目

使用命令 scrapy startproject projectname

PS D:\pythonpractice> scrapy startproject douban
New Scrapy project 'douban', using template directory 'D:\python38install\Lib\site-packages\scrapy\templates\project', created in:D:\pythonpractice\doubanYou can start your first spider with:cd doubanscrapy genspider example example.com

我使用的是vscode，使用ctrl和·键唤起终端，输入命令，我准备爬取豆瓣网的一些页面，所以起名douban

Python爬虫学习之scrapy框架（一）爬取豆瓣图书榜相关推荐

Python爬虫之运用scrapy框架将爬取的内容存入文件和数据库
文章目录前言源码爬虫文件(test1) pipelines.py setting.py 运行结果前言主要运用了scrapy持久化存储操作,下面主要展示spider和管道文件及一些设置. 源码 ...
Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行基础包含 requests pyquery 进入正题基础包含这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
Python爬虫小白教程（二）—— 爬取豆瓣评分TOP250电影
文章目录前言安装bs4库网站分析获取页面爬取页面页面分析其他页面爬虫系列前言经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...
python爬虫学习笔记-scrapy框架之start_url
在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码: name = 'quotes' allowed_domains = ['quotes.toscrape.com' ...
Python爬虫学习 6 —— 使用bs4库爬取大学排名
前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名一.准备查看Robots协议:robots协议功能描述输入:大学排名的url链接输出:大学排名信息(排名,大学名 ...
Python爬虫学习教程 bilibili网站视频爬取！【附源码】
Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...
Scrapy 框架：爬取豆瓣Top 250
使用Scrapy爬取豆瓣电影Top250 鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了. 第一步:安装Scrapy 安装命令: pip3 install scrapy win用户一般来说第一次都不会太顺利 ...
python爬虫怎么爬小说_小白的python爬虫，40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
python爬取豆瓣代码_小白的python爬虫，40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
python 爬虫实战六：用 selenium 爬取豆瓣电影
今天帮朋友爬取豆瓣电影的数据,以便进行社交网络分析. 首先打开豆瓣电影,然后点击分类 ,选择要爬取的特定电影这里以国产喜剧片为例:依次点击电影.喜剧.中国大陆然后点击一个小的列表按键找到我们 ...

最新文章

热门文章