Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜
Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜
资源链接
Web+爬虫
文章目录
- Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜
- 资源链接
- 一.什么是Scrapy
- 二.准备环境
- 三.大致流程
- 四.使用框架
- 1.创建项目
- 2.各个部分介绍
- 3.创建爬虫
- 4.设置数据存储模板
- 5.分析网页,编写爬虫
- 6.进行数据处理
- 7.设置部分
- 8.执行爬虫
一.什么是Scrapy
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。自己写Python爬虫程序不是不可,但有框架可以用,为什么不用呢?相信Scrapy可以起到事半功倍的效果,相比与request,scrapy重点在于爬虫框架而不是页面下载。
二.准备环境
scrapy爬虫需要的库pypiwin32,lxml,twisted,scrapy,Microsoft Visual C++ 14.0以上 编译环境
数据库连接模块,pymysql,以上这些库我都是使用pip安装的,我把清华的镜像源放在这里-i https://pypi.tuna.tsinghua.edu.cn/simple
三.大致流程
首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
1.引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
2.然后,爬虫解析Response。
3.若是解析出实体(Item),则交给实体管道进行进一步的处理。
4.若是解析出的是链接(URL),则把URL交给Scheduler等待抓取。
四.使用框架
1.创建项目
使用命令 scrapy startproject projectname
PS D:\pythonpractice> scrapy startproject douban
New Scrapy project 'douban', using template directory 'D:\python38install\Lib\site-packages\scrapy\templates\project', created in:D:\pythonpractice\doubanYou can start your first spider with:cd doubanscrapy genspider example example.com
我使用的是vscode,使用ctrl和·键唤起终端,输入命令,我准备爬取豆瓣网的一些页面,所以起名douban
Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜相关推荐
- Python爬虫之运用scrapy框架将爬取的内容存入文件和数据库
文章目录 前言 源码 爬虫文件(test1) pipelines.py setting.py 运行结果 前言 主要运用了scrapy持久化存储操作,下面主要展示spider和管道文件及一些设置. 源码 ...
- Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行
Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...
- Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影
文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...
- python爬虫学习笔记-scrapy框架之start_url
在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码: name = 'quotes' allowed_domains = ['quotes.toscrape.com' ...
- Python爬虫学习 6 —— 使用bs4库爬取大学排名
前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名 一.准备 查看Robots协议:robots协议 功能描述 输入:大学排名的url链接 输出:大学排名信息(排名,大学名 ...
- Python爬虫学习教程 bilibili网站视频爬取!【附源码】
Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...
- Scrapy 框架:爬取豆瓣Top 250
使用Scrapy爬取豆瓣电影Top250 鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了. 第一步:安装Scrapy 安装命令: pip3 install scrapy win用户一般来说第一次都不会太顺利 ...
- python爬虫怎么爬小说_小白的python爬虫,40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
- python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说
这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...
- python 爬虫实战六:用 selenium 爬取豆瓣电影
今天帮朋友爬取豆瓣电影的数据,以便进行社交网络分析. 首先打开豆瓣电影,然后点击 分类 ,选择要爬取的特定电影 这里以国产喜剧片为例:依次点击 电影.喜剧.中国大陆 然后点击一个小的列表按键 找到我们 ...
最新文章
- 【C 语言】文件操作 ( 文件结尾判定 )
- 深度学习核心技术精讲100篇(四十四)-深度召回在招聘推荐中的挑战和实践
- JavaFX 2.0布局窗格– BorderPane
- NOIP2018 No regrets youth
- activity多实例任务减签
- BZOJ 3729: Gty的游戏 [伪ETT 博弈论]【学习笔记】
- 美国纽约法院定于明年3月对BitMEX前高管进行审判
- java .do是什么_为什么Java Web应用程序使用.do扩展名?它从哪里来的?
- c语言程序课程设计过程,C语言课程设计————写下流程图! 谢谢
- Mybatis——动态SQL实现数据的增删改查
- Python和RF编写接口自动化
- Cisco ASA 5585防火墙ASDM配置
- 【面试经历】问题总结
- 国稻种芯百团计划行动 丰收节贸促会·黎志康:惠及亚非18国家
- ecshop模板支持php,ecshop模板不支持引入PHP语句的解决方法
- Office 365 小技巧 :Microsoft Teams_ 就地编辑文档
- Linux tar/rpm/yum命令软件安装
- mysql中查询名字第二位为_(12) 查询出名字倒数第二位为S的员工信息。_学小易找答案...
- 如何使用 React 编写无限滚动列表
- MathType7应用中文版特色功能介绍
热门文章
- (6.0系统)安卓神器XPOSED框架无需ROOT安装指南
- C语言中的 pow 函数 使用方法及注意事项,和常见报错原因,且分享实战中的使用
- 高中英语单词名词分类
- 迷你游戏平台开发(二)
- 在html中加入文本编辑器,富文本编辑器嵌入指定html代码
- 百兆网络变压器原理图及网络变压器功能(附PDF工程图纸)
- 微信公众号订阅号开发的学习(一):基础知识
- java.lang.ClassCastException: Ljava.lang.Object; cannot be cast to com.entity.Advertisem异常
- DNS与GTM协同工作原理
- 谈canvas转图片的方法(base64编码)