Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜

资源链接

Web+爬虫

文章目录

  • Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜
  • 资源链接
  • 一.什么是Scrapy
  • 二.准备环境
  • 三.大致流程
  • 四.使用框架
    • 1.创建项目
    • 2.各个部分介绍
    • 3.创建爬虫
    • 4.设置数据存储模板
    • 5.分析网页,编写爬虫
    • 6.进行数据处理
    • 7.设置部分
    • 8.执行爬虫

一.什么是Scrapy

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。自己写Python爬虫程序不是不可,但有框架可以用,为什么不用呢?相信Scrapy可以起到事半功倍的效果,相比与request,scrapy重点在于爬虫框架而不是页面下载。

二.准备环境

scrapy爬虫需要的库pypiwin32,lxml,twisted,scrapy,Microsoft Visual C++ 14.0以上 编译环境
数据库连接模块,pymysql,以上这些库我都是使用pip安装的,我把清华的镜像源放在这里-i https://pypi.tuna.tsinghua.edu.cn/simple

三.大致流程

首先,引擎从调度器中取出一个链接(URL)用于接下来的抓取
1.引擎把URL封装成一个请求(Request)传给下载器,下载器把资源下载下来,并封装成应答包(Response)
2.然后,爬虫解析Response。
3.若是解析出实体(Item),则交给实体管道进行进一步的处理。
4.若是解析出的是链接(URL),则把URL交给Scheduler等待抓取。

四.使用框架

1.创建项目

使用命令 scrapy startproject projectname

PS D:\pythonpractice> scrapy startproject douban
New Scrapy project 'douban', using template directory 'D:\python38install\Lib\site-packages\scrapy\templates\project', created in:D:\pythonpractice\doubanYou can start your first spider with:cd doubanscrapy genspider example example.com

我使用的是vscode,使用ctrl和·键唤起终端,输入命令,我准备爬取豆瓣网的一些页面,所以起名douban

Python爬虫学习之scrapy框架(一)爬取豆瓣图书榜相关推荐

  1. Python爬虫之运用scrapy框架将爬取的内容存入文件和数据库

    文章目录 前言 源码 爬虫文件(test1) pipelines.py setting.py 运行结果 前言 主要运用了scrapy持久化存储操作,下面主要展示spider和管道文件及一些设置. 源码 ...

  2. Python爬虫学习基础——5分钟学会爬取B站视频日播放量排行

    Python爬虫学习基础--5分钟学会爬取B站视频日播放量排行 基础包含 requests pyquery 进入正题 基础包含 这也是我当初第一次学习爬虫时做的练习,感觉给初学者练笔挺不错的.运用的知 ...

  3. Python爬虫小白教程(二)—— 爬取豆瓣评分TOP250电影

    文章目录 前言 安装bs4库 网站分析 获取页面 爬取页面 页面分析 其他页面 爬虫系列 前言 经过上篇博客Python爬虫小白教程(一)-- 静态网页抓取后我们已经知道如何抓取一个静态的页面了,现在 ...

  4. python爬虫学习笔记-scrapy框架之start_url

    在使用命令行创建scrapy项目后,会发现在spider.py文件内会生成这样的代码: name = 'quotes' allowed_domains = ['quotes.toscrape.com' ...

  5. Python爬虫学习 6 —— 使用bs4库爬取大学排名

    前面学了如何使用beautifulsoup,现在来尝试简单的爬取:中国大学排名 一.准备 查看Robots协议:robots协议 功能描述 输入:大学排名的url链接 输出:大学排名信息(排名,大学名 ...

  6. Python爬虫学习教程 bilibili网站视频爬取!【附源码】

    Python爬虫学习教程,万物皆可爬!每个技术大牛都是从基础慢慢的提升上去的,基础知识越深以后的发展越牛!学好python,才能玩转python,那到底怎么才能学好python? 通过爬取b站案例带领 ...

  7. Scrapy 框架:爬取豆瓣Top 250

    使用Scrapy爬取豆瓣电影Top250 鲁迅说,豆瓣排行榜这么多,不爬一爬可惜了. 第一步:安装Scrapy 安装命令: pip3 install scrapy win用户一般来说第一次都不会太顺利 ...

  8. python爬虫怎么爬小说_小白的python爬虫,40代码教你爬取豆瓣小说

    这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...

  9. python爬取豆瓣代码_小白的python爬虫,40代码教你爬取豆瓣小说

    这篇文章写了很久了,一直没有发布: 爬虫学的差不多了,觉得这篇文章对新手实践还是有些作用的.毕竟这也是我刚学爬虫的时候练习的,爬取了比较好爬的网站,也比较经典:多余的解释不说了,代码里每一行都有注释, ...

  10. python 爬虫实战六:用 selenium 爬取豆瓣电影

    今天帮朋友爬取豆瓣电影的数据,以便进行社交网络分析. 首先打开豆瓣电影,然后点击 分类 ,选择要爬取的特定电影 这里以国产喜剧片为例:依次点击 电影.喜剧.中国大陆 然后点击一个小的列表按键 找到我们 ...

最新文章

  1. 【C 语言】文件操作 ( 文件结尾判定 )
  2. 深度学习核心技术精讲100篇(四十四)-深度召回在招聘推荐中的挑战和实践
  3. JavaFX 2.0布局窗格– BorderPane
  4. NOIP2018 No regrets youth
  5. activity多实例任务减签
  6. BZOJ 3729: Gty的游戏 [伪ETT 博弈论]【学习笔记】
  7. 美国纽约法院定于明年3月对BitMEX前高管进行审判
  8. java .do是什么_为什么Java Web应用程序使用.do扩展名?它从哪里来的?
  9. c语言程序课程设计过程,C语言课程设计————写下流程图! 谢谢
  10. Mybatis——动态SQL实现数据的增删改查
  11. Python和RF编写接口自动化
  12. Cisco ASA 5585防火墙ASDM配置
  13. 【面试经历】问题总结
  14. 国稻种芯百团计划行动 丰收节贸促会·黎志康:惠及亚非18国家
  15. ecshop模板支持php,ecshop模板不支持引入PHP语句的解决方法
  16. Office 365 小技巧 :Microsoft Teams_ 就地编辑文档
  17. Linux tar/rpm/yum命令软件安装
  18. mysql中查询名字第二位为_(12) 查询出名字倒数第二位为S的员工信息。_学小易找答案...
  19. 如何使用 React 编写无限滚动列表
  20. MathType7应用中文版特色功能介绍

热门文章

  1. (6.0系统)安卓神器XPOSED框架无需ROOT安装指南
  2. C语言中的 pow 函数 使用方法及注意事项,和常见报错原因,且分享实战中的使用
  3. 高中英语单词名词分类
  4. 迷你游戏平台开发(二)
  5. 在html中加入文本编辑器,富文本编辑器嵌入指定html代码
  6. 百兆网络变压器原理图及网络变压器功能(附PDF工程图纸)
  7. 微信公众号订阅号开发的学习(一):基础知识
  8. java.lang.ClassCastException: Ljava.lang.Object; cannot be cast to com.entity.Advertisem异常
  9. DNS与GTM协同工作原理
  10. 谈canvas转图片的方法(base64编码)