目录

一、学习资源

二、知识点介绍

1、scrapy介绍

2、scrapy安装与错误解决

3、scrapy基本使用

4、项目结构和基本方法

(1)实例:

5、架构组成

​ 6、scrapy工作原理

(2)实例:汽车之家

三、项目分析

(1)首先定位到要获取的数据的标签的属性

(2)获取数据

(3)检查

问题①

原因及解决办法

问题②

原因及解决办法

(4)下载(单个管道)

①先定义数据结构(items程序)

②管道下载

③下载数据到文件中

(5)多个管道下载

①定义管道类

②在settings中开启管道

(6)多个管道下载实现

四、项目源码


一、学习资源

尚硅谷Python爬虫教程小白零基础速通(含python基础+爬虫案例)_哔哩哔哩_bilibili大家记得一键三连【点赞、投币、收藏】感谢支持~本教程适合想掌握爬虫技术的学习者,以企业主流版本Python 3.7来讲解,内容包括:Python基础、Urllib、解析(xpath、jsonpath、beautiful)、requests、selenium、Scrapy框架等。针对零基础的同学可以从头学起,有Python基础的同学建议直接从第52集开始学习爬虫部分视频。教程中示例多种网站的爬取,https://www.bilibili.com/video/BV1Db4y1m7Ho?p=98&spm_id_from=pageDriver

二、知识点介绍

1、scrapy介绍

2、scrapy安装与错误解决

3、scrapy基本使用

4、项目结构和基本方法

(1)实例:

5、架构组成

 6、scrapy工作原理

(2)实例:汽车之家

三、项目分析

(1)首先定位到要获取的数据的标签的属性

(2)获取数据

上一个案例用的是把所有的数据下下下来保存到一个列表中,然后再通过遍历的方式去一个一个收数据的取,这里介绍一个新的方法:seletor对象可以再次调用xpath方法,也就是说先把统一的路径给分离出来,然后再调用xpath。

(3)检查

问题①

所有的图片路径都是一样的

原因及解决办法

这是一种常见的反爬手段,图片的懒加载,即图片的真正路径不是@src了(除了第一个以外),发现问题之后再去检查网页,发现除第一个以外的图片路径为@data-original。

第一次路径:

之后的路径:

问题②

当把路径改为@data-original之后,发现第一张图片为none

原因及解决办法

检查之后发现其实第一章图片的位置没有变,只是后面的懒加载所以变了,所以此处要进行判断。当是第一张图片的时候路径就为@src,其它情况为@data-original。

(4)下载(单个管道)

①先定义数据结构(items程序)

②管道下载

(1)先在settings中开启管道 解开ITEM_PIPELINES的注释

(2)将获取的值传入管道中

③下载数据到文件中

注:这种模式不推荐 因为每传递过来一个对象 那么打开一个文件 对文件的操作过于频

改进:

(5)多个管道下载

①定义管道类

②在settings中开启管道

(6)多个管道下载实现

每一页的爬取的业务逻辑全部都是一样的,所以我们只需要将执行的那个页的请求再次调用parse方法就可以了(注意页码的变化),页码的变化会引起url的变化,这是需要注意的点

四、项目源码

此项目包含多个函数和文件,需要源码的评论区留言即可。

python项目之当当网相关推荐

  1. 在当当买了python怎么下载源代码-Python爬取当当网最受欢迎的 500 本书

    想看好书?想知道哪些书比较多人推荐,最好的方式就是看数据,接下来用 Python 爬取当当网五星图书榜 TOP500 的书籍,或许能给我们参考参考! Python爬取目标 爬取当当网前500本受欢迎的 ...

  2. python爬取当当网商品评论

    python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...

  3. python爬取当当网的书籍信息并保存到csv文件

    python爬取当当网的书籍信息并保存到csv文件 依赖的库: requests #用来获取页面内容 BeautifulSoup #opython3不能安装BeautifulSoup,但可以安装Bea ...

  4. 在当当买了python怎么下载源代码-Python爬取当当网APP数据

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于AirPython ,作者星安果 目标 场景:有时候通过传统的方法去 ...

  5. python爬虫爬当当网_爬虫实战一:爬取当当网所有 Python 书籍

    本文转载自微信公众号[ 极客猴 ],作者知乎主页 此前错误标注来源导致侵权,在此表示歉意. 我们已经学习 urllib.re.BeautifulSoup 这三个库的用法.但只是停留在理论层面上,还需实 ...

  6. Python爬取当当网APP数据

    目标 场景:有时候通过传统的方法去爬一些 Web 网页或者 APP,受限于对方的反爬方案,很难爬到想要的数据,这个时候可以考虑使用「Appium」结合「mitmproxy」的方式去爬取数据. 其中,A ...

  7. C# 控制台项目练习--当当网

    一.简介: 当当网是一个简单的购物控制台项目,其中有管理员(商家)与普通用户. 管理员的功能有登录.添加/查看/修改/删除商品.查看/删除用户.查看/删除(取消)订单. 普通用户的功能有注册.登录.查 ...

  8. 【python】分析当当网书籍价格、出版社、电子书版本占比数据

    前言 嗨喽,大家好呀~这里是爱看美女的茜茜呐 又到了学Python时刻~ 本次案例实现目标 书籍基本数据 实现可视化图表 书籍评论数据 评论可以实现词云图 最基本思路流程: <通用> 一. ...

  9. python 爬取当当网商品价格并写入数据库

    python 爬取数据并写入数据库案例: import requests import pymysql import re from fake_useragent import UserAgent f ...

最新文章

  1. php 多线程上传,PHP多线程(pthreads)参数传递学习笔记
  2. 重磅!李飞飞 CS231n 最全学霸笔记精炼版来了
  3. RUN++ | 对比学习加持,多轮对话改写新SOTA!
  4. 前端学习(3289):react hook state-hook
  5. 【MySQL】基于MySQL的SQL核心语法实战演练(一)
  6. 【算法】组合数学——排列数生成算法详解(一)
  7. abovedisplayskip无效_初学latex的模板,里面有错,哪位大神能不能帮忙看看啊?不甚感激!...
  8. 绘图的尺寸_【科研绘图1】你离顶级期刊封面仅差一步
  9. 20个最漂亮的基于WordPress的企业网站
  10. 计算机协会取消信息学奥赛,教育部2019年公示:信息学奥赛正式取消?
  11. K-Means聚类算法
  12. Rect、RectF方法解析
  13. Java获得指定时区时间
  14. python的spider程序下载_开源网络爬虫程序(spider)一览
  15. STM32 PB3或者PB4不能正常使用的讲解
  16. 【11】Activity的生命周期
  17. R语言文本挖掘展示:画词云图
  18. Tensorboard无法显示图像
  19. 360权重是什么,360权重怎么查询
  20. js字符转换成分数_js小数转分数-近似递归

热门文章

  1. 全数字实时仿真平台SkyEye故障注入测试
  2. html列目录带图片,根据目录下的图片的个数,往html文件填充对应数量的img标签,请问有没有实现这种需求的工具?...
  3. 无限极 php算法,无限极分类算法,对你一定有帮助
  4. cvtColor不是cv的成员
  5. 【Python爬虫】爬虫程序的简单处理过程
  6. python中前后端通信方法Ajax和ORM映射(form表单提交)
  7. Spark SQL的整体实现逻辑
  8. 实验一 软件工程准备
  9. matches()方法
  10. 【WS-Federation】到底有多少公司在用WS-Federation