文章目录

  • 爬虫的五个步骤:
    • 需求分析
    • 寻找网址([URL](https://baike.baidu.com/item/URL%E6%A0%BC%E5%BC%8F/10056474?fr=aladdin))
    • 下载网站的返回内容
    • 通过网站的返回内容找到需要爬取的数据:
    • 存储找到的数据内容:
  • 总结:

爬虫的五个步骤:

  • 1.需求分析
  • 2.寻找网址
  • 3.下载网站的返回内容(需要用到:requests)
  • 4.通过网站的返回内容找到需要爬取的数据(需要用到:正则表达式re,XPATH-lxml)
  • 5.存储找到的数据内容(需要用到:MySQL)

其中,步骤1、2是我们自己根据自己的需要去分析设定的,步骤3、4、5是需要自己写程序来执行的。

需求分析

假如需求是:爬取十万张美女图片:

  • 首先我们需要的图片
  • 其次是美女图片,准确定位需求,不然什么照片都爬取下来,肯定是不符合要求的
  • 就以下图为例:

寻找网址(URL)

今日头条上面就有很多的照片,所以在今日头条中直接搜:美女图片,如上图

下载网站的返回内容

我们在图片上点击鼠标右键,再点击Inspect(检查),就可以弹出网页的HTML,

通过网站的返回内容找到需要爬取的数据:


其中标红的部分,就是我们要找的图片的地址

存储找到的数据内容:

我们将标红的地址复制出来,在新的标签页打开,然后下载存储,就完成了一张图片的获取。

总结:

1、先考虑需求
2、考虑在哪里可以下载到
3、找到对应的HTML
4、找到我们最终需要的图片jpg
5、存储jpg文件

爬虫笔记_1、爬虫的五个步骤及举例相关推荐

  1. 爬虫实战学习笔记_1 爬虫基础+HTTP原理

    1 爬虫简介 网络爬虫(又被称作网络蜘蛛.网络机器人,在某些社区中也经常被称为网页追逐者)可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息. 1.1 Web网页存在方式 表层网页指的是不 ...

  2. 【爬虫笔记】爬虫基础

    文章目录 一.技术选型 二.网页分类 三.正则表达式 四.深度优先和广度优先 1.网站的树结构 2.深度优先算法和实现 3.广度优先算法和实现 五.爬虫去重策略 六.字符串编码 1.发展 2.转换 爬 ...

  3. 爬虫笔记:爬虫的基本原理

    1.什么是爬虫 请求⽹站并提取数据的⾃动化程序 2.爬虫基本流程 发起请求.通过HTTP库向⽬标站点发起请求,即发送⼀个Request,请求可以包含额外的headers等信息,等待服务器响应. 获取响 ...

  4. 【学习笔记】财务分析的五个步骤

    财务分析五步骤 确定产业经济特征 五个层面的经济属性模式             需求属性反映了顾客对产品或服务价格的敏感性,产业成长率.对商业周期的敏感程度.季节性影响都是评估需求的重要因素    ...

  5. python爬虫笔记_Python爬虫系列-将知乎收藏发送到Evernote/印象笔记之三

    将知乎收藏发送到Evernote/印象笔记之三 前端时间抽空把很久之前在 知乎 上问题答案重新修改了一下代码.已经可以完全的将所有的 知乎收藏 文章发送到Evernote/印象笔记中.后来有朋友希望能 ...

  6. Python 网络爬虫笔记11 -- Scrapy 实战

    Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...

  7. Python 网络爬虫笔记10 -- Scrapy 使用入门

    Python 网络爬虫笔记10 – Scrapy 使用入门 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接: ...

  8. Python 网络爬虫笔记8 -- 股票数据定向爬虫

    Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...

  9. 网络爬虫笔记—Selenium

    网络爬虫笔记-Selenium 1.简介及环境安装 Selenium是一种自动化测试工具,利用它可以操作浏览器执行固定动作,例如点击.下拉等操作.在日常工作中,如果你需要用浏览器并且重复某项操作,那S ...

  10. Python爬虫笔记(3)- 爬取丁香园留言

    Python爬虫笔记(3)- 爬取丁香园留言 爬取丁香园留言:主要用到了模拟登录 爬取丁香园留言:主要用到了模拟登录 import requests, json, re, random,time fr ...

最新文章

  1. python使用matplotlib, seaborn画图时候的数据加载
  2. 安装nvm-nvm: command not found
  3. oracle时间用法
  4. 计算机桌面颜色如何设置标准,电脑调整桌面颜色设置_电脑桌面颜色设置
  5. Android -- PullToRefresh应用
  6. pip install时发生raise ReadTimeoutError(self._pool, None, 'Read timed out.')的解决方案
  7. 设计模式之组合模式(Composite)
  8. 摘花生(信息学奥赛一本通-T1284)
  9. [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)
  10. Harbor的搭建(vmware企业级docker镜像私服)
  11. 域外计算机访问域内共享,域外用户如何拥有让其他电脑加域或退域的权限
  12. hive 配置用户名_Hive的安装及配置
  13. python中文编码(汉字乱码问题解决方案)
  14. java quartz配置
  15. 量子计算机未来猜想,太厉害了吧?这台量子计算机能预测16种不同的未来​!...
  16. 学校图书馆座位预约系统微信小程序开发制作介绍
  17. 锁定计算机屏幕的快捷键是什么,锁住电脑屏幕的快捷键_打开电脑屏幕的快捷键...
  18. Java生成token的工具类(对称签名)
  19. 慧正工作流注册码获取
  20. JavaScript实现在线进制转换工具网站 -toolfk程序员工具网

热门文章

  1. Rust : 危险! 关于字符串切片以及取值......
  2. Julia : array[ ] 与几种过滤条件
  3. 达摩院发布AI Earth地球科学云平台
  4. 阿里云张建锋:数字技术要服务好实体经济
  5. 细数那些年ZStack拿过奖的案例
  6. GlusterFS vs. CephFS性能对比研究(一)
  7. 原创 | 职场风云 (二)试验田
  8. java 向后台传两个json数据类型_前台向后台传递JSON字符串,处理JSON字符串类型的方法...
  9. 【数据分析】基于matlab焊缝边缘检测算法对比分析 【含Matlab源码 260期】
  10. 立法者在民权受到侵蚀时忽略了黑匣子算法