爬虫笔记_1、爬虫的五个步骤及举例
文章目录
- 爬虫的五个步骤:
- 需求分析
- 寻找网址([URL](https://baike.baidu.com/item/URL%E6%A0%BC%E5%BC%8F/10056474?fr=aladdin))
- 下载网站的返回内容
- 通过网站的返回内容找到需要爬取的数据:
- 存储找到的数据内容:
- 总结:
爬虫的五个步骤:
- 1.需求分析
- 2.寻找网址
- 3.下载网站的返回内容(需要用到:requests)
- 4.通过网站的返回内容找到需要爬取的数据(需要用到:正则表达式re,XPATH-lxml)
- 5.存储找到的数据内容(需要用到:MySQL)
其中,步骤1、2是我们自己根据自己的需要去分析设定的,步骤3、4、5是需要自己写程序来执行的。
需求分析
假如需求是:爬取十万张美女图片:
- 首先我们需要的图片
- 其次是美女图片,准确定位需求,不然什么照片都爬取下来,肯定是不符合要求的
- 就以下图为例:
寻找网址(URL)
今日头条上面就有很多的照片,所以在今日头条中直接搜:美女图片,如上图
下载网站的返回内容
我们在图片上点击鼠标右键,再点击Inspect(检查),就可以弹出网页的HTML,
通过网站的返回内容找到需要爬取的数据:
其中标红的部分,就是我们要找的图片的地址
存储找到的数据内容:
我们将标红的地址复制出来,在新的标签页打开,然后下载存储,就完成了一张图片的获取。
总结:
1、先考虑需求
2、考虑在哪里可以下载到
3、找到对应的HTML
4、找到我们最终需要的图片jpg
5、存储jpg文件
爬虫笔记_1、爬虫的五个步骤及举例相关推荐
- 爬虫实战学习笔记_1 爬虫基础+HTTP原理
1 爬虫简介 网络爬虫(又被称作网络蜘蛛.网络机器人,在某些社区中也经常被称为网页追逐者)可以按照指定的规则(网络爬虫的算法)自动浏览或抓取网络中的信息. 1.1 Web网页存在方式 表层网页指的是不 ...
- 【爬虫笔记】爬虫基础
文章目录 一.技术选型 二.网页分类 三.正则表达式 四.深度优先和广度优先 1.网站的树结构 2.深度优先算法和实现 3.广度优先算法和实现 五.爬虫去重策略 六.字符串编码 1.发展 2.转换 爬 ...
- 爬虫笔记:爬虫的基本原理
1.什么是爬虫 请求⽹站并提取数据的⾃动化程序 2.爬虫基本流程 发起请求.通过HTTP库向⽬标站点发起请求,即发送⼀个Request,请求可以包含额外的headers等信息,等待服务器响应. 获取响 ...
- 【学习笔记】财务分析的五个步骤
财务分析五步骤 确定产业经济特征 五个层面的经济属性模式 需求属性反映了顾客对产品或服务价格的敏感性,产业成长率.对商业周期的敏感程度.季节性影响都是评估需求的重要因素 ...
- python爬虫笔记_Python爬虫系列-将知乎收藏发送到Evernote/印象笔记之三
将知乎收藏发送到Evernote/印象笔记之三 前端时间抽空把很久之前在 知乎 上问题答案重新修改了一下代码.已经可以完全的将所有的 知乎收藏 文章发送到Evernote/印象笔记中.后来有朋友希望能 ...
- Python 网络爬虫笔记11 -- Scrapy 实战
Python 网络爬虫笔记11 – Scrapy 实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Py ...
- Python 网络爬虫笔记10 -- Scrapy 使用入门
Python 网络爬虫笔记10 – Scrapy 使用入门 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接: ...
- Python 网络爬虫笔记8 -- 股票数据定向爬虫
Python 网络爬虫笔记8 – 股票数据定向爬虫 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程链接:Pyth ...
- 网络爬虫笔记—Selenium
网络爬虫笔记-Selenium 1.简介及环境安装 Selenium是一种自动化测试工具,利用它可以操作浏览器执行固定动作,例如点击.下拉等操作.在日常工作中,如果你需要用浏览器并且重复某项操作,那S ...
- Python爬虫笔记(3)- 爬取丁香园留言
Python爬虫笔记(3)- 爬取丁香园留言 爬取丁香园留言:主要用到了模拟登录 爬取丁香园留言:主要用到了模拟登录 import requests, json, re, random,time fr ...
最新文章
- python使用matplotlib, seaborn画图时候的数据加载
- 安装nvm-nvm: command not found
- oracle时间用法
- 计算机桌面颜色如何设置标准,电脑调整桌面颜色设置_电脑桌面颜色设置
- Android -- PullToRefresh应用
- pip install时发生raise ReadTimeoutError(self._pool, None, 'Read timed out.')的解决方案
- 设计模式之组合模式(Composite)
- 摘花生(信息学奥赛一本通-T1284)
- [深度学习TF2][RNN-LSTM]文本情感分析包含(数据预处理-训练-预测)
- Harbor的搭建(vmware企业级docker镜像私服)
- 域外计算机访问域内共享,域外用户如何拥有让其他电脑加域或退域的权限
- hive 配置用户名_Hive的安装及配置
- python中文编码(汉字乱码问题解决方案)
- java quartz配置
- 量子计算机未来猜想,太厉害了吧?这台量子计算机能预测16种不同的未来​!...
- 学校图书馆座位预约系统微信小程序开发制作介绍
- 锁定计算机屏幕的快捷键是什么,锁住电脑屏幕的快捷键_打开电脑屏幕的快捷键...
- Java生成token的工具类(对称签名)
- 慧正工作流注册码获取
- JavaScript实现在线进制转换工具网站 -toolfk程序员工具网
热门文章
- Rust : 危险! 关于字符串切片以及取值......
- Julia : array[ ] 与几种过滤条件
- 达摩院发布AI Earth地球科学云平台
- 阿里云张建锋:数字技术要服务好实体经济
- 细数那些年ZStack拿过奖的案例
- GlusterFS vs. CephFS性能对比研究(一)
- 原创 | 职场风云 (二)试验田
- java 向后台传两个json数据类型_前台向后台传递JSON字符串,处理JSON字符串类型的方法...
- 【数据分析】基于matlab焊缝边缘检测算法对比分析 【含Matlab源码 260期】
- 立法者在民权受到侵蚀时忽略了黑匣子算法