入门网络数据爬取,也就是Python爬虫

现实中我们使用浏览器访问网页时,网络是怎么运转的,做了什么呢?

首先,必须了解网络连接基本过程原理,然后,再进入爬虫原理了解就好理解的多了。

1、网络连接原理

如上图,简单的说,网络连接就是计算机发起请求,服务器返回相应的HTML文件,至于请求头和消息体待爬虫环节在详细解释。

2、爬虫原理

爬虫原理就是模拟计算机对服务器发起Request请求,接收服务器端的Response内容并解析,提取所需要的信息。

往往一次请求不能完全得到所有网页的信息数据,然后就需要合理设计爬取的过程,来实现多页面和跨页面的爬取。

多页面爬取过程是怎样的呢?

基本思路:由于多页面结构可能相似,可以先手动翻页观察URL

得到所有URL

根据每页URL定义函数爬取数据

循环URL爬取存储

跨页面爬取过程是怎样的呢?

基本思路:

找到所有URL

定义爬取详细页函数代码

进入详细页获取详细数据

存储,循环完成,结束

3、网页到底是怎么样的呢?

右键选择“检查”,打开网页源代码,可以看到上面是HTML文件,下面是CSS样式,其中HTML中包含的部分就是JavaScript代码。

我们浏览的网页就是浏览器渲染后的结果,就是把HTML、CSS、JavaScript代码进行翻译得到的页面界面。有一个通俗的比喻就是:加入网页是一个房子,HTML就是房子的框架和格局,CSS就是房子的软装样式,如地板和油漆,javaScript就是电器。

如打开百度搜索,将鼠标移至“百度一下”按钮位置,右键选择“检查”,就可以看到网页源码位置。

或者直接打开右键源码,通过点击网页源码页面左上角鼠标状图标,然后移动到网页的具体位置,就可以看到。

总结一下:爬取数据就是发起请求,得到网页信息,然后找到你要的信息,但是在请求的过程中,很容易被反扒,禁止爬取动作,所以,需要很多技巧绕过反扒机制,这一点后续我们逐一解答。

python原理与架构_Python:爬虫原理和网页构造相关推荐

  1. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  2. 爬虫python下载网站所有图片_Python爬虫之下载网页图片

    传统的方式是在想要的图片上鼠标点击右键另存为,或者用截图的方式保存图片,其实我们还可以通过使用简单的Python语言实现图片的下载并保存到本地,下面让我们看看如何实现吧 一.确定图片的URL地址及获取 ...

  3. python爬取物流信息_python爬虫快递查询系统(源码)

    import requests import json def get_express_type(postid): '''根据快递单号来智能判断快递类型''' url = 'http://www.ku ...

  4. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  5. python网页结构分析_Python爬虫基础之网页组成解析

    当我们用浏览器访问网站时,每个网页的大不相同,你是否想过它为什么会呈现多种不同的样式呢?就让我们一起了解一下网页的基本组成.结构和节点等内容吧! 网页的组成 网页可以分为三大部分--HTML.CSS和 ...

  6. python解析网页数据_python爬虫——爬取网页数据和解析数据

    1.网络爬虫的基本概念 网络爬虫(又称网络蜘蛛,机器人),就是模拟客户端发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序. 只要浏览器能够做的事情,原则上,爬虫都能够做到. ...

  7. python爬取网页某一个a标签_Python爬虫获取某个网页所有的a标签中的超链接网址...

    Python爬虫获取某个网页所有的a标签中的超链接网址 安装BeautifulSoup 管理员身份运行命令行,然后命令行中输入以下命令: pip install beautifulsoup4 爬虫核心 ...

  8. 爬虫python需要哪些软件_Python爬虫可以应用在哪些地方

    Python爬虫可以应用在哪些地方 发布时间:2020-06-19 14:46:48 来源:亿速云 阅读:118 作者:元一 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页 ...

  9. python抓取图片_Python3简单爬虫抓取网页图片

    现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2), 所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到 ...

最新文章

  1. Tensorflow学习教程------模型参数和网络结构保存且载入,输入一张手写数字图片判断是几...
  2. mysql5.6怎么配置_MySQL 5.6和5.7怎么进行最优配置的方法
  3. CSS揭秘之《背景图案》
  4. SideFX Houdini FX中文版
  5. 工业用微型计算机(27)-dos和BIOS调用(1)
  6. Kubernetes基础学习(一)
  7. Angular Remove me测试应用的工作原理
  8. C++笔记——指向常量的指针/指针常量
  9. 适用于ATI卡的GPU计算MD5的小程序源码,基于AMD APP SDK开发
  10. 4-3:TCP协议之UDP协议
  11. [转载] 百科全说——漆浩:怎样健康饮茶远离误区(11-03-09)
  12. Docker 安装 ES 7.7.0 及 Head、Kibana、IK分词器、Logstash、Filebeat 插件
  13. 物联网的体系结构分为_初学物联网信息安全、3
  14. IDEA左侧project导航栏设置背景色
  15. jQuery 添加 input 表单提交 无数据
  16. 怎么选择企业即时通讯软件
  17. Kafka性能监控与优化
  18. 能测试护肤品成分的软件,查化妆品成分的app
  19. Matlab中关于复杂函数二重积分的问题
  20. 前端入门 02:HTML入门

热门文章

  1. linux mesg 命令详解
  2. 产品发布系统_【产品发布】第3期|阀门遥控系统
  3. MySQL左连接还有过滤条件_MySQL左连接问题,右表做筛选,左表列依然在?
  4. http sxyk.cdn_Discuz x3 开启cdn和https后链接修改教程
  5. Java LocalDate类| minusWeeks()方法与示例
  6. Python程序检查字符串是否是回文
  7. 求出数组中元素的总和_数组中所有元素的总和可被给定数K整除
  8. mysql语句数据库_数据库的Mysql语句
  9. java string做除法_如果用java来实现传统方式的除法,用String来保存结果,想精确多少位都行,那改怎么做?...
  10. mysql 主机不存在_MySQL 当记录不存在时插入,当记录存在时更新