1.什么是爬虫

爬虫,即网络爬虫,大家可以理解为在网络上爬行的一直蜘蛛,互联网就比作一张大网,而爬虫便是在这张网上爬来爬去的蜘蛛咯,如果它遇到资源,那么它就会抓取下来。想抓取什么?这个由你来控制它咯。

比如它在抓取一个网页,在这个网中他发现了一条道路,其实就是指向网页的超链接,那么它就可以爬到另一张网上来获取数据。这样,整个连在一起的大网对这之蜘蛛来说触手可及,分分钟爬下来不是事儿。

2.浏览网页的过程

在用户浏览网页的过程中,我们可能会看到许多好看的图片,比如 http://image.baidu.com/ ,我们会看到几张的图片以及百度搜索框,这个过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器 HTML、JS、CSS 等文件,浏览器解析出来,用户便可以看到形形色色的图片了。

因此,用户看到的网页实质是由 HTML 代码构成的,爬虫爬来的便是这些内容,通过分析和过滤这些 HTML 代码,实现对图片、文字等资源的获取。

3.URL的含义

URL,即统一资源定位符,也就是我们说的网址,统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。

URL的格式由三部分组成:
①第一部分是协议(或称为服务方式)。
②第二部分是存有该资源的主机IP地址(有时也包括端口号)。
③第三部分是主机资源的具体地址,如目录和文件名等。
爬虫爬取数据时必须要有一个目标的URL才可以获取数据,因此,它是爬虫获取数据的基本依据,准确理解它的含义对爬虫学习有很大帮助。

4. 环境的配置

学习Python,当然少不了环境的配置,最初我用的是Notepad++,不过发现它的提示功能实在是太弱了,于是,在Windows下我用了PyCharm,在Linux下我用了Eclipse for Python,另外还有几款比较优秀的IDE,大家可以参考这篇文章 学习Python推荐的IDE 。好的开发工具是前进的推进器,希望大家可以找到适合自己的IDE

下一节,我们就正式步入 Python 爬虫学习的殿堂了,小伙伴准备好了嘛?

【转载请注明:静觅 » Python爬虫入门二之爬虫基础了解】

Python爬虫教程——入门一之爬虫基础了解相关推荐

  1. 零基础新手自学Python编程教程入门精通学习资料网站大全

    零基础新手自学Python编程教程入门精通学习资料网站大全 今天说下关于Python的一些普及知识,以及学习资料,这一节我来跟大家分享下. 1 为什么要学习Python? 1 Python是一个脚本语 ...

  2. Python爬虫教程(一):基础知识

    目录 01 基础知识 1.1 渲染 1.2 http(超文本传输协议)协议 1.3 requests进阶 02 数据解析 2.1 re模块 2.2 bs4模块 2.3 xpath模块 01 基础知识 ...

  3. 四、Python复习教程(重点)-爬虫框架

    目录导航: 文章目录 七.Python网络爬虫基础(上) 1. Python中的正则表达式 2. 正则表达式基础语法介绍 2.1 原子 非打印字符: 通用字符: 2.2 元字符 元字符: 2.3 模式 ...

  4. Python爬虫从入门到精通——爬虫实战:爬取今日头条图片新闻

    分类目录:<Python爬虫从入门到精通>总目录 本文为实战篇,需提前学习Python爬虫从入门到精通中<基本库requests的使用>和<Ajax数据爬取(一):基本原 ...

  5. python cmdb_Django之入门 CMDB系统 (一) 基础环境

    前言 作者: 何全,github地址: https://github.com/××× QQ交流群: 62-01-76-50-1 通过此教程完成从零入门,能够独立编写一个简单的CMDB系统. 目前主流的 ...

  6. python爬虫教程入门-零基础入门Python爬虫不知道怎么学?这是入门的完整教程

    原标题:零基础入门Python爬虫不知道怎么学?这是入门的完整教程 这是一个适用于小白的Python爬虫免费教学课程,只有7节,让零基础的你初步了解爬虫,跟着课程内容能自己爬取资源.看着文章,打开电脑 ...

  7. python爬虫教程入门-Python爬虫系列 - 入门教学

    本文来源于公众号[程序猿声],作者周云猛 启 大家好,我是新来的小编小周.今天给大家带来的是python爬虫入门,文章以简为要,引导初学者快速上手爬虫.话不多说,我们开始今天的内容.在初步学习爬虫之前 ...

  8. 【python教程入门学习】零基础想转行学python,过来人提醒大家几点

    img 为了获得心仪的Offer,要不要接受HR的压价? 前不久,我被一大厂HR摆了一道,都准备签Offer了,但却压了3000的薪资. 拒绝offer的那一刻,我感到前所未有的迷茫和无力. 大厂碰壁 ...

  9. python爬虫教程(1)-爬虫的好处

    欢迎来到python爬虫大讲堂,现在开始你的爬虫旅程吧! 爬虫 爬虫能自动从互联网上获取数据,通过这些数据,我们可以做很多事情. 比如说有一家电器售卖公司,为了生存下去,它需要实时了解对手的状况,改进 ...

最新文章

  1. HTML中常见的各种位置距离以及dom中的坐标讨论
  2. Exchange Server 2003 Cluster
  3. maven搭建多模块项目和管理
  4. python颜色填充代码_求懂WORD的大佬怎么一次性填充颜色或者使用python识别
  5. Mongoose 参考手册
  6. tablelayout高度问题
  7. python外贸应用_Python脚本+Sublime免费查询阿里巴巴国际站产品排名
  8. android如何虚标内存,答疑 | 手机运存明明是6GB,但实际可用才3.5GB?是虚标还是什么?...
  9. python程序分析csv文件并绘制趋势图
  10. SPSS显著性差异分析及字母标记
  11. [hadoop3.x]HDFS中的内存存储支持(七)概述
  12. 巧妙处理pdf转换成jpg的好方法
  13. htmlunit 示例
  14. 信号完整性之S参数(八)
  15. 新浪短链接API接口示例
  16. 《火柴男人》:一切都是骗局但我要…
  17. 奥塔在线:Redis5通过源码进行安装及卸载
  18. 天行健君子以自强不息
  19. 什么叫域?如何建立域?域操作命令net
  20. FireFox火狐浏览器字体模糊的解决办法

热门文章

  1. 微信小程序-如何引入地图组件及显示当前所在位置
  2. DNA-蛋白翻译过程的Python实现
  3. 记录——python与华为云对象存储服务OBS
  4. Application Loader上传成功了 iTunes Connect不显示构建版本
  5. Revit二次开发——设备自动接管插件的开发思路(入门实例教程)
  6. 七夕节 看到许多停止更新的blog 莫名有点淡淡的忧桑
  7. SqlServer的基本使用
  8. 丈母娘刚需支撑中国经济
  9. 添加https证书信任
  10. 本科生通信工程毕业何去何从