什么是爬虫?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

其实通俗的讲就是通过程序去获取web页面上自己想要的数据,也就是自动抓取数据

爬虫可以做什么?

你可以爬去妹子的图片,爬取自己想看看的视频。。等等你想要爬取的数据,只要你能通过浏览器访问的数据都可以通过爬虫获取

爬虫的本质是什么?

模拟浏览器打开网页,获取网页中我们想要的那部分数据

浏览器打开网页的过程:
当你在浏览器中输入地址后,经过DNS服务器找到服务器主机,向服务器发送一个请求,服务器经过解析后发送给用户浏览器结果,包括html,js,css等文件内容,浏览器解析出来最后呈现给用户在浏览器上看到的结果

所以用户看到的浏览器的结果就是由HTML代码构成的,我们爬虫就是为了获取这些内容,通过分析和过滤html代码,从中获取我们想要资源(文本,图片,视频.....)

所有的努力都值得期许,每一份梦想都应该灌溉!

原文地址: http://www.cnblogs.com/zhaof/p/6897393.html

python爬虫从入门到放弃(一)之初识爬虫相关推荐

  1. python爬虫从入门到放弃-python爬虫从入门到放弃(二)- 爬虫的深层原理

    上次说到了爬虫的基本原理.这次再深入的了解学习一下深层的本质. 因为本人属于小白,这两年接触的都是ETL.数据仓库.BI 方面的东西,故这里转载以为专业人士的爬虫原理,末尾有原文地址. 爬虫就是请求网 ...

  2. 爬虫从入门到放弃 - 纯新手学习-爬虫基本原理

    1.什么是爬虫? 请求网站并提取数据的自动化程序 请求:客户端向服务端发送请求获得网页资源,是一段html代码,包含html标签和一段信息. 提取:提取出想要的信息,然后将结构化的数据存储到文本 自动 ...

  3. python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫

    什么是爬虫? 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁.自动索引. ...

  4. Python tkinter 从入门到放弃(窗口函数)

    目录:Python tkinter 从入门到放弃(1)_BBBBBBBBBBBBBBBUG的博客-CSDN博客_python tkinter 文章目录 一.窗口表面 1.标题 2.窗口大小和位置 (1 ...

  5. Python爬虫从入门到放弃(十二)之 Scrapy框架的架构和原理

    原文地址https://www.cnblogs.com/zhaof/p/7173397.html 这一篇文章主要是为了对scrapy框架的工作流程以及各个组件功能的介绍 Scrapy目前已经可以很好的 ...

  6. Python爬虫从入门到放弃(十三)之 Scrapy框架的命令行详解

    这篇文章主要是对的scrapy命令行使用的一个介绍 创建爬虫项目 scrapy startproject 项目名 例子如下: localhost:spider zhaofan$ scrapy star ...

  7. Python爬虫从入门到放弃(十一)之 Scrapy框架整体的一个了解

    这里是通过爬取伯乐在线的全部文章为例子,让自己先对scrapy进行一个整理的理解 该例子中的详细代码会放到我的github地址:https://github.com/pythonsite/spider ...

  8. python爬虫从入门到放弃(一)初识爬虫

    在家里呆了几个月,重新拾起python爬虫,想着搞点东西(爱情电影)看看,发现爬虫真的是好开心. 网络爬虫是什么呢? 网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者) ...

  9. Python爬虫从入门到放弃(二十二)之 爬虫与反爬虫大战

    爬虫与发爬虫的厮杀,一方为了拿到数据,一方为了防止爬虫拿到数据,谁是最后的赢家? 重新理解爬虫中的一些概念 爬虫:自动获取网站数据的程序 反爬虫:使用技术手段防止爬虫程序爬取数据 误伤:反爬虫技术将普 ...

  10. python从入门到放弃-掌握这个学习方法,让 Python 不再从入门到放弃

    随着数据科学概念的普及,Python 这门并不算新的语言火得一塌糊涂.因为写了几篇用 Python 做数据分析的 文章,经常有读者和学生在留言区问我,想学习 Python,该如何入手?我经常需要根据他 ...

最新文章

  1. 图解TCP/IP(第5版)PDF
  2. 厉害了,BATJ 必考的 Java 面试题!
  3. sqlserver 实现伪序列
  4. 【MyBatis】MyBatis初体验
  5. BugkuCTF-MISC题baby_flag.txt
  6. 静态注册BroadcastReceiver的注销问题
  7. 大数据揭示90后爱情观,“有钱”只能排最后
  8. Mobx入门之四:自定义reactions,when, autorun
  9. Java 通过递归求解汉诺塔问题 源码 经典递归问题讲解
  10. [中铁六局北京铁建公司]举办的演讲比赛所使用的界面(现场抓拍照片)
  11. swoft使用redis
  12. bootstrapmodel确认操作框_光伏电站EL检测仪的操作流程
  13. MPQ5031GRE-0013-AEC1-Z USB 3.0 充电协议 汽车应用
  14. 大话西游2人数最多服务器,大话西游2:全服最火服务器!凌烟阁人山人海遍地200级玩家...
  15. 32g的u盘速度测试软件,ToShiBa 东芝4G 8G 16G 32G 64G U盘量产教程(已测)
  16. 开篇鸿蒙谁为情种,曹雪芹  红楼梦引子    开辟鸿蒙,谁为情种?都只为风月情浓。 这句话什么意思 只要这句话的解释...
  17. CSS中相对定位relative
  18. 中医大2020年7月网考计算机应用基础,2020年7月网络教育统考计算机应用基础模拟题试卷9...
  19. 云虚拟主机bch 和 云服务器bcc,云虚拟主机bch 和 云服务器bcc
  20. service mesh解决的几个问题

热门文章

  1. PROTEUS串口仿真遇到的BUG(转载)
  2. Page.LoadTemplate的使用
  3. Javascript 调用XML制作连动下拉框
  4. 科大星云诗社动态20210504
  5. 云炬随笔20211012(2)
  6. 今天遭遇了同样的坑,折腾了一上午
  7. 台湾大学林轩田机器学习基石课程学习笔记10 -- Logistic Regression
  8. 新兴机器学习算法:从无监督降维到监督降维
  9. 35天 GRE: V160+Q168+W3.5
  10. 用js参数实现模板替换机制