这个问题困扰了我很长时间,让我十分的不理解到底什么是爬虫,它难道是一种实体工具?,某宝9.9包邮?直到我深入分析了解以后才揭开了它神秘的面纱。

爬虫是什么呢?爬虫有简单的爬虫和复杂的爬虫。实际上简单的爬虫是一种脚本,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

     脚本就是粗糙的,但往往非常实用的小程序(一般来说不会超过几千行,有时候也就几百几十行的代码构成)。举个简单的例子,你现在要从一个学生租房的网站上读取关于出租的学生公寓的信息。你一条一条去抄写肯定是不现实的。所以就要用爬虫。可以把一个信息类网站上几千条信息一次全部扒下来。百度,谷歌这类的搜索引擎你也可以认为是一种爬虫,只不过这类的技术十分的复杂,不是简单的脚本。

搜索引擎是如何工作的?其实就是通过网络爬虫技术,将互联网中数以百亿计的网页信息保存到本地,形成一个镜像文件,为整个搜索引擎提供数据支撑。

这样的技术首先就会涉及到一个十分重要并且人人关注的问题——是否违法?

仔细探究后总结出了如下观点:

1.遵守 Robots 协议,但有没有 Robots 都不代表可以随便爬,
        2.限制你的爬虫行为,禁止近乎 DDOS 的请求频率,一旦造成服务器瘫痪,约等于网络攻击;
        3.对于明显反爬,或者正常情况不能到达的页面不能强行突破,否则是 Hacker 行为;
        4.审视清楚自己爬的内容,绝不能的触碰法律的红线。

至此你应该明白,爬虫本身并不违法,而是要看你使用的方式和目的,还要看其商业用途。

到底什么是爬虫技术?简谈爬虫概念相关推荐

  1. 爬虫技术python nutch_python爬虫,学习路径拆解及资源推荐(第三篇:工程化爬虫)...

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于腾讯云 作者:昱良 工程化爬虫 掌握前面的技术你就可以实现轻量级的爬 ...

  2. python爬虫技术路线_爬虫学习——中国大学最好排名(技术路线:requests库和bs4)(来源于北理工Python网络爬虫与信息提取网络公开课)...

    "中国大学排名"定向爬虫示例 课程地址:http://open.163.com/movie/2019/5/G/6/MEEMCM1NP_MEEU3UFG6.html #功能描述: # ...

  3. AR技术简谈:相关原理,技术应用以及设备推荐,带你感受虚拟信息与真实世界巧妙融合。

    1.AR技术原理 AR技术是一种增强现实技术,利用计算机生成的模拟信息与真实世界进行混合叠加,从而创造出新的虚拟图像.AR技术可以广泛应用于多媒体.智能交互.传感等领域,例如在游戏.教育.医疗.建筑. ...

  4. 赠书 | 详解 4 种爬虫技术

    作者 | 赵国生 王健 来源 | 大数据DT 头图 | 下载于视觉中国 前言: 聚焦网络爬虫是"面向特定主题需求"的一种爬虫程序,而通用网络爬虫则是捜索引擎抓取系统(Baidu.G ...

  5. Scrapy 爬虫框架五—— 常见的反爬虫技术

    爬虫的本质就是"抓取"第二方网站中有价值的数据,因此,每个网站都会或多或少地采用一些反爬虫技术来防范爬虫.比如前面介绍的通过 User-Agent 请求头验证是否为浏览器.使用 J ...

  6. 如何快速掌握 Python 数据采集与网络爬虫技术

    摘要: 本文详细讲解了 python 网络爬虫,并介绍抓包分析等技术,实战训练三个网络爬虫案例,并简单补充了常见的反爬策略与反爬攻克手段.通过本文的学习,可以快速掌握网络爬虫基础,结合实战练习,写出一 ...

  7. 如何快速掌握Python数据采集与网络爬虫技术

    云栖君导读:本文详细讲解了python网络爬虫,并介绍抓包分析等技术,实战训练三个网络爬虫案例,并简单补充了常见的反爬策略与反爬攻克手段.通过本文的学习,可以快速掌握网络爬虫基础,结合实战练习,写出一 ...

  8. python数据采集有哪些技术_如何快速掌握Python数据采集与网络爬虫技术

    一.数据采集与网络爬虫技术简介 网络爬虫是用于数据采集的一门技术,可以帮助我们自动地进行信息的获取与筛选.从技术手段来说,网络爬虫有多种实现方案,如PHP.Java.Python ....那么用pyt ...

  9. 被玩坏的爬虫技术!5000多张人脸信息只卖10元

    中国消费者报报道(记者聂国春)"放下你手中的代码,小心被抓!"最近,程序员圈子里流行着这样的段子.原因在于近期发生多起涉及爬虫技术的公司被警方调查. 根据日前公安部新闻发布会的通报 ...

  10. 反爬虫与反反爬虫技术

    1.反爬虫技术 首先我们来思考一下,为什么要反爬虫? 网络中充斥大量爬虫的情况下,会使得整个网络的数据不可靠. 网站在面对高并发爬虫的攻击时,很容易被击溃. 版权数据被爬取,对于网站来说是巨大的损失. ...

最新文章

  1. 如何自动完成登录 SAP BTP workflow(工作流) 管理应用 Launchpad 所需的设置
  2. nuget 包版本冲突解决 packages.config
  3. 赋能开发者,英特尔发布oneAPI 2022工具包
  4. c++ 高效入门_导学三章_第2章_强哥学Py_Python二级通关与实用入门_17讲
  5. 【华为云技术分享】漫谈Huawei LiteOS五大内核模块
  6. (63)FPGA二维数组(reg)
  7. cocos2d-x中CCEditbox导出到lua
  8. 53 年 IT 老兵详谈传统网络到互联网的演变史
  9. Oracle+Mybatis模糊查询
  10. C#项目xxx针对的是.NETFramework,Version=vxxx之解决方案
  11. 2021年美赛成绩公布与美赛查询!美赛官网已更新
  12. Android 游戏 - 聚合SDK
  13. 建立一台虚拟机并安装linux系统
  14. iOS锁屏界面音频播放控制
  15. My python learning
  16. 共用体和结构体所占内存大小的计算方法
  17. C语言/C++编程学习:和QT零距离接触的意义
  18. Linux设备驱动之usb设备驱动详解
  19. DOM4J 不兼容的类型: JAVA.UTIL.LIST (ORG.DOM4J.NODE)无法转换为JAVA.UTIL.LIST(ORG.DOM4J.ELEMENT)
  20. CSS3绘制的飞机票网页代码

热门文章

  1. 牛客练习赛53 E.老瞎眼 pk 小鲜肉(离线+BIT单点修改)
  2. 腾讯开源运维 PaaS 平台
  3. 伟大的数学家,怎么都诞生在法国?
  4. python列表筛选_巧用python对列表进行筛选
  5. 微博、微信,媒体选择何去何从
  6. Pandas 筛选数据的 8 个神操作
  7. 对话深喉:中小App如何突围?(开发者必看)
  8. 坑爹的HTML5应用集锦
  9. (什么是 RPC?) AND(什么是域名?)AND (DMA是什么?)AND(IRQ是什么?) 选择自 ycool1984 的 Blog
  10. Cocos2dx基础手册