Atitit 爬虫发展历史

在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运而生了。

现代意义上的搜索引擎的祖先,是1990年由蒙特利尔大学学生Alan Emtage发明的Archie。虽然当时World Wide Web还未出现,但网络中文件传输还是相当频繁的,而且由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便,因此AlanArchie工作原理与现在的搜索引擎已经很接近,它依靠脚本程序自动搜索网上的文件,然后对有关信息进行索引,供使用者以一定的表达式查询。由于Archie深受用户欢迎,受其启发,美国内华达System Computing Services大学于1993年开发了另一个与之非常相似的搜索工具,不过此时的搜索工具除了索引文件外,已能检索网页。

当时,“机器人”一词在编程者中十分流行。电脑“机器人”(Computer Robot)是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序象蜘蛛一样在网络间爬来爬去,因此,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。世界上第一个用于监测互联网发展规模的“机器人”程序是Matthew Gray开发的World wide Web Wanderer。刚开始它只用来统计互联网上的服务器数量,后来则发展为能够检索网站域名。与Wanderer相对应,Martin Koster于1993年10月创建了ALIWEB,它是Archie的HTTP版本。ALIWEB不使用“机器人”程序,而是靠网站主动提交信息来建立自己的链接索引,类似于现在我们熟知的Yahoo。

随着互联网的迅速发展,使得检索所有新出现的网页变得越来越困难,因此,在Matthew Gray的Wanderer基础上,一些编程者将传统的“蜘蛛”程序工作原理作了些改进。其设想是,既然所有网页都可能有连向其他网站的链接,那么从跟踪一个网站的链接开始,就有可能检索整个互联网。到1993年底,一些基于此原理的搜索引擎开始纷纷涌现,其中以JumpStation、The World Wide Web Worm(Goto的前身,也就是今天Overture),和Repository-BasedSoftware Engineering (RBSE) spider最负盛名。

然而JumpStation和WWW Worm只是以搜索工具在数据库中找到匹配信息的先后次序排列搜索结果,因此毫无信息关联度可言。而RBSE是第一个在搜索结果排列中引入关键字串匹配程 度概念的引擎 最早现代意义上的搜索引擎出现于1994年7月。当时Michael Mauldin将John Leavitt的蜘蛛程序接入到其索引程序中,创建了大家现在熟知的Lycos。同年4月,斯坦福(Stanford)大学的两名博士生,DavidFilo和美籍华人杨致远(Gerry Yang)共同创办了超级目录索引Yahoo,并成功地使搜索引擎的概念深入人心。从此搜索引擎进入了高速发展时期。目前,互联网上有名有姓的搜索引擎已 达数百家,其检索的信息量也与从前不可同日而语。比如最近风头正劲的Google,其数据库中存放的网页已达30亿之巨。

随着互联网规模的急剧膨胀,一家搜索引擎光靠自己单打独斗已无法适应目前的市场状况,因此现在搜索引擎之间开始出现了分工协作,并有了专业的搜索引擎技术和搜索数据库服务提供商。象国外的Inktomi,它本身并不是直接面向用户的搜索引擎,但向包括Overture(原GoTo)、 LookSmart、MSN、HotBot等在内的其他搜索引擎提供全文网页搜索服务。国内的百度也属于这一类(注),搜狐和新浪用的就是它的技术。因此从这个意义上说,它们是搜索引擎的搜索引擎。

几乎是和爬虫技术诞生的同一时刻,反爬虫技术也诞生了。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时,一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取,哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息,又可以被搜索引擎收录、增加流量。

爬虫技术刚刚诞生时我们还处于上古时代,互联网是一片贤者云集的乐土,大多数从业者都会默守这一协定,毕竟那时候信息和数据都没什么油水可捞。但很快互联网上开始充斥着商品信息、机票价格、个人隐私……在利益的诱惑下,自然有些人会开始违法爬虫协议了。

历史上第一桩关于爬虫的官司诞生在2000年,eBay将一家聚合价格信息的比价网站BE告上了法庭,eBay声称自己已经将哪些信息不能抓取写进了爬虫协议中,但BE违反了这一协议。但BE认为eBay上的内容属于用户集体贡献而不归用户所有,爬虫协议不能用作法律参考。

还打出了“AI爬虫”的招牌,让爬虫脚本的行为模式更加接普通用户,让被爬的企业难以发掘,甚至还会利用图像识别技术破解网站用作拦截的验证码。

在这种情况下,网站分辨人与机器人就变得更加困难也更加重要。很多网站也开始利用机器学习技术反制AI爬虫,比如为图形验证码动态打码应对图像识别。同时现在PC和移动终端的硬件技术发展,也让生物识别这种更复杂的验证手段有可能加入战斗。双方正在站在同一水平线上,利用技术互相斗法。

可以说爬虫技术和反爬虫技术之间斗争了十几年,可真正的“战争”却从现在才刚刚开始。在彻底制服恶意爬虫之前,对于一切大数据、精准预测之类的“吹嘘”,我们最好保持着三分怀疑。

反爬虫战争进行了十八年,但一切才刚刚开始.html

爬虫历史简析 - illidanismine的博客 - CSDN博客.html

“云采集爬虫”这几年的发展史.html

Atitit 爬虫发展历史 在互联网发展初期,网站相对较少,信息查找比较容易。然而伴随互联网爆炸性的发展,普通网络用户想找到所需的资料简直如同大海捞针,这时为满足大众信息检索需求的专业搜索网站便应运相关推荐

  1. 360浏览器登录_浏览器发展历史介绍及当今主流浏览器的详细对比

    作为访问internet的工具,浏览器已经成为我们日常生活中必不可少的上网工具了,它能让你加入全球的网络,通过一个窗口就能够连接世界.当你用浏览器时有没有想过浏览器的发展历史?面对市场上繁多的浏览器你 ...

  2. 浅谈计算机存储系统发展历史与趋势

    计算机存储系统的核心是存储器,存储器是计算机中必不可少.用来存储程序和数据的记忆设备. 计算机的发展从单片机时代开始,历经客户服务器时代和互联网时代之后,现在正逐步走向网格时代.作为计算机系统中不可缺 ...

  3. 计算机视觉的发展历史

    "看"是人类与生俱来的能力.刚出生的婴儿只需要几天的时间就能学会模仿父母的表情,人们能从复杂结构的图片中找到关注重点.在昏暗的环境下认出熟人.随着人工智能的发展,机器视觉技术也试图 ...

  4. 为什么说新一代流处理器Flink是第三代流处理器(论点:发展历史、区别、适用场景)

    Flink 被认为是第三代流处理器,这是因为 Flink 在设计时参考了前两代流处理器的经验教训并引入了一些新的技术和思想,从而使得 Flink 具有更高的性能和更广泛的应用场景.下面我带大家了解一下 ...

  5. linux是发展历史,linux发展历史.doc.doc

    linux发展历史.doc Linux发展历史 "Hello everybody out there using minix--I'm doing a (free) operating sy ...

  6. OpenWrt 版本发展历史简介

    作者:佐须之男,精通嵌入式Linux开发,专注于OpenWrt等开源路由器系统的开发.培训.技术咨询,拥有15年的Linux使用经验. 前言:相信很多网友对OpenWrt发行版的版本特别疑惑,所以我根 ...

  7. 网络系列--参考互联网的发展历史,分析物联网的发展现状与未来。

    文章目录 物联网发展现状 物联网未来展望 开放.标准 软化.边缘化 安全 参考互联网的发展历史,分析物联网的发展现状与未来. 物联网发展现状 ​ 物联网能够高效的利用资源.大限度的减少人力消耗,因此其 ...

  8. 《大众创业做电商——淘宝与微店 开店 运营 推广 一册通》一一2.1 电子商务的发展历史...

    本节书摘来自异步社区出版社<大众创业做电商--淘宝与微店 开店 运营 推广 一册通>一书中的第2章,第2.1节,作者: 葛存山,更多章节内容可以访问云栖社区"异步社区" ...

  9. 计算机网络,概念,发展历史,分类,协议

    理解计算机网络 是指一些互联的.自治的计算机的集合. 可以从二个方面来理解计算机网络 第一 计算机网络中每一台计算机都是自治的,自治是指任何一台计算机离开网络都能够独立运行,网络中任意两台计算机之间没 ...

  10. 医院PACS系统的发展历史

    PACS全称Picture Archivingand Communication Systems.它是应用在医院影像科室的系统,主要的任务就是把日常产生的各种医学影像(包括核磁,CT,超声,X光机,红 ...

最新文章

  1. Python第三方库jieba(中文分词)入门与进阶(官方文档)
  2. 设置PLSQ 连接oracle数据库
  3. matlab2011实验3,matlab实验3探索.doc
  4. json2.js参考
  5. 自然语言处理入门指北 之 one-hot
  6. was控制台的用户和密码怎样加密使用_Python爬虫进阶 | X咕视频密码与指纹加密分析...
  7. 论文密级_2019年毕业研究生论文提交的通知
  8. 转载:图解SSL/TLS协议
  9. TCxGrid 把列移上移下。
  10. (转)被AI改变的风投模式:数据驱动使效率提高10倍
  11. SPSS 量表和问卷编制的基本步骤【SPSS 031期】
  12. VMware 11.0 简体中文版|附永久密钥
  13. c语言课程设计找出肇事车牌,C语言课程设计报告01.doc
  14. java材质转基岩版_我的世界java版材质包转换导入基岩版教程
  15. linux 取消分区,如何在 Linux 中删除分区 | Linux 中国
  16. 合成器插件:KORG Software M1 for Mac
  17. AI英雄出少年!奔赴星辰,他们正在创造黄金时代
  18. 楼道灯人体红外感应电路(半波式)
  19. PSI-Blast最新版单机安装,批量生成Pssm打分矩阵
  20. android硬件加速切换,Android不同层次开启硬件加速的方式(转)

热门文章

  1. android调用系统相机进行拍照,android调用系统相机拍照
  2. dwcs6连接不上access数据库_DW如何连接数据库?
  3. html输入表,HTML 表单输入
  4. python3.5安装tensorflow_如何为Python 3.5安装OpenCV,Tensorflow和机器学习框架运行对象检测应用程序...
  5. python在材料方面的应用_Python数据科学(一)- python与数据科学应用(Ⅰ)
  6. gcov 使用注意事项
  7. find和xargs的使用
  8. Java算法-冒泡排序
  9. centos7 Samba服务安装和配置
  10. Source Insight 3.5 序列号分享