互联网技术上不断发展,Python的普及以及代理ip的进一步稳定,爬虫技术也得到了前所未有的优化。过去我们或许还会为抓取海量数据而头痛。但现在,不断优化的网络爬虫技术,却能够轻松应对这个问题,为高效搜索用户关注的特定领域与主题提供了有力支撑。而网络爬虫现在也逐渐发展成为涵盖数据抽取、机器学习、数据挖掘、语义理解等多种方法综合应用的智能工具。

凡事都有两面性,网络爬虫带太阳HTTP来便利的同时,也网站的安全问题带来了不小的隐患,恶意用户可以利用爬虫程序对Web站点发动DoS***,使Web服务在大量爬虫程序的暴力访问下,资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途,主要表现在以下几个方面:

1)搜索测试页面、手册文档、样本程序及可能存在的缺陷程序
大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息甚至提供绕过认证直接访问Web服务数据的方法,成为恶意用户分析***Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。

2)搜索互联网用户的个人资料
互联网用户的个人资料包括姓名、×××号、电话、Email地址、QQ号、通信地址等个人信息,恶意用户获取后容易利用社会工程学实施***或诈骗。

3)搜索管理员登录页面
许多网络产品提供了基于Web的管理接口,允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范,没有修改网络产品默认的管理员名及密码,一旦其管理员登录页面被恶意用户搜索到,网络安全将面临极大的威胁。

4)搜索目录列表
互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时,会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接,通过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表,恶意用户往往可获取大量有用的资料,包括站点的目录结构、敏感文件以及 Web服务器设计架构及配置信息等等,比如程序使用的配置文件、日志文件、密码文件、数据库文件等,都有可能被网络爬虫抓取。这些信息可以作为挑选***目标或者直接***站点的重要资料。

如何应对爬虫的安全威胁

由于网络爬虫带来的安全威胁,不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。
限制爬虫可以通过以下几种方法实现:

1) 设置robots.txt文件
限制爬虫最简单的方法是设置robots.txt文件。robots.txt文件是搜索引擎爬虫访问网站的时候要查看的第一个文件,它告诉爬虫程序在服务器上什么文件是可以被查看的,如设置Disallow: /,则表示所有的路径均不能查看。遗憾的是并不是所有的搜索引擎爬虫会遵守这个规则,因此仅仅设置robots文件是不够的。

2) User Agent识别与限制
一般的爬虫程序都可以通过其HTTP请求中的User Agent字段进行识别,该字段使服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

3) 通过访问行为特征识别与限制
对于在HTTP请求的User Agent字段刻意伪装成浏览器的爬虫,可以通过其访问行为特征进行识别。爬虫程序的访问一般是有规律性的频率比较高,区别于真实用户浏览时的随意性与低 频率。对这类爬虫的限制原理与DDoS***的防御原理很相似,都基于统计数据。对于这类爬虫的限制只能通过应用识别设备、IPS等能够做深度识别的网络设 备来实现。

无论是爬虫还是反爬虫,都少不了代理ip的支持,在互联网的无声世界里,爬虫之间的战争从未停止过,胜利的关键就在于能否真正阻拦或者突破对方的侵入或者限制。这里还是呼吁,合理使用爬虫技术,不要做违法的事情。love&paece

转载于:https://blog.51cto.com/14059916/2317361

爬虫普及,Web安全更需注意相关推荐

  1. 基础网络爬虫(Web crawler)相关技术浅析

    文章目录 前言 基本概念 Robots协议 基本原理 现状概况 爬虫软件 跨语言 Selenium Python urllib requests Scrapy Pyspider Java WebMag ...

  2. Chrome 爬虫插件 Web Scraper

    Web Scraper 官网:https://webscraper.io/ 有关webscraper的问题,看这个就够了(建议收藏): https://zhuanlan.zhihu.com/p/341 ...

  3. 网络爬虫(Web crawler)|| 爬虫入门程序

    网络爬虫 网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 爬虫入门程序 环境准备 JDK1.8 IntelliJ IDEA IDEA自带的Maven 环境 ...

  4. 让WEB FORM更像WINDOWS FORM: 控制窗体事件

    [按] 你可能会误解本文标题:让WEB FORM 更像WINDOWS FORM. 你也许会把本文当作是讨论应用程序界面. 其实本文讨论的是ASP.NET表现层设计.  也许会给你一点启示:如何设计逻辑 ...

  5. python websocket库有什么_常用Python爬虫与Web开发库有哪些?

    Python爬虫和Web开发均是与网页相关的知识技能,无论是自己搭建的网站还是爬虫爬去别人的网站,都离不开相应的Python库,以下是常用的Python爬虫与Web开发库. **1.爬虫库** bea ...

  6. 爬虫工程师想拿更高薪,这点不要忽略

    爬虫工程师想拿更高薪,这点不要忽略! 爬虫这个岗位是最近几年比较流行的一个行业,但是工作了几年,很多人会有想转行的想法,我也问过很多朋友为什么有这种想法,很多人说很难涨薪,岗位比较少,其实并不是,下面 ...

  7. 高防IP如何防止爬虫和Web攻击?

    高防IP如何防止爬虫和Web攻击?随着互联网的发展,各种类型的网络攻击和爬虫行为也越来越多.为了保护网站的安全和稳定性,许多网站都采用了高防IP来防止爬虫和Web攻击.那么高防IP是如何防止爬虫和We ...

  8. 零代码爬虫神器 — Web Scraper 的使用

    经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实现,但杀鸡焉用牛刀? 目前市面上已经有一些比较成熟的零代码爬虫工具,比如说八爪鱼 ...

  9. 零代码爬虫神器 -- Web Scraper 的使用

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 八骏日行三万里,穆王何事不重来. ...

最新文章

  1. 《Bigtable:a distributed storage system for struct data》笔记
  2. 优秀logo设计解析_优秀Logo设计!汽车类标志表现手法
  3. 阿里钉钉,马云旗下的又一个千亿美金产品?
  4. java recv failed,jmeter压测报错Unrecognized Windows Sockets error: 0: recv failed
  5. 问号在c语言中运算符,C# 运算符 ?、??、?: 各种问号的用法和说明
  6. linux-shell——02
  7. java ssh 和mvc_JAVA三大框架SSH和MVC
  8. MariaDB数据库用户创建/删除及权限授权/撤回
  9. 阿里巴巴Java开发文档2020版学习-命名风格
  10. 【nebula graph】RPM离线搭建nebula graph集群
  11. 全新MVSO影视源码+支持自动采集/超强SEO/自定义苹果CMS接口
  12. 关于百度指数,你了解多少
  13. 基于btest.so的策略测试方案
  14. js和python前景比较好_Python,Java和JavaScript这3个编程语言未来哪个更有前景?
  15. 计算机无法加载引导,硬盘找不到无法读取MBR(硬盘的主引导记录)故障分析及解决技巧...
  16. 微信小程序免费资源大全
  17. google有自定义文章流畅度的伪原创工具吗
  18. 又一个布局利器, CSS 伪类 :placeholder-shown
  19. Spark数据挖掘实例1:基于 Audioscrobbler 数据集音乐推荐
  20. 织梦网站定时审核,定时发布织梦插件

热门文章

  1. 积跬步,聚小流------html知识大纲归纳总结
  2. 浅谈Java中的Set、List、Map的区别
  3. 计算机视觉与模式识别国际期刊整理
  4. 干货︱机器学习中防止过拟合的处理方法
  5. Coursera课程Python for everyone:chapter 2
  6. 图像处理(四)图像分割(2)测地距离Geodesic图割
  7. Deep Learning(深度学习) 资料库
  8. SpringBoot 项目中使用velocity模板(转载)
  9. 兼顾效率与安全:如何制止新模版注入漏洞?
  10. android端 socket长连接 架构