爬虫普及,Web安全更需注意

互联网技术上不断发展，Python的普及以及代理ip的进一步稳定，爬虫技术也得到了前所未有的优化。过去我们或许还会为抓取海量数据而头痛。但现在，不断优化的网络爬虫技术，却能够轻松应对这个问题，为高效搜索用户关注的特定领域与主题提供了有力支撑。而网络爬虫现在也逐渐发展成为涵盖数据抽取、机器学习、数据挖掘、语义理解等多种方法综合应用的智能工具。

凡事都有两面性，网络爬虫带太阳HTTP来便利的同时，也网站的安全问题带来了不小的隐患，恶意用户可以利用爬虫程序对Web站点发动DoS***，使Web服务在大量爬虫程序的暴力访问下，资源耗尽而不能提供正常服务。恶意用户还可能通过网络爬虫抓取各种敏感资料用于不正当用途，主要表现在以下几个方面：

1）搜索测试页面、手册文档、样本程序及可能存在的缺陷程序
大多数Web服务器软件附带了测试页面、帮助文档、样本程序及调试用后门程序等。这些文件往往会泄漏大量的系统信息甚至提供绕过认证直接访问Web服务数据的方法，成为恶意用户分析***Web服务器的有效情报来源。而且这些文件的存在本身也暗示网站中存在潜在的安全漏洞。

2）搜索互联网用户的个人资料
互联网用户的个人资料包括姓名、×××号、电话、Email地址、QQ号、通信地址等个人信息，恶意用户获取后容易利用社会工程学实施***或诈骗。

3）搜索管理员登录页面
许多网络产品提供了基于Web的管理接口，允许管理员在互联网中对其进行远程管理与控制。如果管理员疏于防范，没有修改网络产品默认的管理员名及密码，一旦其管理员登录页面被恶意用户搜索到，网络安全将面临极大的威胁。

4）搜索目录列表
互联网中的许多Web服务器在客户端请求该站点中某个没有默认页面的目录时，会返回一个目录列表。该目录列表通常包括可供用户点击的目录和文件链接，通过这些链接可以访问下一层目录及当前目录中的文件。因而通过抓取目录列表，恶意用户往往可获取大量有用的资料，包括站点的目录结构、敏感文件以及 Web服务器设计架构及配置信息等等，比如程序使用的配置文件、日志文件、密码文件、数据库文件等，都有可能被网络爬虫抓取。这些信息可以作为挑选***目标或者直接***站点的重要资料。

如何应对爬虫的安全威胁

由于网络爬虫带来的安全威胁，不少网站的管理人员都在考虑对爬虫访问进行限制甚至拒绝爬虫访问。
限制爬虫可以通过以下几种方法实现：

1）设置robots.txt文件
限制爬虫最简单的方法是设置robots.txt文件。robots.txt文件是搜索引擎爬虫访问网站的时候要查看的第一个文件，它告诉爬虫程序在服务器上什么文件是可以被查看的，如设置Disallow： /，则表示所有的路径均不能查看。遗憾的是并不是所有的搜索引擎爬虫会遵守这个规则，因此仅仅设置robots文件是不够的。

2） User Agent识别与限制
一般的爬虫程序都可以通过其HTTP请求中的User Agent字段进行识别，该字段使服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

3）通过访问行为特征识别与限制
对于在HTTP请求的User Agent字段刻意伪装成浏览器的爬虫，可以通过其访问行为特征进行识别。爬虫程序的访问一般是有规律性的频率比较高，区别于真实用户浏览时的随意性与低频率。对这类爬虫的限制原理与DDoS***的防御原理很相似，都基于统计数据。对于这类爬虫的限制只能通过应用识别设备、IPS等能够做深度识别的网络设备来实现。

无论是爬虫还是反爬虫，都少不了代理ip的支持，在互联网的无声世界里，爬虫之间的战争从未停止过，胜利的关键就在于能否真正阻拦或者突破对方的侵入或者限制。这里还是呼吁，合理使用爬虫技术，不要做违法的事情。love&paece

转载于:https://blog.51cto.com/14059916/2317361

爬虫普及,Web安全更需注意相关推荐

基础网络爬虫（Web crawler）相关技术浅析
文章目录前言基本概念 Robots协议基本原理现状概况爬虫软件跨语言 Selenium Python urllib requests Scrapy Pyspider Java WebMag ...
Chrome 爬虫插件 Web Scraper
Web Scraper 官网:https://webscraper.io/ 有关webscraper的问题,看这个就够了(建议收藏): https://zhuanlan.zhihu.com/p/341 ...
网络爬虫（Web crawler）|| 爬虫入门程序
网络爬虫网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本爬虫入门程序环境准备 JDK1.8 IntelliJ IDEA IDEA自带的Maven 环境 ...
让WEB FORM更像WINDOWS FORM: 控制窗体事件
[按] 你可能会误解本文标题:让WEB FORM 更像WINDOWS FORM. 你也许会把本文当作是讨论应用程序界面. 其实本文讨论的是ASP.NET表现层设计. 也许会给你一点启示:如何设计逻辑 ...
python websocket库有什么_常用Python爬虫与Web开发库有哪些？
Python爬虫和Web开发均是与网页相关的知识技能,无论是自己搭建的网站还是爬虫爬去别人的网站,都离不开相应的Python库,以下是常用的Python爬虫与Web开发库. **1.爬虫库** bea ...
爬虫工程师想拿更高薪，这点不要忽略
爬虫工程师想拿更高薪,这点不要忽略! 爬虫这个岗位是最近几年比较流行的一个行业,但是工作了几年,很多人会有想转行的想法,我也问过很多朋友为什么有这种想法,很多人说很难涨薪,岗位比较少,其实并不是,下面 ...
高防IP如何防止爬虫和Web攻击？
高防IP如何防止爬虫和Web攻击?随着互联网的发展,各种类型的网络攻击和爬虫行为也越来越多.为了保护网站的安全和稳定性,许多网站都采用了高防IP来防止爬虫和Web攻击.那么高防IP是如何防止爬虫和We ...
零代码爬虫神器 — Web Scraper 的使用
经常会遇到一些简单的需求,需要爬取某网站上的一些数据,但这些页面的结构非常的简单,并且数据量比较小,自己写代码固然可以实现,但杀鸡焉用牛刀? 目前市面上已经有一些比较成熟的零代码爬虫工具,比如说八爪鱼 ...
零代码爬虫神器 -- Web Scraper 的使用
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤八骏日行三万里,穆王何事不重来. ...

爬虫普及,Web安全更需注意

爬虫普及,Web安全更需注意相关推荐

最新文章

热门文章