python爬虫反爬-python爬虫--爬虫与反爬

爬虫与反爬

爬虫：自动获取网站数据的程序，关键是批量的获取。

反爬虫：使用技术手段防止爬虫程序的方法

误伤：反爬技术将普通用户识别为爬虫，从而限制其访问，如果误伤过高，反爬效果再好也不能使用（例如封ip，只会限制ip在某段时间内不能访问）

成本：反爬虫需要的人力和机器成本

拦截：成功拦截爬虫，一般拦截率越高，误伤率越高

反爬虫1

爬虫：对网站的数据感兴趣，着手分析网络请求，用Scrapy写爬虫爬取网站数据

网站：后台监控发现请求中的User-Agent都是python，直接限制访问（不能封ip）

反爬虫2

爬虫：通过在请求头中传递User-Agent参数模拟浏览器请求,可以用UA池

网站：后台监控发现同一ip在某时间段内请求过于频繁，直接限制访问（不能封ip）

反爬虫3

爬虫：在原来的基础上，再通过ip代理向网站发起请求,可以用代理池

网站：后台监控发现ip发生变化，但某一时间段内的请求量过大，对服务器造成过大压力，网站中某些数据直接要求登录才能访问

反爬虫4

爬虫：注册账号，每次请求携带cookie或者token值

网站：健全账号体系，用户只能访问好友信息，非好友信息不能访问，或只能访问部分信息

反爬虫5

爬虫：注册多个账号，多个账号联合爬取，设置程序，每个账号每天固定添加好友，但是养号是个相对耗时的过程

网站：后台监控发现请求过于频繁，为避免服务器压力过大，进一步加剧ip访问频率限制

反爬虫6

爬虫：模拟人去请求，限制请求速度,让代码睡几秒

网站：后台监控到ip访问时间段过长，例如一天24小时都在有规律地请求，弹出验证码

反爬虫7

爬虫：通过各种手段识别验证码（建议使用打码平台,充钱，自己去研究识别验证码太费时，时效性也太差）

网站：增加动态网站，数据通过js动态加载，增加网络分析复杂度，或者发现大量请求时只请求html，而不请求image和css以及js，亦或者直接返回假数据给爬虫

反爬虫8

爬虫:通过正常请求去爬取数据,但有些数据看不到,数据是动态加载的,考虑发了ajax请求

网站:不在前端正常显示

反爬虫9

爬虫:通过一些反爬手段去爬取数据,但得到的不是正常的数据,网站应该是做了某种手段的加密

网站:把内容进行加密

反爬虫10

爬虫：通过selenium和phantomjs（无界面浏览器）完全模拟浏览器操作,例如滑动验证等

网站：......

python爬虫反爬-python爬虫--爬虫与反爬相关推荐

python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索
本次爬虫网址:http://jandan.net/ooxx 前言: 前段时间一直在折腾基于qqbot的QQ机器人,昨天用itchat在微信上也写了一个机器人,相比webqq,微信的web端功能比较丰富 ...
python爬虫进阶-每日一学（字体反爬-移花接木）
目的分析与学习更多的字体反爬套路详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析一.审查二.分析 impor ...
python网络爬虫系列（八）——常见的反爬手段和解决方法
常见的反爬手段和解决思路学习目标了解服务器反爬的原因了解服务器常反什么样的爬虫了解反爬虫领域常见的一些概念了解反爬的三个方向了解常见基于身份识别进行反爬了解常见基于爬虫行为进 ...
python爬取b站搜索结果_Python爬虫实例：爬取猫眼电影——破解字体反爬,Python爬虫实例：爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例：爬取豆瓣Top250...
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...
python 反爬机制_python3爬虫--反爬虫应对机制
python3爬虫--反爬虫应对机制内容来源于: 前言: 反爬虫更多是一种攻防战,网络爬虫一般有网页爬虫和接口爬虫的方式:针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面: ①访问终端 ...
python爬虫教程下载-Python爬虫入门教程！手把手教会你爬取网页数据
其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据.这里的"技术手段"就是网络爬虫.今天就给大家分享一篇爬虫基础知识 ...
python重定向反爬虫_高效实用http爬虫代理ip之盘点一些网站的反爬虫机制
该楼层疑似违规已被系统折叠隐藏此楼查看此楼 (河马代理IP)我们之所以使用python语法来来制作网络爬虫程序,是因为python语法简介以及强大的第三方库.网络爬虫的用途就是对数据进行采集,也就是 ...
python爬虫什么意思-python爬虫可以爬什么
Python爬虫可以爬取的东西有很多,Python爬虫怎么学?简单的分析下: 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python ...
python实现爬虫探探_全栈 - 9 实战爬取豆瓣电影数据
这是全栈数据工程师养成攻略系列教程的第九期:9 实战爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

python爬虫反爬-python爬虫--爬虫与反爬

python爬虫反爬-python爬虫--爬虫与反爬相关推荐

最新文章

热门文章