爬虫与反爬

爬虫:自动获取网站数据的程序,关键是批量的获取。

反爬虫:使用技术手段防止爬虫程序的方法

误伤:反爬技术将普通用户识别为爬虫,从而限制其访问,如果误伤过高,反爬效果再好也不能使用(例如封ip,只会限制ip在某段时间内不能访问)

成本:反爬虫需要的人力和机器成本

拦截:成功拦截爬虫,一般拦截率越高,误伤率越高

反爬虫1

爬虫:对网站的数据感兴趣,着手分析网络请求,用Scrapy写爬虫爬取网站数据

网站:后台监控发现请求中的User-Agent都是python,直接限制访问(不能封ip)

反爬虫2

爬虫:通过在请求头中传递User-Agent参数模拟浏览器请求,可以用UA池

网站:后台监控发现同一ip在某时间段内请求过于频繁,直接限制访问(不能封ip)

反爬虫3

爬虫:在原来的基础上,再通过ip代理向网站发起请求,可以用代理池

网站:后台监控发现ip发生变化,但某一时间段内的请求量过大,对服务器造成过大压力,网站中某些数据直接要求登录才能访问

反爬虫4

爬虫:注册账号,每次请求携带cookie或者token值

网站:健全账号体系,用户只能访问好友信息,非好友信息不能访问,或只能访问部分信息

反爬虫5

爬虫:注册多个账号,多个账号联合爬取,设置程序,每个账号每天固定添加好友,但是养号是个相对耗时的过程

网站:后台监控发现请求过于频繁,为避免服务器压力过大,进一步加剧ip访问频率限制

反爬虫6

爬虫:模拟人去请求,限制请求速度,让代码睡几秒

网站:后台监控到ip访问时间段过长,例如一天24小时都在有规律地请求,弹出验证码

反爬虫7

爬虫:通过各种手段识别验证码(建议使用打码平台,充钱,自己去研究识别验证码太费时,时效性也太差)

网站:增加动态网站,数据通过js动态加载,增加网络分析复杂度,或者发现大量请求时只请求html,而不请求image和css以及js,亦或者直接返回假数据给爬虫

反爬虫8

爬虫:通过正常请求去爬取数据,但有些数据看不到,数据是动态加载的,考虑发了ajax请求

网站:不在前端正常显示

反爬虫9

爬虫:通过一些反爬手段去爬取数据,但得到的不是正常的数据,网站应该是做了某种手段的加密

网站:把内容进行加密

反爬虫10

爬虫:通过selenium和phantomjs(无界面浏览器)完全模拟浏览器操作,例如滑动验证等

网站:......

python爬虫反爬-python爬虫--爬虫与反爬相关推荐

  1. python爬虫之反爬虫情况下的煎蛋网图片爬取初步探索

    本次爬虫网址:http://jandan.net/ooxx 前言: 前段时间一直在折腾基于qqbot的QQ机器人,昨天用itchat在微信上也写了一个机器人,相比webqq,微信的web端功能比较丰富 ...

  2. python爬虫进阶-每日一学(字体反爬-移花接木)

    目的 分析与学习更多的字体反爬套路 详细需求 url:http://glidedsky.com/level/web/crawler-font-puzzle-2 思路解析 一.审查 二.分析 impor ...

  3. python网络爬虫系列(八)——常见的反爬手段和解决方法

    常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...

  4. python爬取b站搜索结果_Python爬虫实例:爬取猫眼电影——破解字体反爬,Python爬虫实例:爬取B站《工作细胞》短评——异步加载信息的爬取,Python爬虫实例:爬取豆瓣Top250...

    字体反爬 字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

  5. python 反爬机制_python3爬虫--反爬虫应对机制

    python3爬虫--反爬虫应对机制 内容来源于: 前言: 反爬虫更多是一种攻防战,网络爬虫一般有网页爬虫和接口爬虫的方式:针对网站的反爬虫处理来采取对应的应对机制,一般需要考虑以下方面: ①访问终端 ...

  6. python爬虫教程下载-Python爬虫入门教程!手把手教会你爬取网页数据

    其实在当今社会,网络上充斥着大量有用的数据,我们只需要耐心的观察,再加上一些技术手段,就可以获取到大量的有价值数据.这里的"技术手段"就是网络爬虫.今天就给大家分享一篇爬虫基础知识 ...

  7. python重定向反爬虫_高效实用http爬虫代理ip之盘点一些网站的反爬虫机制

    该楼层疑似违规已被系统折叠 隐藏此楼查看此楼 (河马代理IP)我们之所以使用python语法来来制作网络爬虫程序,是因为python语法简介以及强大的第三方库.网络爬虫的用途就是对数据进行采集,也就是 ...

  8. python爬虫什么意思-python爬虫可以爬什么

    Python爬虫可以爬取的东西有很多,Python爬虫怎么学?简单的分析下: 如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python ...

  9. python实现爬虫探探_全栈 - 9 实战 爬取豆瓣电影数据

    这是全栈数据工程师养成攻略系列教程的第九期:9 实战 爬取豆瓣电影数据. 掌握了爬虫的基本原理和代码实现,现在让我们通过实战项目巩固一下. 确定目标 在写爬虫之前应当想清楚:我需要哪方面的数据?需要包 ...

最新文章

  1. 用Rhino V7建造机甲学习教程 Building a Mecha using Rhino V7
  2. Thrift RPC 系列教程(3)——模块化
  3. Spring实战1:Spring初探
  4. 如何提问问题?--《提问的智慧》再次推荐
  5. struts2 jsp跳转action 404_Struts2 学习笔记(三)
  6. spring 计划任务_与Spring的计划任务一起按时运行
  7. pytorch入门学习(三) 神经网络
  8. 公文字体字号标准2020_手把手教你写公文——红头文件的制作技巧
  9. C#使用模板文件批量导出word文档
  10. 新手如何开始学习3D建模?美术基础重不重要?
  11. win7安装注意事项及一些美化设置
  12. Python如何对XML 解析
  13. 计算机管理里面删打印机就卡住了,打印机任务无法删除怎么办-解决打印机任务无法删除的方法 - 河东软件园...
  14. 自动html5视频播放插件,视频自动转HTML5播放器插件
  15. 服务器系统怎么关机,服务器怎么关机了
  16. html文字往右边偏移怎么做,div向右偏移设置 css让div靠右移必定距离
  17. allegro16.6使用汇总
  18. 数据挖掘:基于规则的分类器Rule-Based Classifier
  19. line-height的理解
  20. SUMO利用转弯率构建车流rou文件

热门文章

  1. 数据镜像备份工具rsync + inotify
  2. 一句话讲明白 WebAssembly、微前端等技术背后的核心
  3. Java用户定义对象的LinkedList
  4. ZooKeeper 的Web管理工具Shepher介绍
  5. C#LeetCode刷题之#141-环形链表(Linked List Cycle)
  6. 135_Power Query M语言快捷输入之输入法设置自定义短语
  7. 115_Power Pivot之HR薪酬计算:公积金、社保、个税、实发工资相关
  8. java中super关键字的用法
  9. 如何查看论坛付费隐藏_如何获取流量?这些引流方式你知多少?
  10. Please read Security section of the manual to find out how to run mysqld as root!错误解决