Python-常见的反爬虫手段

对于静态页面针对爬虫的手段常常为Headers验证及针对IP的用户行为分析。

一、Headers反爬虫机制

​ Headers反爬虫机制常常为验证Headers中的信息,常需要验证的信息为UserAgent或X-Token等。针对UserAgent的反爬虫手段,通过导入 fake_useragent 包随机选择UserAgent的方式进行请求。

import requests
from fake_useragent import UserAgentbase_url = 'http://icanhazip.com'
ua = UserAgent()
# User-Agent 采用随机选取的方式
headers = {'X-Token': 'eyJhbGciOiJIUzI1NiJ9.eyJpYXQiOjE2MTQ4NDY3MTksImp0aSI6IjVhMmMwYWMyLTAzNTYtNDQ5ZXXXXX', 'Cookie': 'JSESSIONID=3555BE5F1XXXXXX', 'User-Agent': ua.random
}
response = requests.get(base_url, headers=headers)
二、针对IP进行用户行为分析的反爬虫机制

​ 针对单个IP的用户行为分析,需要使用切换不同代理IP间断的拉取数据,从而避免被网站屏蔽。若资源充足,还可以使用分布式爬虫。

import requests"""
1.需要将代理IP加入数组
2.使用 url 验证代理IP是否可用
3.使用代理IP访问需要爬取的网站
"""
url = 'http://icanhazip.com'
proxies = [{'http': 'http://107.151.182.247:80'},{'http': 'http://206.253.164.101:80'}
]
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit''/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# proxies = random.choice(proxies)for ips in proxies:try:# 设置重连次数requests.adapters.DEFAULT_RETRIES = 3res = requests.get(url, headers=headers, timeout=3, proxies=ips)# 查看是否为代理IPprint(res.text)except:print("1代理IP无效!")

后续更新

Python-常见的反爬虫手段相关推荐

  1. Python 常见的反爬手段和解决思路

    学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...

  2. python网络爬虫系列(八)——常见的反爬手段和解决方法

    常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...

  3. 大型企业都在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...

  4. 大厂在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...

  5. 【爬虫进阶】常见的反爬手段和解决方法(建议收藏)

    爬虫进阶:常见的反爬手段和解决思路 1 服务器反爬的原因 2 服务器常反什么样的爬虫 3 反爬虫领域常见的一些概念 4 反爬的三个方向 5 常见基于身份识别进行反爬 5.1 通过headers字段来反 ...

  6. python爬虫之逆向破解_这种python反爬虫手段有点意思,看我怎么破解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  7. 这种python反爬虫手段有点意思,看我怎么P解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  8. 【实战案例】这种python反爬虫手段有点意思,看我怎么P解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  9. Python之反爬虫手段(User-Agent,Cookie,Referer,time.sleep(),IP代理池)

    现在的爬虫越来越难,各大网站为了预防不间断的网络爬虫,都相应地做出了不同的反爬机制,那么如何能够在不被封IP的情况,尽可能多得爬取数据呢?这里主要介绍到一些通用的反爬措施,虽然不一定适合所有网站,但是 ...

  10. 这种反爬虫手段有点意思,看我怎么把他秒破了

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

最新文章

  1. [Cocoa, 医疗]Dicom Image Viewer for iPad
  2. 从AppStore提取ipa
  3. mybatis generator用法
  4. POJ 2114 - Boatherds
  5. contentwindow无法搜索对象_面试官:讲一下Jvm中如何判断对象的生死?
  6. cmakelists语法_CMakeList语法知识
  7. struts.properties文件
  8. 程式CSCMSV4黑色炫酷DJ音乐门户模板 音乐网源码
  9. reduce python3_python3中reduce函数的使用
  10. 模板模式(Template Pattern)
  11. 安卓系统校园招聘平台APP答辩PPT免费下载
  12. 基于人脸识别的课堂签到管理系统(三)---实时时间显示以及百度AI人脸识别
  13. hdu 1232 经典并查集应用
  14. 74hc138译码器实验c语言程序,实验二74HC138译码器实验学生
  15. python定义函数及调用函数
  16. Intel CPU发展史
  17. cv2.resize()函数不同插值方法比较
  18. 学Java到底要不要上培训班?
  19. 常见的12个深度学习面试问题(提高篇)
  20. 一篇文章说完Flutter页面路由导航及传参

热门文章

  1. 论文阅读-11-Handling Inter-class and Intra-class Imbalance in Class-imbalanced Learning
  2. 利用Lua开发一个门禁设备
  3. Ubuntu的搜狗输入法重启
  4. 【从零开始のIC学习笔记】-SPI
  5. 设计师不做画图匠——如何避免加班那些事
  6. 优化设计-有约束复合型法-MATLAB编程求解
  7. Doris 创建视图
  8. easybcd 硬盘安装linux,EasyBCD全硬盘安装Liunx的方法
  9. 智慧城市建设风起云涌 视频监控应如何接招?
  10. 不错的ChatGPT Prompts/调教指南