Python实战：如何隐藏自己的爬虫身份

使用爬虫访问网站，需要尽可能的隐藏自己的身份，以防被服务器屏蔽，在工作工程中，我们有2种方式来实现这一目的，分别是延时访问和动态代理，接下来我们会对这两种方式进行讲解

1、延时访问

见名之意，延时访问就是在访问网站时设置一个访问周期，每隔几秒钟访问一次，这样的方式更像是人为访问网站

import time
import urllib.requestcnt = 0
#隐藏自己爬虫的身份的第一种策略是设置访问周期，使得程序更像是人为访问的
while True: #每隔5秒钟访问一次百度网url = "https://www.baidu.com" #设置url地址param = {} #设置参数，参数是字典param = urllib.parse.urlencode(param).encode('utf_8') #将参数以utf-8编码方式来编码req = urllib.request.Request(url, param)#设置header的User-Agent属性，模拟该请求是由狐火浏览器发送的，也就是说欺骗服务器是人为发送的并未程序发送的req.add_header("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")response = urllib.request.urlopen(req) #访问网络html = response.read() #读取响应的结果result = html.decode("utf-8") #按照utf-8编码来进行解码if result != "":cnt += 1print("第%s次攻击百度网" %cnt)time.sleep(5) #程序睡眠5秒钟

运行结果：

每隔5秒钟访问一次百度网

2、动态代理

使用代理服务器来访问网站，这种方法非常霸道，可以模拟出不同的服务器访问网站，也是最为推荐的一种方式，我们可以在百度网上查找免费的代理服务器IP

import urllib.request
import randomipList = ['119.6.144.73:81', '183.203.208.166:8118', '111.1.32.28:81'] #定义多个代理IP，代理IP可以在网上搜免费的
cnt = 0
#隐藏自己爬虫的身份的第二种策略是使用代理，意思是模拟多个服务器访问
while True: #使用代理服务器不停的访问百度网proxy_support = urllib.request.ProxyHandler({'http':random.choice(ipList)}) #定义一个代理对象，使用随机的ipopener = urllib.request.build_opener(proxy_support)opener.add_handlers = [("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")]urllib.request.install_opener(opener)response = urllib.request.urlopen("https://www.baidu.com") #访问网络html = response.read() #读取响应的结果result = html.decode("utf-8") #按照utf-8编码来进行解码if result != "":cnt += 1print("第%s次攻击百度网" %cnt)

运行结果：

不停的攻击百度网

Python实战：如何隐藏自己的爬虫身份相关推荐

【Python实战】高校数据采集，爬虫训练场项目数据储备
在制作爬虫训练场项目时,需要准备大量的数据,供大家学习使用,本系列博客用于数据储备. 文章目录示例代码如下所示数据入库本次要采集的是高考大数据,即 2022 年学校排名,数据来源为百度,地址 ...
【Python实战案例】Python3网络爬虫：“可惜你不看火影，也不明白这个视频的分量......”m3u8视频下载，那些事儿~
前言哈喽!上午好嘞,各位小可爱们!有没有等着急了呀~ 由于最近一直在学习新的内容,所以耽搁了一下下,抱歉.jpg 双手合十. 所有文章完整的素材+源码都在
python 隐藏爬虫身份（或代理IP）
参考链接: Python实战:如何隐藏自己的爬虫身份 https://blog.csdn.net/qzc70919700/article/details/73305026 使用爬虫访问网站,需要尽可能 ...
python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份
本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...
爬虫遇到头疼的验证码？Python实战讲解弹窗处理和验证码识别
点击上方"Python爬虫与数据挖掘",进行关注回复"书籍"即可获赠Python从入门到进阶共10本电子书今日鸡汤远芳侵古道,晴翠接荒城. 前言在 ...
python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取
概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...
ant4 多个form 验证_爬虫遇到头疼的验证码？Python实战讲解弹窗处理和验证码识别...
点击上方"早起Python",关注并"星标" 每日接收Python干货! 本文含 3321 字,9代码片段建议阅读 8 分钟前言在我们写爬虫的过程中,目标网 ...
【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上，有彩蛋
接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了就在这里再来一篇手把手的将爬 ...
python实战-HTML形式爬虫-批量爬取电影下载链接
文章目录一.前言二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断三.具体代码的实现四.总结一.前言喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

Python实战：如何隐藏自己的爬虫身份

Python实战：如何隐藏自己的爬虫身份相关推荐

最新文章

热门文章