使用爬虫访问网站,需要尽可能的隐藏自己的身份,以防被服务器屏蔽,在工作工程中,我们有2种方式来实现这一目的,分别是延时访问和动态代理,接下来我们会对这两种方式进行讲解

1、延时访问

见名之意,延时访问就是在访问网站时设置一个访问周期,每隔几秒钟访问一次,这样的方式更像是人为访问网站

import time
import urllib.requestcnt = 0
#隐藏自己爬虫的身份的第一种策略是设置访问周期,使得程序更像是人为访问的
while True: #每隔5秒钟访问一次百度网url = "https://www.baidu.com" #设置url地址param = {} #设置参数,参数是字典param = urllib.parse.urlencode(param).encode('utf_8') #将参数以utf-8编码方式来编码req = urllib.request.Request(url, param)#设置header的User-Agent属性,模拟该请求是由狐火浏览器发送的,也就是说欺骗服务器是人为发送的并未程序发送的req.add_header("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")response = urllib.request.urlopen(req) #访问网络html = response.read() #读取响应的结果result = html.decode("utf-8") #按照utf-8编码来进行解码if result != "":cnt += 1print("第%s次攻击百度网" %cnt)time.sleep(5) #程序睡眠5秒钟

运行结果:

每隔5秒钟访问一次百度网

2、动态代理

使用代理服务器来访问网站,这种方法非常霸道,可以模拟出不同的服务器访问网站,也是最为推荐的一种方式,我们可以在百度网上查找免费的代理服务器IP

import urllib.request
import randomipList = ['119.6.144.73:81', '183.203.208.166:8118', '111.1.32.28:81'] #定义多个代理IP,代理IP可以在网上搜免费的
cnt = 0
#隐藏自己爬虫的身份的第二种策略是使用代理,意思是模拟多个服务器访问
while True: #使用代理服务器不停的访问百度网proxy_support = urllib.request.ProxyHandler({'http':random.choice(ipList)}) #定义一个代理对象,使用随机的ipopener = urllib.request.build_opener(proxy_support)opener.add_handlers = [("User-Agent", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:53.0) Gecko/20100101 Firefox/53.0")]urllib.request.install_opener(opener)response = urllib.request.urlopen("https://www.baidu.com") #访问网络html = response.read() #读取响应的结果result = html.decode("utf-8") #按照utf-8编码来进行解码if result != "":cnt += 1print("第%s次攻击百度网" %cnt)

运行结果:

不停的攻击百度网

Python实战:如何隐藏自己的爬虫身份相关推荐

  1. 【Python实战】高校数据采集,爬虫训练场项目数据储备

    在制作 爬虫训练场 项目时,需要准备大量的数据,供大家学习使用,本系列博客用于数据储备. 文章目录 示例代码如下所示 数据入库 本次要采集的是高考大数据,即 2022 年学校排名,数据来源为百度,地址 ...

  2. 【Python实战案例】Python3网络爬虫:“可惜你不看火影,也不明白这个视频的分量......”m3u8视频下载,那些事儿~

    前言 哈喽!上午好嘞,各位小可爱们!有没有等着急了呀~ 由于最近一直在学习新的内容,所以耽搁了一下下,抱歉.jpg 双手合十. 所有文章完整的素材+源码都在

  3. python 隐藏爬虫身份(或代理IP)

    参考链接: Python实战:如何隐藏自己的爬虫身份 https://blog.csdn.net/qzc70919700/article/details/73305026 使用爬虫访问网站,需要尽可能 ...

  4. python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份

    本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...

  5. 爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 远芳侵古道,晴翠接荒城. 前言 在 ...

  6. python爬虫爬取中国天气网_【实战】中国天气网爬虫之华北城市数据爬取

    概述: 在人工智能来临的今天,数据显得格外重要.在互联网的浩瀚大海洋中,隐藏着无穷的数据和信息.因此学习网络爬虫是在今天立足的一项必备技能.本路线专门针对想要从事Python网络爬虫的同学而准备的,并 ...

  7. ant4 多个form 验证_爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别...

    点击上方"早起Python",关注并"星标" 每日接收Python干货! 本文含 3321 字,9代码片段建议阅读 8 分钟 前言 在我们写爬虫的过程中,目标网 ...

  8. 【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上,有彩蛋

    接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了 就在这里再来一篇手把手的将爬 ...

  9. python实战-HTML形式爬虫-批量爬取电影下载链接

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言   喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

最新文章

  1. optee3.14.0 qemu_v8的环境搭建篇(ubuntu20.10)--终极篇
  2. 最小二乘法普通定义法证明
  3. 没有测量,就没有管理
  4. c++ websocket客户端_python测试开发django81.dwebsocket实现websocket
  5. android触摸消息的派发过程
  6. 西昌学院计算机,西昌学院
  7. Java基础学习-HelloWorld案例常见问题
  8. 分布式-图片上传到Lgnix
  9. Tech-Ed2004的收获
  10. Hyperledger Fabric教程(15)--基于Kafka的Order服务实战
  11. 揭密 Vue 的双向绑定
  12. 2016前端的收藏夹
  13. 制输电线路行波测距PSCAD仿真模型ATP-EMTP
  14. android9原生体验,原生安卓必备软件 优化类原生ROM体验
  15. 东航手机值机选座推荐
  16. C语言之const和volatile究极学习
  17. 基于Web的文件管理系统,支持Office、WPS预览/编辑、在线解压缩、文件分享、文件加密、远程存储、远程文件推送、秒传、断点
  18. Chromium浏览器启动参数
  19. C++ API设计 - 读书笔记(XMind)
  20. SpringBoot入门:项目下载,依赖,启动

热门文章

  1. 拆解国企数字化转型的锦囊
  2. 分子 原子 电子 质子_受质子碰撞启发的大量数据文本挖掘
  3. 【公钥密码】ECC椭圆密码体制 (实现Elgamal加密方法)
  4. Xftp文件传输失败
  5. 学习笔记之——基于深度学习的目标检测算法
  6. ES6:字符串的扩展及新增方法
  7. OneNote如何修改已有的笔记本为默认的快速笔记?
  8. 用原生js制作一个动态简历(多动症简历)及在线预览部署过程
  9. H.264中的SPS和PPS
  10. empty reply from server php,php curl连接返回:Empty reply from server