爬虫中的User-Agent和IP代理
爬虫中的User-Agent和IP代理
一、User-Agent
按照百度百科的解释:User-Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。网站可以通判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面,对于爬虫来说,UA就是标明身份的第一层标识。
以谷歌浏览器为例,Chrome的User-Agent为:
Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36
快速获取浏览器的User-Agent的方法也很简单,只需要在地址栏中输入:about:version即可。
当我们使用爬虫请求网页时,我们不伪装请求头,以http://www.httpbin.org/get为例,使用requests的GET直接请求,得到如下结果:
可以看到,User-Agent直接显示为requests的版本号,接下来我们加入User-Agent试试。
很清楚的看到,User-Agent已经被替换成浏览器的标识了,而我们使用爬虫时也大多会带上这个请求头,但这只是一个User-Agent,也很容易被网站通过相同浏览器频繁访问而识别为爬虫程序,所以一般通过使用多个User-Agent随机调用的方式,避免一个请求头长时间访问。
当然User-Agent只是第一步,基本上大家在写爬虫的时候都会带上请求头,配合上ip代理使用的话,爬虫的伪装能力就会大大增强了。
二、IP代理
在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。
如果你一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip的问题。
通常情况下,爬虫用户自己是没有能力去自己维护服务器或者是自己搞定代理ip的问题的,一来是因为技术含量太高,二来是因为成本太高。
当然,也有很多人会在网上放一些免费的代理ip,但是从实用性、稳定性以及安全性来考虑,不推荐大家使用免费的ip。网上公布的代理ip不一定是可用的,很可能你在使用过程中会发现ip不可用或者已失效的情况。
所以现在,许许多多的代理服务器应运而生,基本都能提供ip代理的服务,区别在于价格和有效性。
现在,爬虫程序怎么样安全躲避防爬程序,可以说是一个很普遍的需求了。
爬虫中的User-Agent和IP代理相关推荐
- 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...
前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...
- Python爬虫:制作一个属于自己的IP代理模块
Python爬虫:制作一个属于自己的IP代理模块 Python爬虫常常会面临自己ip地址被封的情况,也许不懂的读者就只能等ip解封之后再进行接下来的操作了,为什么自己不做一个Python模块专门用于处 ...
- Python爬虫:制作一个属于自己的IP代理模块2
Python爬虫:制作一个属于自己的IP代理模块2 小编前些日子写了一篇关于IP代理模块的博客(Python爬虫:制作一个属于自己的IP代理模块 ),但是那个还需要改进,今天小编改进了一下那个模块,爬 ...
- 采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET
采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET undefined
- 爬虫利器:Python获取免费IP代理
由于现在很多网站都有反爬虫机制,同一个ip不能频繁访问同一个网站,这就使得我们在进行大量数据爬取时需要使用代理进行伪装,本博客给出几个免费ip代理获取网站爬取ip代理的代码,可以嵌入到不同的爬虫程序中 ...
- Python爬虫之利用xpath爬取ip代理网站的代理ip
爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...
- Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片
Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...
- 如何制作一个自己的IP代理池
开始前的准备 注:在开始完成这个项目之前,需要懂一些简单的爬虫知识和tkinter的界面相关知识,不过这些相关的内容,博主也会通过链接的方式,在其他文章内对其进行详细描述,手把手教你完成一个IP代理池 ...
- csdn-爬虫 ip代理
1 .WebCollector java爬虫使用笔记 2 .网络爬虫技术浅析 3 .Python简单抓取原理引出分布式爬虫 4 .定向网页爬虫经验总结 5 .爬虫之刃--赶集网招聘类爬取案例详解(系列 ...
- python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份
本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...
最新文章
- NLP专题论文解读:从Chatbot、NER到QA系统...
- 分布式单点登录框架XXL-SSO
- win10操做系统恢复操做
- 复杂sql 查询编写方法_学习SQL:如何编写复杂的SELECT查询
- HDOJ 2050 折线分割平面
- Spring Batch的事务-Part 1:基础
- HDU3954 线段树(区间更新 + 点更新)
- testlink批量执行用例
- c语言解决约瑟夫问题,C语言解决约瑟夫问题详解的代码
- 目前三款国内最靠谱最良心的杀毒软件推荐 | 国内杀毒软件哪个好用?威航软件园诚意推荐这三个
- 服务机器人工程师(ROS)要求汇总220331
- meaven install提示系统资源不足
- SAP Local WebIDE Access denied
- Oracle语句(持续更新)
- 人工智能如何与教育结合,人工智能对教育的影响
- 爬微医挂号网并把数据导入oracle数据库
- 园林工程计算机教程,园林设计全攻略电子教程第1章 园林设计与计算机制图.ppt...
- 生成百度网盘可折叠目录树教程 百度网盘html可折叠目录树
- Week Of Code 28
- 黑马程序员 — HTML
热门文章
- rosrun rqt_graph rqt_graph报警:AttributeError: ‘ElementTree‘ object has no attribute ‘getiterator‘
- 安卓开源画图app“MK画图”增加水印功能,呵呵
- 区块链相关专业术语集合
- mix3信号测试软件,小米MIX3三大绝招保证信号质量,实测下来还优于iPhone XS Ma
- 拼多多服务端研发工程师笔试
- 谈谈Unity对于手柄的支持
- html页面排版div,divcss网页布局模板
- Power 520六种硬盘背板的介绍
- 百度、阿里巴巴、腾讯等18家名企2016年校招计划出炉
- 2022年软件水平考试(高级)考前冲刺题及答案