爬虫中的User-Agent和IP代理

一、User-Agent

按照百度百科的解释:User-Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。网站可以通判断 UA 来给不同的操作系统、不同的浏览器发送不同的页面,对于爬虫来说,UA就是标明身份的第一层标识。

以谷歌浏览器为例,Chrome的User-Agent为:

Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36

快速获取浏览器的User-Agent的方法也很简单,只需要在地址栏中输入:about:version即可。

当我们使用爬虫请求网页时,我们不伪装请求头,以http://www.httpbin.org/get为例,使用requests的GET直接请求,得到如下结果:

可以看到,User-Agent直接显示为requests的版本号,接下来我们加入User-Agent试试。

很清楚的看到,User-Agent已经被替换成浏览器的标识了,而我们使用爬虫时也大多会带上这个请求头,但这只是一个User-Agent,也很容易被网站通过相同浏览器频繁访问而识别为爬虫程序,所以一般通过使用多个User-Agent随机调用的方式,避免一个请求头长时间访问。

当然User-Agent只是第一步,基本上大家在写爬虫的时候都会带上请求头,配合上ip代理使用的话,爬虫的伪装能力就会大大增强了。

二、IP代理

在爬虫的过程中,我们经常会遇见很多网站采取了防爬取技术,或者说因为自己采集网站信息的强度和采集速度太大,给对方服务器带去了太多的压力。

如果你一直用同一个代理ip爬取这个网页,很有可能ip会被禁止访问网页,所以基本上做爬虫的都躲不过去ip的问题。

通常情况下,爬虫用户自己是没有能力去自己维护服务器或者是自己搞定代理ip的问题的,一来是因为技术含量太高,二来是因为成本太高。

当然,也有很多人会在网上放一些免费的代理ip,但是从实用性、稳定性以及安全性来考虑,不推荐大家使用免费的ip。网上公布的代理ip不一定是可用的,很可能你在使用过程中会发现ip不可用或者已失效的情况。

所以现在,许许多多的代理服务器应运而生,基本都能提供ip代理的服务,区别在于价格和有效性。

现在,爬虫程序怎么样安全躲避防爬程序,可以说是一个很普遍的需求了。

爬虫中的User-Agent和IP代理相关推荐

  1. 免费IP代理池定时维护,封装通用爬虫工具类每次随机更新IP代理池跟UserAgent池,并制作简易流量爬虫...

    前言 我们之前的爬虫都是模拟成浏览器后直接爬取,并没有动态设置IP代理以及UserAgent标识,这样很容易被服务器封IP,因此需要设置IP代理,但又不想花钱买,网上有免费IP代理,但大多都数都是不可 ...

  2. Python爬虫:制作一个属于自己的IP代理模块

    Python爬虫:制作一个属于自己的IP代理模块 Python爬虫常常会面临自己ip地址被封的情况,也许不懂的读者就只能等ip解封之后再进行接下来的操作了,为什么自己不做一个Python模块专门用于处 ...

  3. Python爬虫:制作一个属于自己的IP代理模块2

    Python爬虫:制作一个属于自己的IP代理模块2 小编前些日子写了一篇关于IP代理模块的博客(Python爬虫:制作一个属于自己的IP代理模块 ),但是那个还需要改进,今天小编改进了一下那个模块,爬 ...

  4. 采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET

    采集爬虫中,解决网站限制IP的问题? - wendi_0506的专栏 - 博客频道 - CSDN.NET undefined

  5. 爬虫利器:Python获取免费IP代理

    由于现在很多网站都有反爬虫机制,同一个ip不能频繁访问同一个网站,这就使得我们在进行大量数据爬取时需要使用代理进行伪装,本博客给出几个免费ip代理获取网站爬取ip代理的代码,可以嵌入到不同的爬虫程序中 ...

  6. Python爬虫之利用xpath爬取ip代理网站的代理ip

    爬虫工具 python3 pycharm edge/chrome requests库的用法 requests库是python中简单易用的HTTP库 用命令行安装第三方库 pip install req ...

  7. Python爬虫:运用多线程、IP代理模块爬取百度图片上小姐姐的图片

    Python爬虫:运用多线程.IP代理模块爬取百度图片上小姐姐的图片 1.爬取输入类型的图片数量(用于给用户提示) 使用过百度图片的读者会发现,在搜索栏上输入关键词之后,会显示出搜索的结果,小编想大多 ...

  8. 如何制作一个自己的IP代理池

    开始前的准备 注:在开始完成这个项目之前,需要懂一些简单的爬虫知识和tkinter的界面相关知识,不过这些相关的内容,博主也会通过链接的方式,在其他文章内对其进行详细描述,手把手教你完成一个IP代理池 ...

  9. csdn-爬虫 ip代理

    1 .WebCollector java爬虫使用笔记 2 .网络爬虫技术浅析 3 .Python简单抓取原理引出分布式爬虫 4 .定向网页爬虫经验总结 5 .爬虫之刃--赶集网招聘类爬取案例详解(系列 ...

  10. python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份

    本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下: 运行平台:Windows Python版本:Python3.x IDE:Sublime text3 ...

最新文章

  1. NLP专题论文解读:从Chatbot、NER到QA系统...
  2. 分布式单点登录框架XXL-SSO
  3. win10操做系统恢复操做
  4. 复杂sql 查询编写方法_学习SQL:如何编写复杂的SELECT查询
  5. HDOJ 2050 折线分割平面
  6. Spring Batch的事务-Part 1:基础
  7. HDU3954 线段树(区间更新 + 点更新)
  8. testlink批量执行用例
  9. c语言解决约瑟夫问题,C语言解决约瑟夫问题详解的代码
  10. 目前三款国内最靠谱最良心的杀毒软件推荐 | 国内杀毒软件哪个好用?威航软件园诚意推荐这三个
  11. 服务机器人工程师(ROS)要求汇总220331
  12. meaven install提示系统资源不足
  13. SAP Local WebIDE Access denied
  14. Oracle语句(持续更新)
  15. 人工智能如何与教育结合,人工智能对教育的影响
  16. 爬微医挂号网并把数据导入oracle数据库
  17. 园林工程计算机教程,园林设计全攻略电子教程第1章 园林设计与计算机制图.ppt...
  18. 生成百度网盘可折叠目录树教程 百度网盘html可折叠目录树
  19. Week Of Code 28
  20. 黑马程序员 — HTML

热门文章

  1. rosrun rqt_graph rqt_graph报警:AttributeError: ‘ElementTree‘ object has no attribute ‘getiterator‘
  2. 安卓开源画图app“MK画图”增加水印功能,呵呵
  3. 区块链相关专业术语集合
  4. mix3信号测试软件,小米MIX3三大绝招保证信号质量,实测下来还优于iPhone XS Ma
  5. 拼多多服务端研发工程师笔试
  6. 谈谈Unity对于手柄的支持
  7. html页面排版div,divcss网页布局模板
  8. Power 520六种硬盘背板的介绍
  9. 百度、阿里巴巴、腾讯等18家名企2016年校招计划出炉
  10. 2022年软件水平考试(高级)考前冲刺题及答案