本文介绍了Python3网络爬虫之使用User Agent和代理IP隐藏身份,分享给大家,具体如下:

运行平台:Windows

Python版本:Python3.x

IDE:Sublime text3

一、为何要设置User Agent

有一些网站不喜欢被爬虫程序访问,所以会检测连接对象,如果是爬虫程序,也就是非人点击访问,它就会不让你继续访问,所以为了要让程序可以正常运行,需要隐藏自己的爬虫程序的身份。此时,我们就可以通过设置User Agent的来达到隐藏身份的目的,User Agent的中文名为用户代理,简称UA。

User Agent存放于Headers中,服务器就是通过查看Headers中的User Agent来判断是谁在访问。在Python中,如果不设置User Agent,程序将使用默认的参数,那么这个User Agent就会有Python的字样,如果服务器检查User Agent,那么没有设置User Agent的Python程序将无法正常访问网站。

Python允许我们修改这个User Agent来模拟浏览器访问,它的强大毋庸置疑。

二、常见的User Agent

1.Android

Mozilla/5.0 (Linux; Android 4.1.1; Nexus 7 Build/JRO03D) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.166 Safari/535.19

Mozilla/5.0 (Linux; U; Android 4.0.4; en-gb; GT-I9300 Build/IMM76D) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30

Mozilla/5.0 (Linux; U; Android 2.2; en-gb; GT-P1000 Build/FROYO) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1

2.Firefox

Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0

Mozilla/5.0 (Android; Mobile; rv:14.0) Gecko/14.0 Firefox/14.0

3.Google Chrome

Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/27.0.1453.94 Safari/537.36

Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19

4.iOS

Mozilla/5.0 (iPad; CPU OS 5_0 like Mac OS X) AppleWebKit/534.46 (KHTML, like Gecko) Version/5.1 Mobile/9A334 Safari/7534.48.3

Mozilla/5.0 (iPod; U; CPU like Mac OS X; en) AppleWebKit/420.1 (KHTML, like Gecko) Version/3.0 Mobile/3A101a Safari/419.3

上面列举了Andriod、Firefox、Google Chrome、iOS的一些User Agent,直接copy就能用。

三、设置User Agent的方法

先看下urllib.request.Request()

从上图可以看出,在创建Request对象的时候,可以传入headers参数。

因此,想要设置User Agent,有两种方法:

1.在创建Request对象的时候,填入headers参数(包含User Agent信息),这个Headers参数要求为字典;

2.在创建Request对象的时候不添加headers参数,在创建完成之后,使用add_header()的方法,添加headers。

方法一:

创建文件urllib_test09.py,使用上面提到的Android的第一个User Agent,在创建Request对象的时候传入headers参数,编写代码如下:

python爬虫隐藏ip_Python3网络爬虫之使用User Agent和代理IP隐藏身份相关推荐

  1. Python3网络爬虫(四):使用User Agent和代理IP隐藏身份

    运行平台:Windows Python版本:Python3.x IDE:Sublime text3 转载请注明作者和出处:http://blog.csdn.net/c406495762/article ...

  2. Python3网络爬虫使用User Agent和代理IP隐藏身份

    运行平台:Windows  Python版本:Python3.x  IDE:PyCharm3.6 转载自:http://blog.csdn.net/c406495762/article/details ...

  3. Python网络爬虫——1、网络爬虫简介

    什么是网络爬虫 网络爬虫又称网络蜘蛛.网络蚂蚁.网络机器人,它可以自动化浏览网络中的信息,当然浏览信息的时候需要按照我们制定的规则进行,这些规则我们称之为网络爬虫算法.使用Python可以方便的编写出 ...

  4. Python 网络爬虫 001 (科普) 网络爬虫简介

    Python 网络爬虫 001 (科普) 网络爬虫简介 1. 网络爬虫是干什么的 我举几个生活中的例子: 例子一: 我平时会将 学到的知识 和 积累的经验 写成博客发送到CSDN博客网站上,那么对于我 ...

  5. python爬虫设计模式_Python3网络爬虫(一):利用urllib进行简单的网页抓取

    点击蓝色字免费订阅,每天收到这样的好信息 前言:最近有不少粉丝关注本公众号.并且我已经成功开通了流量主同时会赚一点点广告费,我打算每个月把这部分钱拿出来给大家买点书刊,算是给大家一点福利吧.大家想买什 ...

  6. python 爬虫论_Python网络爬虫(理论篇)

    欢迎关注公众号:Python爬虫数据分析挖掘,回复[开源源码]免费获取更多开源项目源码 网络爬虫的组成 网络爬虫由控制节点,爬虫节点,资源库构成. 网络爬虫的控制节点和爬虫节点的结构关系 控制节点(爬 ...

  7. python新闻聚合_基于Python的新闻聚合系统网络爬虫研究

    基于 Python 的新闻聚合系统网络爬虫研究 左卫刚 [摘 要] 摘 要 本研究旨在创建一个能够从不同页面布局中提取数据的开源爬 虫,其中包括网络爬虫. API .网络爬虫调度器以及 Socket ...

  8. python爬虫什么意思-网络爬虫是什么(python爬虫有什么用)

    在这个谈论数据的时代,数据是一件极其重要的事情.我们如何获取完整而全面的数据?这不是一项容易的任务. 如果你想做好大数据分析,光靠自己的努力或外围数据是远远不够的,你需要依靠"神秘的外力&q ...

  9. 爬虫分类——通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫

    爬虫分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫.聚焦网络爬虫.增量式网络爬虫.深层网络爬虫. 实际的网络爬虫系统通常是几种爬虫技术相结合实现的 通用网络爬虫 通用网络 ...

最新文章

  1. CentOS 6.5+Nagios4.0.2+Msmtp+Mutt邮箱报警
  2. 算法与数据结构--数组和链表的区别
  3. PHP语言Yii框架,Yii框架多语言站点配置方法分析【中文/英文切换站点】
  4. 数据结构---平衡二叉树
  5. Bourbon: 让你的sass更简洁
  6. Ubuntu10.04制作官方源镜像以及搭建本地源
  7. mysql 远程安装linux命令,Linux mysql命令安装允许远程连接的安装设置方法
  8. SQL Server数据库安装和使用
  9. idea提示不区分大小写,解决方法
  10. table多行表头合并 vue_vue elementUI table 自定义表头和行合并的实例代码
  11. python实训报告pygame_20192418 2019-2020-2 《Python程序设计》实验4报告
  12. vue上传图片时,console.log()图片信息遇到的坑
  13. 粉笔画粉笔字体样式_20多种很棒的粉笔字体可供下载
  14. 334个地级市名单_2016年最新中国地级市名单
  15. webSocket和http长连接短连接
  16. 笔记本装服务器系统 无线网卡无法驱动,笔记本无线驱动,小编教你无线网卡驱动怎么安装...
  17. Java Math类方法介绍之史上最全
  18. Xshell实现windows上传文件到Linux系统
  19. 湖北省中小学网络考试中心 html,中小学教师资格网登录入口|ie浏览器
  20. 说说“腰椎间盘突出”的恢复和初步治疗

热门文章

  1. 边缘检测中非极大值抑制简单解释
  2. 数字图像处理实验四图像频域增强
  3. Android之WebView学习
  4. 【每日SQL打卡】​​​​​​​​​​​​​​​DAY 25丨求团队人数【难度中等】​
  5. Python3 函数注释: 参数 中 的 冒号 与 箭头
  6. java调用shell脚本并传递参数
  7. web.config 指定的默认页失效
  8. 机加工程序工时程序_准终工时、人工工时、机器工时,十个工程师九个会弄错...
  9. db服务器作用,数据库服务器
  10. 外设驱动库开发笔记23:AT24Cxx外部存储器驱动