python爬虫浏览器伪装和设置代理ip

1.python爬虫浏览器伪装

#导入urllib.request模块
import urllib.request#设置请求头
headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")#创建一个opener
opener=urllib.request.build_opener()
#将headers添加到opener中
opener.addheaders=[headers]
#将opener安装为全局
urllib.request.install_opener(opener)#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

2.python使用代理ip

#定义代理ip，多个代理ip，随机使用
iplist = ['219.223.251.173:3128','203.174.112.13:3128','122.72.18.34:80']
#设置代理
proxy=urllib.request.ProxyHandle({'http':iplist[random.randint(0,len(iplist))]})#创建一个opener
opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandle)
#将opener安装为全局
urllib.request.install_opener(opener)#用urlopen打开网页
data=urllib.request.urlopen(url).read().decode('utf-8','ignore')

3.python同时设置代理ip和浏览器模拟

'''
使用代理访问
'''
import urllib.request
import randomurl = 'http://www.whatismyip.com.tw'
#创建一个iplist，随机使用ip
iplist = ['219.223.251.173:3128','203.174.112.13:3128','122.72.18.34:80']#创建一个代理opener
proxy_support = urllib.request.ProxyHandler({'http':iplist[random.randint(0, len(iplist))]})opener = urllib.request.build_opener(proxy_support)
#添加浏览器的伪装头部
opener.addheaders = [('User-Agent','Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:58.0) Gecko/20100101 Firefox/58.0')]#使用代理opener访问url
response = opener.open(url)html = response.read().decode('utf-8')
print(html)

python爬虫浏览器伪装和设置代理ip相关推荐

Python爬虫热点项目之实现代理IP池（IP proxy pool）
代理池概述代理池就是由多个稳定可用代理IP组成的池子.用来应对ip反爬,而网上的免费代理稳定可用的极少,更有甚者连收费的也不都是稳定可用. 开发环境: windous,python3,sublime ...
Python 爬虫浏览器伪装技术
浏览器伪装技术实战 1 网站常见的反爬虫和应对方法一般网站从三个方面反爬虫:用户请求的Headers,用户行为,网站目录和数据加载方式. 前两种比较容易遇到,大多数网站都从这些角度来反爬虫.第三种一 ...
python爬虫隐藏身份及设置代理
User-Agent 当我们使用爬虫访问各大网站时,可能会被网站发现访问者只是一段python写出的代码,从而拒绝我们的访问,如果想要解决这个问题,我们可以去修改user-agent. 首先,我们需要 ...
Python爬虫简单运用爬取代理IP
功能1: 爬取西拉ip代理官网上的代理ip 环境:python3.8+pycharm 库:requests,lxml 浏览器:谷歌 IP地址:http://www.xiladaili.com/gaon ...
Python爬虫：爬取免费代理ip
之前写的几个爬虫都只能爬取到少量的信息,这是由于一个ip频繁地访问网站,会被认定为非正常的爬虫从而被屏蔽,这时候就需要使用代理ip来访问网站了,具体方法就是在发送request时添加一个proxy参数 ...
python爬虫：批量抓取代理ip，进行验证，抓取豆瓣网站影视信息
本文作为学习笔记参考用: [1]批量抓取代理ip: 找到第三方ip代理的网站,进行分析,并批量抓取,抓取程序放到Proxies_spider.py中,如下所示: import re import re ...
python爬虫2.0.5ProxyIpPool---proxies使用代理IP
代理IP定义:代替你原来的IP地址去对接网络的IP地址作用:隐藏自身真是IP,避免被目标网站封掉.代理IP分类: 高匿代理:web端只能看到代理IP 普通代理:web端知道有人通过此代理IP访问,但 ...
python爬虫时如何知道是否代理ip伪装成功
有时候我们的爬虫程序添加了代理,但是我们不知道程序是否获取到了 ip,尤其是动态转发模式的,这时候就需要进行检测了,以下是一种代理是否伪装成功的检测方式,这里推介使用亿牛云提供的代码示例. Pytho ...
python爬虫浏览器伪装
一些网站会设置一些反爬策略来限制爬取数据,所以就需要让爬虫伪装成浏览器取爬取数据常见的反爬机制主要有,分析用户请求的Headrest信息反爬.检测用户行为比如同一IP频繁访问网站.页面的动态加载反爬 ...

python爬虫浏览器伪装和设置代理ip

python爬虫浏览器伪装和设置代理ip相关推荐

最新文章

热门文章