python伪造浏览器请求头_Python3 伪装浏览器的方法示例
一、伪装浏览器
对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。
具体实现:自定义网页请求报头。
二、使用Fiddler查看请求和响应报头
打开工具Fiddler,然后再浏览器访问“https://www.douban.com/”,在Fiddler左侧访问记录中,找到“200 HTTPS www.douban.com”这一条,点击查看其对应的请求和响应报头具体内容:
三、访问豆瓣
我们自定义请求报头与上图Request Headers相同内容:
'''''
伪装浏览器
对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。
所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。
具体实现:自定义网页请求报头。
'''
#实例二:依然爬取豆瓣,采用伪装浏览器的方式
import urllib.request
#定义保存函数
def saveFile(data):
path = "E:\\projects\\Spider\\02_douban.out"
f = open(path,'wb')
f.write(data)
f.close()
#网址
url = "https://www.douban.com/"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/51.0.2704.63 Safari/537.36'}
req = urllib.request.Request(url=url,headers=headers)
res = urllib.request.urlopen(req)
data = res.read()
#也可以把爬取的内容保存到文件中
saveFile(data)
data = data.decode('utf-8')
#打印抓取的内容
print(data)
#打印爬取网页的各类信息
print(type(res))
print(res.geturl())
print(res.info())
print(res.getcode())
四、输出的结果结果(截取部分)
结果文件内容
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。
python伪造浏览器请求头_Python3 伪装浏览器的方法示例相关推荐
- python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例
Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...
- python伪装浏览器爬取网页图片_【IT专家】python 分别用python2和python3伪装浏览器爬取网页内容...
本文由我司收集整编,推荐下载,如有疑问,请与我司联系 python 分别用 python2 和 python3 伪装浏览器爬取网页内容 2017/07/06 1 python 网页抓取功能非常强大,使 ...
- Squid 代理服务器 编译源码 伪造HTTP_X_FORWARDED_FOR 请求头
本实验操作系统选用 CentOS release 5.6 (Final) 实验目的实现 Squid 代理服务器 编译源码 伪造HTTP_X_FORWARDED_FOR 请求头 .使其显示任意IP 过 ...
- 用python实现websocket请求遇到的问题及解决方法。
用python实现websocket请求遇到的问题及解决方法. 参考文章: (1)用python实现websocket请求遇到的问题及解决方法. (2)https://www.cnblogs.com/ ...
- python伪造浏览器请求头_python浏览器伪装
https://www.jb51.net/article/139587.htm python爬虫浏览器伪装 1. #导入urllib.request模块 import urllib.request # ...
- python 爬虫 伪装浏览器_python爬虫之伪装浏览器
问题描述:File "D:\python\Lib\httplib.py", line 417, in _read_status raise BadStatusLine(line) ...
- 杂谈——常用的浏览器请求头User - Agent大全
欢迎关注WX公众号:[程序员管小亮] 如果急需使用的话,直接用目录调到后面即可:如果不是急需使用的话,可以看看基础. 目录 欢迎关注WX公众号:[程序员管小亮] 一.基础 二.代码 三.第三方库 参考 ...
- 认识浏览器请求头User-Agent
一.定义 User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA. 它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本.操 ...
- Python 爬虫 Request(请求头)和Response(响应头)的 内容详解 【爬虫资料二】
Resquest请求头[以访问知乎]为例(使用Fiddler抓的包) 请求行包含的信息: 请求的方法(POST) #其他的方法还有GET.HEAD.PUT.DELETE.OPTIONS.TRACE ...
最新文章
- git 下载 安装
- php异常处理技术,顶级异常处理器
- Halcon模板轮廓坐标点获取
- sublime配置随笔提示
- 软件工程的实践项目课程的自我目标
- 输出两个文件中不同/相同的行
- solaris linux nfs,solaris 10 nfs服务配置
- JavaScript中语句与函数的执行辨析
- 使用will和would来提出请求_42
- 【免费下载】2022年1月热门报告盘点(附热门报告列表及下载链接)
- pytorch 入门学习加载数据集-8
- javacore分析工具_线上死锁定位分析
- celery 可视化_Celery部署爬虫(三)
- QT所有版本和VS插件下载
- 清除各个浏览器保存的账号密码信息
- Chrome 插件收集
- 常系数非齐次线性微分方程和非齐次方程组的特解和齐次解的关系
- 一个点击率10万+的恶搞程序送给大家!
- 一个复杂页面该如何布局设计
- 2022年长沙市成人高考疫情防控政策
热门文章
- 以MATLAB的方式实现微积分问题的计算机求解问题及解决方案集锦(一)
- tableau实战系列(三十)- 多细节层次(LOD) 计算产品销售周期延申表达式详解
- Windows上搭建Python安装包MySQLdb
- 深度学习100例 | 第51天-目标检测算法(YOLOv5)(入门篇)
- 如何打开CMD命令行
- 如何在tensorflow2环境运行tensorflow1代码
- Scalable, Distributed Systems Using Akka, Spring Boot, DDD, and Java--转
- Java泛型总结--转
- lvs为何不能完全替代DNS轮询--转
- spring mvc DispatcherServlet详解之四---视图渲染过程