一、伪装浏览器

对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。

具体实现:自定义网页请求报头。

二、使用Fiddler查看请求和响应报头

打开工具Fiddler,然后再浏览器访问“https://www.douban.com/”,在Fiddler左侧访问记录中,找到“200 HTTPS www.douban.com”这一条,点击查看其对应的请求和响应报头具体内容:

三、访问豆瓣

我们自定义请求报头与上图Request Headers相同内容:

'''''

伪装浏览器

对于一些需要登录的网站,如果不是从浏览器发出的请求,则得不到响应。

所以,我们需要将爬虫程序发出的请求伪装成浏览器正规军。

具体实现:自定义网页请求报头。

'''

#实例二:依然爬取豆瓣,采用伪装浏览器的方式

import urllib.request

#定义保存函数

def saveFile(data):

path = "E:\\projects\\Spider\\02_douban.out"

f = open(path,'wb')

f.write(data)

f.close()

#网址

url = "https://www.douban.com/"

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '

'Chrome/51.0.2704.63 Safari/537.36'}

req = urllib.request.Request(url=url,headers=headers)

res = urllib.request.urlopen(req)

data = res.read()

#也可以把爬取的内容保存到文件中

saveFile(data)

data = data.decode('utf-8')

#打印抓取的内容

print(data)

#打印爬取网页的各类信息

print(type(res))

print(res.geturl())

print(res.info())

print(res.getcode())

四、输出的结果结果(截取部分)

结果文件内容

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持脚本之家。

python伪造浏览器请求头_Python3 伪装浏览器的方法示例相关推荐

  1. python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例

    Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...

  2. python伪装浏览器爬取网页图片_【IT专家】python 分别用python2和python3伪装浏览器爬取网页内容...

    本文由我司收集整编,推荐下载,如有疑问,请与我司联系 python 分别用 python2 和 python3 伪装浏览器爬取网页内容 2017/07/06 1 python 网页抓取功能非常强大,使 ...

  3. Squid 代理服务器 编译源码 伪造HTTP_X_FORWARDED_FOR 请求头

    本实验操作系统选用 CentOS release 5.6 (Final) 实验目的实现 Squid 代理服务器 编译源码 伪造HTTP_X_FORWARDED_FOR  请求头 .使其显示任意IP 过 ...

  4. 用python实现websocket请求遇到的问题及解决方法。

    用python实现websocket请求遇到的问题及解决方法. 参考文章: (1)用python实现websocket请求遇到的问题及解决方法. (2)https://www.cnblogs.com/ ...

  5. python伪造浏览器请求头_python浏览器伪装

    https://www.jb51.net/article/139587.htm python爬虫浏览器伪装 1. #导入urllib.request模块 import urllib.request # ...

  6. python 爬虫 伪装浏览器_python爬虫之伪装浏览器

    问题描述:File "D:\python\Lib\httplib.py", line 417, in _read_status raise BadStatusLine(line) ...

  7. 杂谈——常用的浏览器请求头User - Agent大全

    欢迎关注WX公众号:[程序员管小亮] 如果急需使用的话,直接用目录调到后面即可:如果不是急需使用的话,可以看看基础. 目录 欢迎关注WX公众号:[程序员管小亮] 一.基础 二.代码 三.第三方库 参考 ...

  8. 认识浏览器请求头User-Agent

    一.定义 User Agent中文名为用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA. 它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本.操 ...

  9. Python 爬虫 Request(请求头)和Response(响应头)的 内容详解 【爬虫资料二】

    Resquest请求头[以访问知乎]为例(使用Fiddler抓的包) 请求行包含的信息: 请求的方法(POST)  #其他的方法还有GET.HEAD.PUT.DELETE.OPTIONS.TRACE ...

最新文章

  1. git 下载 安装
  2. php异常处理技术,顶级异常处理器
  3. Halcon模板轮廓坐标点获取
  4. sublime配置随笔提示
  5. 软件工程的实践项目课程的自我目标
  6. 输出两个文件中不同/相同的行
  7. solaris linux nfs,solaris 10 nfs服务配置
  8. JavaScript中语句与函数的执行辨析
  9. 使用will和would来提出请求_42
  10. 【免费下载】2022年1月热门报告盘点(附热门报告列表及下载链接)
  11. pytorch 入门学习加载数据集-8
  12. javacore分析工具_线上死锁定位分析
  13. celery 可视化_Celery部署爬虫(三)
  14. QT所有版本和VS插件下载
  15. 清除各个浏览器保存的账号密码信息
  16. Chrome 插件收集
  17. 常系数非齐次线性微分方程和非齐次方程组的特解和齐次解的关系
  18. 一个点击率10万+的恶搞程序送给大家!
  19. 一个复杂页面该如何布局设计
  20. 2022年长沙市成人高考疫情防控政策

热门文章

  1. 以MATLAB的方式实现微积分问题的计算机求解问题及解决方案集锦(一)
  2. tableau实战系列(三十)- 多细节层次(LOD) 计算产品销售周期延申表达式详解
  3. Windows上搭建Python安装包MySQLdb
  4. 深度学习100例 | 第51天-目标检测算法(YOLOv5)(入门篇)
  5. 如何打开CMD命令行
  6. 如何在tensorflow2环境运行tensorflow1代码
  7. Scalable, Distributed Systems Using Akka, Spring Boot, DDD, and Java--转
  8. Java泛型总结--转
  9. lvs为何不能完全替代DNS轮询--转
  10. spring mvc DispatcherServlet详解之四---视图渲染过程