利用浏览器抓包,是爬虫中的很实用的技能。在爬虫编程之前,我们要对抓取的目标页面有所了解,比如浏览器的这个请求这个页面中间都经历了什么,数据是怎么发送和返回的。

抓包的作用

我把抓包分析的作用简单列一下:

分析请求的headers等等,可以加载到你的爬虫中,伪装成浏览器。往往可以躲过简单的反扒策略登录状态获取,如果我们在浏览器中登录,抓包拿到cookies,加到我们的爬虫中,往往就可以绕过登录这道坎,爬虫直接登堂入室,抓取更有价值的数据post请求,例如页面中通过post提交的表单。我们就可以抓包看到请求是每个参数的key和value,key是什么、value有没有编码等等抓接口,抓包往往可以看到服务器返回到浏览器的的响应数据是什么,比如很多页面中的数据,其实是中间经过一次接口的,接口中往往是json数据。这样爬虫就可以直接抓接口,而不是原网页。json数据中比页面解析提取数据来的遍历抓包分析,有时可以绕过有些网站的反扒限制,甚至网站的验证码(极少其概况下啊)···

如何抓包

案例一

浏览器例如Chrome、Firfox都支持抓包,其中Firfox有一个开发者版本 firefox developer edition,更加专业一些,可以安装玩玩看。

我们以Chrome浏览器为例吧,要有一个抓包的页面啊

就这个链接啦:

http://baijiahao.baidu.com/builder/preview/s?id=1601067954790004275

浏览器中输入这个链接,页面空白处,右键“检查”,点击“network”,再次刷新页面,看到如下:

看似访问一个页面,其实中间经过这么多请求。

其中左侧,每一个请求的Headers标签中内容如下四个部分:

GeneralResponse HeaderRequest HeadersQuery其中重点在请求的headers,将里面的数据设置到你的爬虫,就可以伪装爬虫,通常设置Cookie、Host、User-Agent、Referer等。

案例二

post请求的抓包。

有表单的页面,点击提交,抓包可以查看post的数据有哪些,是否对数据编码等

案例三

抓包,获取接口。这个页面http://www.2345.com/corp.htm?innertab想要获取这个页面上的各个行业和相应网址。抓取这个链接,提取页面元素。不论是用正则、xpath、beautifulsoup等等。有更好的办法吗?抓包看看

通过抓包,我们得到接口:http://www.2345.com/js/nvaurllist1202.js?v=8.13.1抓取这个链接进行数据提取,不是比原页面简单些吗。

python爬虫学习之路-抓包分析 就到这里,下次开始初认python的urllib、urllib2、requests,理清楚三者的关系。这里是python2,学习了python2的爬虫开发,python3也不在话下

python 爬虫 包_python爬虫学习之路-抓包分析相关推荐

  1. python集合类型变量_Python小白学习之路(八)—【变量】【基本数据类型分类】【集合】【集合的功能】...

    一.变量 变量的作用:记录状态的变化 变量的值:描述不同的状态 二.五大基本数据类型的分类 五大基本数据类型(数字 字符串 列表 元祖 字典) 按照可变不可变来进行分类 可变:列表.字典 不可变:字符 ...

  2. Python 爬虫,推荐一款简单的抓包工具(续)

    点击上方"AirPython",选择"加为星标" 第一时间关注 Python 原创干货! 1. 前言 上篇文章发布之后,有小伙伴后台私信我,说文章只涉及到手机端 ...

  3. Python 爬虫,推荐一款简单的抓包工具

    点击上方"AirPython",选择"加为星标" 第一时间关注 Python 原创干货! 1. 前言 传统的抓包工具, 如:Fiddler.Charles.Wi ...

  4. 网络爬虫系列(一):chrome抓包分析

    网络爬虫系列(一):chrom抓包分析 1.测试环境 2.网页分析 (1) 网页源代码分析 (2) 网络抓包分析 1.测试环境 浏览器:chrome浏览器 网页分析工具 :开发者工具 2.网页分析 ( ...

  5. 流媒体学习之路(mediasoup)——拥塞控制分析(6)

    流媒体学习之路(mediasoup)--拥塞控制分析(6) 文章目录 流媒体学习之路(mediasoup)--拥塞控制分析(6) 一.TransportCongestionControlClient ...

  6. 基于python的npcap库与dpkt库实现抓包及存储

    基于python的npcap库与dpkt库实现抓包及存储 import pcap import dpkt import socket import sys import getopt import o ...

  7. 安卓逆向学习及APK抓包(二)--Google Pixel一代手机的ROOT刷入面具

    注意:本文仅作参考勿跟操作,root需谨慎,本次测试用的N手Pixel,因参考本文将真机刷成板砖造成的损失与本人无关 1 Google Pixel介绍 1.1手机 google Pixel 在手机选择 ...

  8. linux怎么抓sip包,Ubuntu下使用Wireshark进行抓包分析(含SIP和RTP包)

    遇到需要在Linux下抓包分析的问题,便用到了wireshark,非常强大的抓包分析软件,直接在系统里面安装,然后使用明亮抓包即可! 我这里用的是Ubuntuserver版,执行安装: 1.apt-g ...

  9. Wireshark抓包工具使用教程以及常用抓包规则 ——Powered By 死性不改

    原文地址: http://www.clxp.net.cn/article.asp?id=2288 内容: Wireshark是一个非常好用的抓包工具,当我们遇到一些和网络相关的问题时,可以通过这个工具 ...

最新文章

  1. Kotlinkotlin二进制与十六进制之间的转化
  2. 除了密钥,公有云还有哪些安全保护方式
  3. 使用 FOR XML PATH 合并SQL Server查询结果的重复行
  4. perl 对ENV环境变量的使用
  5. TensorFlow1.0正式发布,AI圈“互怼”那些事儿 | AI科技评论周刊
  6. 原型模式的应用场景_前端常用设计模式
  7. python设计模式pdf_精通Python设计模式 高清晰PDF+源码
  8. 闪回表操作语法+使用闪回删除
  9. 成长 | 《大厂晋升指南》学习总结(下)
  10. 它是真实的“盗梦空间”?在这里,一切都可能是数据
  11. 下一代数据备份方式会是DNA吗?
  12. [JSOI2009]球队收益
  13. linux 正则查找email,linux的正则表达式查找
  14. iframe如何发送请求_如何实现高性能的在线 PDF 预览
  15. 如何显示电脑已连接的WiFi的密码
  16. 3d旋转--transform-style: preserve-3d,translate3d(x,y,z),perspective()
  17. C语言知识体系框架图
  18. 《excel应用大全》(excel home 编著)--学习摘抄笔记2
  19. MC皮肤站和外置登陆教程
  20. codeforces1146G Zoning Restrictions

热门文章

  1. 谈谈对于技术面试的心得体验
  2. 程序员保持身心健康的八种方式
  3. Intellij IDEA Debug调试技巧
  4. 如何将自己的Java项目部署到外网
  5. myeclipse8.5 离线装SVN
  6. Python与MySQL连接
  7. shiro框架的学习
  8. grid - 隐式命名网格线名称
  9. android viewpage预加载和懒加载问题
  10. Polo the Penguin and Matrix