Python抓包并解析json爬虫

在使用Python爬虫的时候,通过抓包url,打开url可能会遇见以下类似网址,打开后会出现类似这样的界面,无法继续进行爬虫:

例如:

需要爬取网页中第二页的数据时,点击F12➡网络(Network)➡XHR,最好点击清除键,如下图:

通过点击“第二页”,会出现一个POST请求(有时会是GET请求),点击POST请求的url,(这里网址以POST请求为例),

如图:

然后复制参数代码

代码展示:

import requests

import json

url = 'https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031130211378497389'

header={

'authority': 'm.ctrip.com',

'method': 'POST',

'path': '/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031130211378497389',

'scheme': 'https',

'accept': '*/*',

'accept-encoding': 'gzip, deflate, br',

'accept-language': 'zh-CN,zh;q=0.9',

'cache-control': 'no-cache',

'content-length': '278',

'content-type': 'application/json',

'cookie': '__utma=1.1986366783.1601607319.1601607319.1601607319.1; __utmz=1.1601607319.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); _RSG=blqD1d4mGX0BA_amPD3t29; _RDG=286710759c35f221c000cbec6169743cac; _RGUID=0850c049-c137-4be5-90b7-0cd67093f28b; MKT_CKID=1601607321903.rzptk.lbzh; _ga=GA1.2.1986366783.1601607319; nfes_isSupportWebP=1; appFloatCnt=8; _gcl_dc=GCL.1601638857.CKzg58XqlewCFQITvAodioIJWw; Session=SmartLinkCode=U155952&SmartLinkKeyWord=&SmartLinkQuary=&SmartLinkHost=&SmartLinkLanguage=zh; Union=OUID=index&AllianceID=4897&SID=155952&SourceID=&createtime=1602506741&Expires=1603111540922; MKT_OrderClick=ASID=4897155952&AID=4897&CSID=155952&OUID=index&CT=1602506740926&CURL=https%3A%2F%2Fwww.ctrip.com%2F%3Fsid%3D155952%26allianceid%3D4897%26ouid%3Dindex&VAL={"pc_vid":"1601607319353.3cid9z"}; MKT_Pagesource=PC; _RF1=218.58.59.72; _bfa=1.1601607319353.3cid9z.1.1602506738089.1602680023977.4.25; _bfi=p1%3D290510%26p2%3D290510%26v1%3D25%26v2%3D24; MKT_CKID_LMT=1602680029515; __zpspc=9.5.1602680029.1602680029.1%232%7Cwww.baidu.com%7C%7C%7C%25E6%2590%25BA%25E7%25A8%258B%7C%23; _gid=GA1.2.1363667416.1602680030; _jzqco=%7C%7C%7C%7C1602680029668%7C1.672451398.1601607321899.1602506755440.1602680029526.1602506755440.1602680029526.undefined.0.0.16.16',

'cookieorigin': 'https://you.ctrip.com',

'origin': 'https://you.ctrip.com',

'pragma': 'no-cache',

'referer': 'https://you.ctrip.com/',

'sec-fetch-dest': 'empty',

'sec-fetch-mode': 'cors',

'sec-fetch-site': 'same-site',

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Safari/537.36'

}

dat = {

"arg": {

'channelType': 2,

'collapseType': 0,

'commentTagId': 0,

'pageIndex': 1,

'pageSize': 10,

'poiId': 75648,

'sortType': 3,

'sourceType': 1,

'starType': 0

},

"head": {

'auth': "",

'cid': "09031117213661657011",

'ctok': "",

'cver': "1.0",

'extension': [],

'lang': "01",

'sid': "8888",

'syscode': "09",

'xsid': ""

}

}

r = requests.post(url, data=json.dumps(dat), headers=header)

s = r.json()

print(s)

运行结果:

然后右击结果,再点击Show as JSON:

最后就会出现目标url的响应信息,就可以进行爬取了!!!

总结

到此这篇关于Python抓包并解析json爬虫的文章就介绍到这了,更多相关Python抓包并解析json爬虫内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客!

python 抓包解析数据_Python抓包并解析json爬虫的完整实例代码相关推荐

  1. python抓包代码_Python抓包并解析json爬虫的完整实例代码

    Python抓包并解析json爬虫FwA免费资源网 在使用Python爬虫的时候,通过抓包url,打开url可能会遇见以下类似网址,打开后会出现类似这样的界面,无法继续进行爬虫:FwA免费资源网 Fw ...

  2. python爬取音乐排行_python爬取网易云音乐热歌榜实例代码

    首先找到要下载的歌曲排行榜的链接,这里用的是: https://music.163.com/discover/toplist?id=3778678 然后更改你要保存的目录,目录要先建立好文件夹,例如我 ...

  3. python爬取下拉列表数据_python 抓取下拉列表控制的表格的所有数据

    目标是抓取所有选项下的表格数据. 用开发者工具查看表格及选项框的构造: 下拉框是 标签组成的,用js实现动态切换,靠selenium很难实现定位和模拟点击. 解决方法:分析页面网络请求流,尝试抓取服务 ...

  4. python保存为mat文件_Python读取mat文件保存为pickle格式的实例代码

    Python使用pickle模块储存对象操作 Python读取mat文件,并保存为pickle格式的方法 这两天在搞Theano,要把mat文件转成pickle格式载入Python. Matlab是把 ...

  5. python判断性别的源代码_python 通过手机号识别出对应的微信性别(实例代码)

    python 通过手机号识别出对应的微信性别,详细代码如下所述: def getGender(self,tel): self.d(resourceId="com.tencent.mm:id/ ...

  6. python怎么通过手机号定位_python 通过手机号识别出对应的微信性别(实例代码)

    python 通过手机号识别出对应的微信性别,具体代码如下所述: def getGender(self,tel): self.d(resourceId="com.tencent.mm:id/ ...

  7. python文件夹自动备份_python实现定时自动备份文件到其他主机的实例代码

    {"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],&q ...

  8. php批量删除例子,php批量删除数据完整实例代码

    php批量删除数据完整实例代码2017-11-11 21:03 网站后台,一般都有相关的数据,以列表的形式来展现,也方便管理. 有些数据,我们可能需要对其批量进行操作,比如删除.更新日期等. 今天小编 ...

  9. fiddler不能抓取浏览器数据_抓包软件 Fiddler 了解一下?

    学会如何抓包,是爬虫的必备技能,甚至可以说,不会抓包就等同于不会爬虫. 那我们怎样抓包呢?如果直接抓取浏览器上的内容,可以直接使用开发者工具进行抓包,但有个局限,只能抓浏览器的,功能也没有多少.还可以 ...

最新文章

  1. matlab 定义string_MATLAB开发自动驾驶第十课-创建用于加载自定义地面真值数据源的类...
  2. @Scheduled(cron=““) spring定时任务时间设置
  3. 阿里云E-HPC赋能制造业仿真云弹性
  4. ASP.NET MVC的生命周期与网址路由
  5. androidbyte数组使用_android byte的用法
  6. docker 删除包含关键字的镜像_30分钟带你轻松掌握Docker原理
  7. 移动应用的一般测试流程和需要注意的测试项
  8. 【B/S】ASP.NET---验证码-生成和切换
  9. 腾讯无人车开进硅谷!建团队、招人才,国内放出商务岗位
  10. kettle的hello world
  11. python之Character string
  12. 供应链金融与区块链01——论文阅读
  13. 【FiddlerScript】利用FiddlerScript抓包保利威下载
  14. 牛客网经典120道Java面试常见题(试题+答案)
  15. 安卓获取指定目录内所有指定文件类型的文件路径和名字
  16. B. A and B
  17. 关于mac系统外接键盘的设置
  18. 阿里云视觉智能API,核心技术一站共享!
  19. Albumentations 中的空间级图像变换
  20. Windows 7 Ultimate with Service Pack 1 (x64)

热门文章

  1. 前端开发App的几种开发方式
  2. java202302java学习笔记第十五天-罗马数字的两种写法2
  3. 外贸SOHO现在怎么结汇?
  4. 错误案例(QPaintDevice: Cannot destroy paint device that is being painted)
  5. redission分布式锁种类
  6. python中可变参数*args_Python-可变参数和关键字参数(*args **kw)
  7. Redis安装详细步骤
  8. graphviz安装教程(2022最新版)初学者适用
  9. 日期计算 节假日 一年有多少天放假
  10. C++远程连接MySQL数据库