1. 目标网站

网址：

https://match.yuanrenxue.com/match/17

2. 抓包分析

这道题目，叫天杀的http2.0，估计应该是用的http2.0协议。

我们验证一下，打开谷歌浏览器的console输入：window.chrome.loadTimes()

可以看到输出的connectionInfo 和 npnNegotiatedProtocol 是h2就说明使用的是http2。

再把我以前的博客粘一下。

现在的大部分网站都是基于HTTP/1.x协议的，但是还有一小部分是HTTP/2.0的，遇到这样的网站，爬虫的很多常用库都没法用了，目前python 的requests库并不支持http/2.0网站，scrapy2.5.0 即2021.4更新开始支持HTTP2.0，但是官网明确提示，现在是实验性的功能，不推荐用到生产环境，当前 Scrapy 的 HTTP/2.0 实现的已知限制包括：

不支持 HTTP/2.0 明文（h2c），因为没有主流浏览器支持未加密的 HTTP/2.0。
没有用于指定最大帧大小大于默认值 16384 的设置，发送更大帧的服务器的连接将失败。
不支持服务器推送。
不支持bytes_received和 headers_received信号。

关于其他的一些库，也不必多说了，对 HTTP/2.0 的支持也不好，目前对 HTTP/2.0 支持得还可以的有 hyper 和 httpx。
hyper使用参考
HTTPX使用参考

我们这里用hyper库，安装hyper库也很简单，直接pip install hyper就行了。

我们抓包获取数据包的url:

https://match.yuanrenxue.com/api/match/17?page=1

其他没啥需要注意的反爬，我们接下来直接上代码。

3. 编码测试

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author  : 冰履踏青云
# @File    : 17.pyimport jsonpath
import requests
from hyper.contrib import HTTP20Adapterdef get_data(page):url = 'https://match.yuanrenxue.com/api/match/17?page={}'headers= {"User-Agent": "yuanrenxue.project",# 设置我们登陆账号时候的cookie,sessionid必须传 ，否则未登录状态下只可以抓前三页"cookie": "sessionid=13guppo9dxzbdixi3v8wkqzme9473pij"}# 创建session对象，并设置请求头s = requests.session()s.headers = headers# 使用http2.0s.mount('https://match.yuanrenxue.com', HTTP20Adapter())data = s.get(url.format(str(page))).json()values_list = jsonpath.jsonpath(data,"$..value")return values_listif __name__ == '__main__':res_list = []for i in range(1,6):values_list = get_data(i)res_list.extend(values_list)print(res_list,len(res_list))print('所有数字之和为：',sum(res_list))

为便于学习交流草创了一个q群： Python炼丹大师交流群
后端爬虫数据分析机器学习等和python相关的都可以在此畅所欲言
编程资源：编程学习资源传送门

文章到此结束，但愿本文能对你有一点点帮助，欢迎三连，点个赞，收个藏啥的，有问题的尽管砸来，我有故事你有酒，好好交流不分手！下次见！

js逆向系列之猿人学爬虫第17题-天杀的http2.0相关推荐

js逆向系列之猿人学爬虫第13题
文章目录 1. 目标网址 2. 抓包分析 3. 编码测试 1. 目标网址目标网站:猿人学web第13题 2. 抓包分析浏览器打开无痕模式,看第一页数据包: 两个名叫13的包,第二个有数据,是请求了 ...
JS逆向:猿人学爬虫比赛第九题详细题解
实战地址 http://match.yuanrenxue.com/match/9 抓包分析地址栏输入地址,按下F12并回车,浏览器停在这里: 不用理会它,点击下图所示的按钮: 按下F8,让浏览器继 ...
AST反混淆实战:猿人学爬虫比赛第二题详细题解
缘起应星友要求,写下此文,哎,有钱能使鬼推磨. 实战地址: http://match.yuanrenxue.com/match/2 抓包分析由于谷歌浏览器某些请求不会显示,建议使用火狐浏览器来抓包 ...
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆乱码增强(中)
一.备注在阅读此文章前,请先阅读前一篇<[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆乱码增强(上)> 二.找参数来源(二) 在前一篇文章中,我们找出了Cookie ...
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆乱码增强(下)
一.备注在阅读此文章前,请先阅读前两篇 <[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第五题: js混淆乱码增强(上)> <[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第 ...
[007]爬虫系列 | 猿人学爬虫攻防大赛 | 第二题: js 混淆 - 动态Cookie
一.题目链接: <猿人学爬虫攻防大赛 | 第二题: js 混淆 - 动态Cookie> 二.分析按照以往习惯,我们先按F12打开控制台,Network抓包,勾选preserve log ...
猿人学·爬虫逆向高阶课
我跟 virjar 出了一套爬虫课(猿人学·爬虫进阶培训课),包含:安卓逆向抓取.JS 高阶逆向抓取.安卓群控抓取.容器定制化等. 实际上我去年就在做这个爬虫课了,一直没有放到网课平台上公开宣传,但是 ...
【JS逆向系列】某空气质量监测平台无限 debugger 与 python算法还原
[JS逆向系列]某空气质量监测平台无限 debugger 与 python算法还原 1.前置阅读 2.过反调试 3.js分析 4.代码逻辑改写 1.前置阅读样品地址:aHR0cHM6Ly93d3cu ...
【JS逆向系列】某乎x96参数3.0版本与jsvmp进阶
[JS逆向系列]某乎x96参数3.0版本与jsvmp进阶前言初看js代码补环境方案修改字节码方案(反混淆与反汇编) 算法还原后记前言距离上一次的某乎jsvmp也过了好一段时间,现在也从2 ...

js逆向系列之猿人学爬虫第17题-天杀的http2.0

文章目录

1. 目标网站

2. 抓包分析

3. 编码测试

js逆向系列之猿人学爬虫第17题-天杀的http2.0相关推荐

最新文章

热门文章