授人以鱼不如授人以渔

爬虫教程千千万,总觉得市面的教程很少教到精髓。 这一期做一个本地扫码登陆获取Session的爬虫。

开始实战

PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

python免费学习资料以及群交流解答点击即可加入

准备工作

我们的目标是能够将QQ音乐的扫码登陆在本地执行。 也就是保存登陆二维码到本地,弹出二维码,若登陆成功后删除二维码,保留登陆信息。

我们首先写出显示二维码函数、删除二维码函数、保存二维码函数。

编写代码

import sys
import os
import subprocess
'''用于在不同OS显示验证码'''
def showImage(img_path):try:if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])else: os.startfile(img_path)except:from PIL import Imageimg = Image.open(img_path)img.show()img.close()'''验证码验证完毕后关闭验证码并移除'''
def removeImage(img_path):if sys.platform.find('darwin') >= 0:os.system("osascript -e 'quit app \"Preview\"'")os.remove(img_path)'''保存验证码图像'''
def saveImage(img, img_path):if os.path.isfile(img_path):os.remove(img_path)fp = open(img_path, 'wb')fp.write(img)fp.close()

抓取二维码下载链接

进入QQ空间后打开F12开发者工具,将登陆按钮点开弹出登陆框。

我们首先先获取我们的图片信息,点开Img选项里面往下拉,找到二维码的网页链接。

点开Headers查看获取该图片需要什么链接:

  • 首先是个GET请求(Request Method中查看)

  • 其次URL为https://ssl.ptlogin2.qq.com/ptqrshow(问号前的网址为根部URL,问号后为参数)

再看看该二维码网站需要的参数:

  • appid: 716027609

  • e: 2

  • l: M

  • s: 3

  • d: 72

  • v: 4

  • t: 0.07644951044008197

  • daid: 383

  • pt_3rd_aid: 100497308

为了保证每次使用的正确性,我们进行多次刷新查看,

  • appid: 716027609

  • e: 2

  • l: M

  • s: 3

  • d: 72

  • v: 4

  • t: 0.7970151752745949

  • daid: 383

  • pt_3rd_aid: 100497308

我们发现变化的参数只有一个 t 参数,研究研究 t 参数能不能正常访问。 打开postman工具,新建一个requests查询将url和params给进去发现正常获得二维码。

那我们暂且认为 t 参数并不是一个加密参数,姑且当 在0到1之间的随机数 带入。 t 参数转变 Python 语法为random.random()

编写代码

## 伪代码
self.cur_path = os.getcwd()
params = {'appid': '716027609','e': '2','l': 'M','s': '3','d': '72','v': '4','t': str(random.random()),'daid': '383','pt_3rd_aid': '100497308',
}
response = self.session.get(self.ptqrshow_url, params=params)
saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))
showImage(os.path.join(self.cur_path, 'qrcode.jpg'))

登陆抓包准备

为了防止包过多,我们将曾经抓到的包清除掉并点回ALL界面。

点击登陆跳转,但此时我们需要查看数据包的状态,因为你登陆之后会出现302跳转现象,如果不截止抓包的话跳转后数据包将会清空。

我们首先要了解标红的两个按钮作用

  • 左上角按钮能够控制浏览器的抓包状态,如果将它点为灰色的话,浏览器将停止抓包固定住抓包的数量和位置并不会清空。

  • 其次按钮为改变浏览器的运行速率,如果出现网速过快现象使得抓包来不及按,我们可以将前后端发送速率改为缓慢3G网速,这样就能轻松点到截止抓包了。(手速慢才会用这个,比如我)

我们拦截到这些登陆包,一个个寻找登陆所需要的主要包。 关于登陆包只有一个URL为https://ssl.ptlogin2.qq.com/ptqrlogin 参数为:

  • u1: https://graph.qq.com/oauth2.0/login_jump

  • ptqrtoken: 1506487176

  • ptredirect: 0

  • h: 1

  • t: 1

  • g: 1

  • from_ui: 1

  • ptlang: 2052

  • action: 1-0-1607136616096

  • js_ver: 20102616

  • js_type: 1

  • login_sig:

  • pt_uistyle: 40

  • aid: 716027609

  • daid: 383

  • pt_3rd_aid: 100497308

继续多次访问,我们发现ptqrtoken、action、login_sig是可变的。 根据长度与16开头的字符串可变,盲猜action变量第三位为时间戳的倍数。 随意打开一个时间戳网址丢入该变量参数,发现扩大了一千倍。 action变量用Python编写为'action': '0-0-%s' % int(time.time() * 1000)

棘手的可变加密参数

第一个参数

我们正常打开该开发者窗口,准备查找加密参数位置。

点击Initiator 表盘,在这里我们能够找到每个参数来源,直接点入第一个loadScript之中。

我们发现我们获得了一串未格式化Javascript代码。 随意打开一个在线格式化的网站,将全部代码格式化之后在线查询一下加密参数在这里是经历了什么加密。

params.ptqrtoken=$.str.hash33($.cookie.get("qrsig"))
pt.ptui.login_sig=pt.ptui.login_sig||$.cookie.get("pt_login_sig");

我们获得了这俩加密参数的来源,看来都是关于cookie的加密。

  • ptqrtoken参数需要获取cookie中的qrsig键的值信息后经过hash33加密处理。

  • login_sig参数需要获取cookie中的pt_login_sig键的值信息即可。

既然找到加密的位置了,那我们就开始寻找cookie了。 出现这两个参数的可能地方并不多,我们不需要每个返回结果都需要看。

  • 一个是点击登陆按钮出现弹窗那一刻有可能出现该参数。

  • 一个是弹出二维码或QQ登陆信息时有可能出现该参数。

重新刷新后找到弹出登陆框的返回信息。 是个GET请求,URL为https://xui.ptlogin2.qq.com/cgi-bin/xlogin

参数为:

  • appid: 716027609

  • daid: 383

  • style: 33

  • login_text: 授权并登录

  • hide_title_bar: 1

  • hide_border: 1

  • target: self

  • s_url: https://graph.qq.com/oauth2.0/login_jump

  • pt_3rd_aid: 100497308

  • pt_feedback_link: https://support.qq.com/products/77942?customInfo=.appid100497308

为了保险,多次刷新查看是否含有另外的加密参数。 幸好幸好,都是正常死参数,好的直接访问。

编写代码

session = requests.Session()
params = {'appid': '716027609','daid': '383','style': '33','login_text': '授权并登录','hide_title_bar': '1','hide_border': '1','target': 'self','s_url': 'https://graph.qq.com/oauth2.0/login_jump','pt_3rd_aid': '100497308','pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',
}
response = session.get('https://xui.ptlogin2.qq.com/cgi-bin/xlogin?', params=params)
cookie = session.cookies
print(cookie)
### 为了好看在这里我给全都拆开看了。
# -> <RequestsCookieJar[
# -> <Cookie pt_clientip=1c1e24098914080000b07d1bd433ca8b619275ff for .ptlogin2.qq.com/>,
# -> <Cookie pt_guid_sig=f1d1eef00c25d5c6c6d8e2e991cb8b4f64bf619e97d242388d48887e4f0f93bf for .ptlogin2.qq.com/>,
# -> <Cookie pt_local_token=49508773 for .ptlogin2.qq.com/>,
# -> <Cookie pt_login_sig=BHH8t2gdwTlUjkRWg9xJ*vKp2v2-okQSrOV1q1QEyg*Z2uAbsqi18eiy*af*rvsb for .ptlogin2.qq.com/>,
# -> <Cookie pt_serverip=8b6a647434394161 for .ptlogin2.qq.com/>,
# -> <Cookie uikey=577ec007b515f37b7134decd61590dac2f03d036848870f20fe81c87cf7d7a95 for .ptlogin2.qq.com/>]>

运行之后,我们发现了pt_login_sig参数,直接字典拿到这个参数命名变量保存起来。

第二个参数 1.获取

既然第一个参数在登陆框内,那么盲猜第二个参数应该就是在二维码中保存着了。 刚才已经拿到了二维码的代码编写。话不多说直接拿cookie

编写代码

session = requests.Session()
params = {'appid': '716027609','e': '2','l': 'M','s': '3','d': '72','v': '4','t': str(random.random()),'daid': '383','pt_3rd_aid': '100497308',
}
response = session.get('https://ssl.ptlogin2.qq.com/ptqrshow?', params=params)
cookie = session.cookies
print(cookie)
# -> <RequestsCookieJar[
# -> <Cookie qrsig=4tlVhzwYo0FHzGeuen5Y-h5reR5cO*HjDyRQXcPedS*7MmOIYRENCN*BwY9JY1dD for .ptlogin2.qq.com/>]>

就一个真好,正好是我们想要的qrsig,使用字典get提取该键的值信息,这个就这么简单的拿到了。

第二个参数hash33加密

我们拿到的这个加密参数并不是可以直接给入代码中的,我们还得获得该hash33加密的东西才可以。 点击Search后搜索hash33查询。只有一个信息点进去查找该代码。

hash33加密算法Javascript版:

hash33: function hash33(str) {var hash = 0;for (var i = 0, length = str.length; i < length; ++i) {hash += (hash << 5) + str.charCodeAt(i)}return hash & 2147483647
}

编写为Python程序:

'''qrsig转ptqrtoken, hash33函数'''
def __decryptQrsig(self, qrsig):e = 0for c in qrsig:e += (e << 5) + ord(c)return 2147483647 & e

在此,所有的加密均获取,访问登陆URL即可获取session信息。

全部代码

import os,sys,time
import subprocess
import random
import re
import requestsdef showImage(img_path):try:if sys.platform.find('darwin') >= 0: subprocess.call(['open', img_path])elif sys.platform.find('linux') >= 0: subprocess.call(['xdg-open', img_path])else: os.startfile(img_path)except:from PIL import Imageimg = Image.open(img_path)img.show()img.close()def removeImage(img_path):if sys.platform.find('darwin') >= 0:os.system("osascript -e 'quit app \"Preview\"'")os.remove(img_path)def saveImage(img, img_path):if os.path.isfile(img_path):os.remove(img_path)fp = open(img_path, 'wb')fp.write(img)fp.close()class qqmusicScanqr():is_callable = Truedef __init__(self, **kwargs):for key, value in kwargs.items(): setattr(self, key, value)self.info = 'login in qqmusic in scanqr mode'self.cur_path = os.getcwd()self.session = requests.Session()self.__initialize()'''登录函数'''def login(self, username='', password='', crack_captcha_func=None, **kwargs):# 设置代理self.session.proxies.update(kwargs.get('proxies', {}))# 获得pt_login_sigparams = {'appid': '716027609','daid': '383','style': '33','login_text': '授权并登录','hide_title_bar': '1','hide_border': '1','target': 'self','s_url': 'https://graph.qq.com/oauth2.0/login_jump','pt_3rd_aid': '100497308','pt_feedback_link': 'https://support.qq.com/products/77942?customInfo=.appid100497308',}response = self.session.get(self.xlogin_url, params=params)pt_login_sig = self.session.cookies.get('pt_login_sig')# 获取二维码params = {'appid': '716027609','e': '2','l': 'M','s': '3','d': '72','v': '4','t': str(random.random()),'daid': '383','pt_3rd_aid': '100497308',}response = self.session.get(self.ptqrshow_url, params=params)saveImage(response.content, os.path.join(self.cur_path, 'qrcode.jpg'))showImage(os.path.join(self.cur_path, 'qrcode.jpg'))qrsig = self.session.cookies.get('qrsig')ptqrtoken = self.__decryptQrsig(qrsig)# 检测二维码状态while True:params = {'u1': 'https://graph.qq.com/oauth2.0/login_jump','ptqrtoken': ptqrtoken,'ptredirect': '0','h': '1','t': '1','g': '1','from_ui': '1','ptlang': '2052','action': '0-0-%s' % int(time.time() * 1000),'js_ver': '20102616','js_type': '1','login_sig': pt_login_sig,'pt_uistyle': '40','aid': '716027609','daid': '383','pt_3rd_aid': '100497308','has_onekey': '1',}response = self.session.get(self.ptqrlogin_url, params=params)print(response.text)if '二维码未失效' in response.text or '二维码认证中' in response.text:passelif '二维码已经失效' in response.text:raise RuntimeError('Fail to login, qrcode has expired')else:breaktime.sleep(0.5)removeImage(os.path.join(self.cur_path, 'qrcode.jpg'))# 登录成功qq_number = re.findall(r'&uin=(.+?)&service', response.text)[0]url_refresh = re.findall(r"'(https:.*?)'", response.text)[0]response = self.session.get(url_refresh, allow_redirects=False, verify=False)print('账号「%s」登陆成功' % qq_number)return self.session'''qrsig转ptqrtoken, hash33函数'''def __decryptQrsig(self, qrsig):e = 0for c in qrsig:e += (e << 5) + ord(c)return 2147483647 & e'''初始化'''def __initialize(self):self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36',}self.ptqrshow_url = 'https://ssl.ptlogin2.qq.com/ptqrshow?'self.xlogin_url = 'https://xui.ptlogin2.qq.com/cgi-bin/xlogin?'self.ptqrlogin_url = 'https://ssl.ptlogin2.qq.com/ptqrlogin?'self.session.headers.update(self.headers)
qq_login = qqmusicScanqr()
session = qq_login.login()

此文转载文。如有侵权联系小编删除!

原作者:꧁༺北海以北的等待༻꧂

爬虫登陆实战 --- QQ音乐扫码登陆!真不难!相关推荐

  1. qq扫码认证登录php,PHP实现第四方QQ微信扫码登陆,不接入qq互联以及微信开发者平台...

    [PHP] 纯文本查看 复制代码<?php class Curl_Api { public $ua = "Mozilla/5.0 (Windows NT 10.0; WOW64) Ap ...

  2. python实战扫码下载_Python实例 一 12306抢票(一)扫码登陆

    一.登陆 采用扫码二维码的方式登陆,就是得下个app..  验证码太烦了,不想搞 1.获取二维码: 先分析二维码一般是一张图片,我们把他下载到本地 来方便扫码 图片还是base64的数据形式 但是我们 ...

  3. 微信扫码登陆/微信公交号 登录PHP 自适应 UnionID统一用户

    <?php namespace Topxia\Component\OAuthClient; /**  * 微信扫码登陆  * Enter description here ...  * @aut ...

  4. java实现PC网站实现微信扫码登陆

    近期,开发一个项目要求PC网站可以进行扫码登陆. 1.前期工作 需要先在微信开放平台进行注册(https://open.weixin.qq.com/),并认证一个网站应用. 点击查看按钮,我们需要记录 ...

  5. 第六天 黑马十次方 用户注册、用户登陆掌握js-cookie、微信扫码登陆、nuxt嵌套路由

    学习目标: ** 完成用户注册功能 完成用户登陆功能,掌握js-cookie的使用 完成微信扫码登陆的功能 完成用户中心嵌套布局,掌握nuxt嵌套路由的使用 ** 1 用户注册 1.1 页面构建 创建 ...

  6. 微信扫码登陆(JAVA)

    在web端用到weChat扫码登录,在手机扫码登陆成功后,跳转到相应的界面. 1.第一步请求code 调用接口:https://open.weixin.qq.com/connect/qrconnect ...

  7. 网页版微信和微信公共号扫码登陆原理分析

    看到知乎上有关于微信扫码登陆原理的讨论.现将自己的分析结果写出来,供大家参考,不正确的地方望指正. 用户打开网页版微信: https://wx.qq.com/,微信为用户生成了一张包含uuid的二维码 ...

  8. 简单解析一下扫码登陆原理,简单到你想不到!

    前言 随着wx的普及对开发同学来说一些业务场景会使用到"扫码登录"功能,特别是PC网页端,在此之前没有这方面的开发经历,所以接到这个需求的时候还是有点慌的,最终通过查阅网上的资料以 ...

  9. nodejs京东接口分析系列-实现京东自动化功能 之 扫码登陆,需要puppeteer

    最近想要实现一个京东扫码登陆和自动下单,自动抢购的功能(ps:实现京东自动化功能), !!!本项目纯属学习性质,禁止商业用途 给大家分享一下我是如何一步步通过分析京东的网站请求,查看京东网站的源代码去 ...

最新文章

  1. python使用openCV图像加载(转化为灰度图像)、Canny边缘检测器检测图像的边缘(Detect Edges)
  2. Python面向对象编程:类继承和其衍生术语
  3. 404未找到是什么意思_为什么老遇上404 not found?你懂的
  4. windows server 2012 添加中文语言包(英文转为中文)(离线)
  5. swift_008(Swift的类型转换)
  6. 浪潮信息英伟达霸榜!MLPerf™最新榜单发布,浪潮信息包揽2021年度近半数冠军...
  7. python第一周小测验_Python第一周小结
  8. retain/copy/assign区别
  9. 独处可以激发思考的力量
  10. 华为云电脑和马云无影比_阿里云打造未来电脑无影,却因为5G限制,很难达到普及...
  11. C语言的新扩展typeof
  12. noip2013day1模拟赛
  13. oracle 建表sql语句,oracle 建表sql语句
  14. 卷积码原理及基本概念
  15. 基于FPGA的LVDS接口设计
  16. 深度学习实战案例:新闻文本分类
  17. 互联网最新创新创业项目
  18. 020.3.25普及C组 母鸡下蛋(hen)【纪中】【模拟】
  19. 理解MVC、MVP、MVVM在干什么,进化的原因。
  20. matlab符号及其运算(1)

热门文章

  1. 三大需求助ROS成为百度自动驾驶车载计算框架
  2. uncaught referenceerror cryptojs is not defined
  3. SOME/IP TP
  4. 阿里及各大企业中台架构详解
  5. 深入.NET平台和C#编程_深入.NET框架
  6. tewa600agm是千兆吗_电信天翼网关光纤猫超级用户 型号tewa-600aem/tewa600agm怎么样?...
  7. GEE:使用 VCT(Vegetation Change Tracker)算法森林进行时序变化检测分析
  8. 必读 四六级考试报名|考试注意|分值比例|时间安排
  9. Android项目开发常用工具类FlowLayout
  10. 候选码mysql_数据库中 码、候选码、主码 的区别