Python爬虫登录大学官网

通过python登录大学官网（当然首先要有账号密码），内容包括：如何使用chrome查看网页信息和网络请求、分析网站通过js加密用户密码的方式、使用python登录网站。（不同官网的登录方式不尽相同，本文仅供参考）

Python爬虫登录大学官网
- 一、使用Chrome查看网页信息和网络请求
- - 1.1 Element功能模块
  - 1.2 Network功能模块
  - 1.3 Sources功能模块
- 二、分析网站js加密方式
- - 2.1 查找加密函数并设置断点
  - 2.2 用错误密码调试找到所有js加密的代码
- 三、使用python登录网站
- 参考文献：

一、使用Chrome查看网页信息和网络请求

首先打开所要解析的网站，点击F12（要打开Fn）或者右键->检查。本次主要用到Element、Source、Network三个功能。

1.1 Element功能模块

点击Element可以查看网页html源码，点击ctrl+f可以在箭头处中查找源码中的匹配字符等。

1.2 Network功能模块

点击Network可以查看网页与服务器端的交互信息，本文中主要用来查看发送的登录请求。
headers中可查看请求头信息，payload中的From Data查看网页向服务器请求所提交的内容。可以看到请求内容中的password是经过了加密的（输入的测试用错误密码是1234）。

1.3 Sources功能模块

查看网页的组成，包括css、js、image等。左边是网页的源码文件夹（右键可以查找匹配字符串），中间是所选文件的源码区（点击花括号可以格式化源码（pretty print）），右边是调试js代码时所用到的监控区。

二、分析网站js加密方式

2.1 查找加密函数并设置断点

查找加密方式简单粗暴的方式就是直接在文件夹中查找“encrypt”（加密）。找到响应的函数，并点击该行js代码设置断点。

2.2 用错误密码调试找到所有js加密的代码

设置完断点之后，输入错误密码，点击登录。程序会在断点处停止，右上角（或者左下角）控制调试区分别是继续运行、跳过下个函数、进入下个函数、跳出当前函数、逐步运行。通过call stack可以看到函数的调用次序。

查看调用栈的函数，发现最顶层函数_etd2中参数就是输入的密码，另一个参数是pwdDefaultEncryptSalt（在html文件中查找字符串可以发现就在html中获取）。通过调用栈右侧可以看到加密用到的js文件。

在这个js文件中查找etd2便可找到该函数的定义，在该函数中设置断点并继续运行。进入这个函数后逐步运行发现该函数返回值像是请求中的密码。记录这个返回值。

点击继续运行，js代码运行完了，网页显示密码错误（因为输入的是错误的密码）。在network中查看login请求中的payload中的password值，发现与刚才的返回值相同，所以etd2就是用来加密的最顶层js函数。至此已经完全找到了加密的js代码，可以将加密所用的js文件保存下来，用python调用js代码（当然需要稍加修改，具体可以看渗透测试-python破解前端js加密
）etd2函数获取返回值。

三、使用python登录网站

这部分暂时没写，我的，在参考文献里有如何使用python运行js并且通过session登录网页，有兴趣可以自己看看。

参考文献：

python3下使用requests实现模拟用户登录 —— 基础篇（马蜂窝）
python3下使用requests模拟用户登录 —— 中级篇（百度云俱乐部）
python版 —— 验证码校验打码兔平台的使用介绍
一次完整的渗透测试流程
渗透测试-python破解前端js加密
获取请求中的It，dllt