python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码
1. 实例描述
通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub 网页的模拟登录。
2. 代码实现
在实现 GitHub 网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:
(1) 点击 此处 打开 GitHub 的登录页面,然后输入账号与密码,如下图所示。
(2) 用 F12 或者 鼠标右键单击网页选择 检查 打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in 按钮,此时开发者工具中将显示 GitHub 网页的登录请求过程,重点查找名称为 session 的网络请求。如下图所示。
(3) 单击名称为 session 的网络请求,然后在 Headers 请求信息中主要查看 Request Headers与 Form Data 中的各种信息,其中红框内为重要参数与数据。如下图所示。
说明:Host 为主页面地址,Referer 为当前请求的来源地址。User-Agent 为浏览器的头部信息。Form Data 中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token 为加密字符串,login 为登录的账号,password 为密码,其它参数为静态参数。由于动态参数只有 authenticity_token、login 以及password ,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token 参数所对应的加密字符串。
(4) 在浏览器中退出所登录的 GitHub 账号,返回 GitHub 的登录页面,打开浏览器开发者工具,查看网页的 html 代码,然后在代码中搜索 authenticity_token 关键词,标签内 value 所对应的值为 authenticity_token 参数的加密字符串。如下图所示。
(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session 会话对象发送网络请求获取 authenticity_token 信息,最后通过所有的登陆请求参数实现 GitHub 网页的登陆请求并提取注册号码。具体代码如下:
# -*- coding: utf-8 -*-
# @Time : 2020/5/10 23:25
# @Author : 我就是任性-Amo
# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py
# @Software: PyCharm
# @Blog :https://blog.csdn.net/xw1680
import requests # 导入网络请求模块
from lxml import etree # 导入数据解析模块 都是第三方模块需要安装
# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装
class GitHubLogin(object):
def __init__(self, username, password):
# 构造头部信息
self.headers = {
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "
"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",
"Host": "github.com",
"Referer": "https://github.com/login"
}
self.login_url = "https://github.com/login" # 登录页面地址
self.post_url = "https://github.com/session" # 实现登录的请求地址
self.session = requests.Session() # 创建Session会话对象
self.user_name = username # 用户名
self.password = password # 密码
# 获取authenticity_token信息
def get_token(self):
# 发送登录页面的网络请求
response = self.session.get(self.login_url, headers=self.headers)
if response.status_code == 200: # 判断请求是否成功
html = etree.HTML(response.text) # 解析html
# 提取authenticity_token信息
token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]
# print(token) 测试是否能够获取到token
return token # 返回信息
# 实现登录
def login(self):
# 请求参数
post_data = {
"commit": "Sign in",
"authenticity_token": self.get_token(),
"login": self.user_name,
"password": self.password,
"webauthn - support": "supported"
}
# 发送登录请求
response = self.session.post(self.post_url, headers=self.headers, data=post_data)
if response.status_code == 200: # 判断请求是否成功
html = etree.HTML(response.text) # 解析html
# 获取注册号码
register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]
print(f"注册号码为: {register_number.text}")
else:
print("登录失败")
if __name__ == '__main__':
user_name = input("请输入您的用户名:") # 获取输入的用户名
password = input("请输入您的密码:") # 获取输入的密码
login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码
login.login()
执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:
到此这篇关于Python 通过爬虫实现GitHub网页的模拟登录的示例代码的文章就介绍到这了,更多相关Python GitHub模拟登录内容请搜索python博客以前的文章或继续浏览下面的相关文章希望大家以后多多支持python博客!
python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码相关推荐
- python登录各种网页示例_Python 通过爬虫实现GitHub网页的模拟登录的示例代码
1. 实例描述 通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示.那么该如 ...
- python模拟登录qq账号密码_Python自动登录QQ的实现示例
这是一份来自网络的代码,经过了我的修改和验证. 首先我的运行环境是Python3.7,需要安装PyUserInput库. 直接上代码吧: #!/usr/bin/python import os imp ...
- python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...
区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...
- python如何提取网络链接_Python网络爬虫——把一个网页中所有的链接地址提取出来(去重)...
# 把一个网页中所有的链接地址提取出来. 运行环境Python3.6.4-实现代码:import urllib.request import re #1. 确定好要爬取的入口链接 url = &quo ...
- python支付程序源码_Python提取支付宝和微信支付二维码的示例代码
支付宝或者微信支付导出的收款二维码,除了二维码部分,还有很大一块背景图案,例如下面就是微信支付的收款二维码: 有时候我们仅仅只想要图片中间的方形二维码部分,为了提取出中间部分,我们可以使用图片处理软件 ...
- Python 简易登录系统账号密码检测
# 简易登录系统账号密码检测""" 知识点:1.while 循环语句2.if/elif/else 条件语句 """# 定义变量 s = 3 ...
- python爬虫(四)cookie模拟登录和反反爬案例
处理不被信任证书的网站 SSL证书:数字证书的一种,配置在服务器上面的,类似于驾驶证.护照和营业执照的电子副本.因为配置在服务器上,也称为SSL服务器证书. SSL证书的特点:遵循了SSL协议,由收信 ...
- html页面设置账号密码,html登录界面设置账号密码
html网页设计:一个简单的登录界面代码. 用html代码编写一个简单的登陆界面 登录 jsp作业 登录 登录到jsp作业 Email 密码 记住密码 登录 注册 javascript html 设计 ...
- 如何将网页保存为图片_网页账号密码该如何保存?
我们在使用浏览器浏览一些网页的时候,需要输入我们的账号密码才能登陆,以保证安全.但是有时候浏览网页,不小心关掉了,重新打开时又要重新输入密码,这样会显得很繁琐.那么有什么办法能让 网页记住我们的账号密 ...
最新文章
- 大学学习方法介绍之:使用两套教材
- python【力扣LeetCode算法题库】69-x 的平方根
- 51nod 1092 回文字符串
- 2016 - 2 - 20 ARC知识总结(二 autorelease概念及实现)
- python十大必备知识_学Python必备的基础知识
- 实验报告四201521460014
- PickerView 使用
- 第三集 怪物学院 第十六章
- 有50 家人家,每家一条狗。有一天警察通知
- 硬件设计之一——电源设计05:过电流能力
- CSAPP lab2 经典的bomblab二次学习
- git分支开发练习以及创建文件提交到版本库
- MATLAB实现模拟推导π的值
- Golang 结构体
- Python-turtle绘画旅程第二站:Hello Kitty
- 一般3d模型代做多少钱_3d打印一个模型多少钱
- C++实现rviz 2D Pose Estimate 功能设置机器人初始坐标
- 安装ACDSee 7指南
- 兄弟连教育python培训
- javadouble向上取整,干货满满!