1. 实例描述

通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示。那么该如何实现模拟登录的功能呢?本文实现将通过爬虫实现 GitHub 网页的模拟登录。

2. 代码实现

在实现 GitHub 网页的模拟登录时,首先需要查看提交登录请求时都要哪些请求参数,然后获取登录请求的所有参数,再发送登录请求。如果登录成功的情况下获取页面中的注册号码信息即可。具体步骤如下:

(1) 点击 此处 打开 GitHub 的登录页面,然后输入账号与密码,如下图所示。

(2) 用 F12 或者 鼠标右键单击网页选择 检查 打开浏览器的开发者工具,选择获取网络请求过程,然后单击登录页面中的 Sign in 按钮,此时开发者工具中将显示 GitHub 网页的登录请求过程,重点查找名称为 session 的网络请求。如下图所示。

(3) 单击名称为 session 的网络请求,然后在 Headers 请求信息中主要查看 Request Headers与 Form Data 中的各种信息,其中红框内为重要参数与数据。如下图所示。

说明:Host 为主页面地址,Referer 为当前请求的来源地址。User-Agent 为浏览器的头部信息。Form Data 中的所有信息都是登录请求的所用参数,其中动态参数为重要参数,authenticity_token 为加密字符串,login 为登录的账号,password 为密码,其它参数为静态参数。由于动态参数只有 authenticity_token、login 以及password ,而用户名与密码只需要将动态字符串填写对应的位置即可,所以接下来需要获取 authenticity_token 参数所对应的加密字符串。

(4) 在浏览器中退出所登录的 GitHub 账号,返回 GitHub 的登录页面,打开浏览器开发者工具,查看网页的 html 代码,然后在代码中搜索 authenticity_token 关键词,标签内 value 所对应的值为 authenticity_token 参数的加密字符串。如下图所示。

(5) 实现爬虫代码,首先导入所需模块,然后创建头部信息,再通过 Session 会话对象发送网络请求获取 authenticity_token 信息,最后通过所有的登陆请求参数实现 GitHub 网页的登陆请求并提取注册号码。具体代码如下:

# -*- coding: utf-8 -*-

# @Time : 2020/5/10 23:25

# @Author : 我就是任性-Amo

# @FileName: 77.通过爬虫实现GitHub网页的模拟登录.py

# @Software: PyCharm

# @Blog :https://blog.csdn.net/xw1680

import requests # 导入网络请求模块

from lxml import etree # 导入数据解析模块 都是第三方模块需要安装

# pip install requests/lxml如果太慢 可以加上镜像服务器 或者在Pycharm中使用图形化界面进行安装

class GitHubLogin(object):

def __init__(self, username, password):

# 构造头部信息

self.headers = {

"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) "

"AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36",

"Host": "github.com",

"Referer": "https://github.com/login"

}

self.login_url = "https://github.com/login" # 登录页面地址

self.post_url = "https://github.com/session" # 实现登录的请求地址

self.session = requests.Session() # 创建Session会话对象

self.user_name = username # 用户名

self.password = password # 密码

# 获取authenticity_token信息

def get_token(self):

# 发送登录页面的网络请求

response = self.session.get(self.login_url, headers=self.headers)

if response.status_code == 200: # 判断请求是否成功

html = etree.HTML(response.text) # 解析html

# 提取authenticity_token信息

token = html.xpath("//div[@id='login']/form/input[1]/@value")[0]

# print(token) 测试是否能够获取到token

return token # 返回信息

# 实现登录

def login(self):

# 请求参数

post_data = {

"commit": "Sign in",

"authenticity_token": self.get_token(),

"login": self.user_name,

"password": self.password,

"webauthn - support": "supported"

}

# 发送登录请求

response = self.session.post(self.post_url, headers=self.headers, data=post_data)

if response.status_code == 200: # 判断请求是否成功

html = etree.HTML(response.text) # 解析html

# 获取注册号码

register_number = html.xpath("//div[contains(@class,'Header-item')][last()]//strong")[0]

print(f"注册号码为: {register_number.text}")

else:

print("登录失败")

if __name__ == '__main__':

user_name = input("请输入您的用户名:") # 获取输入的用户名

password = input("请输入您的密码:") # 获取输入的密码

login = GitHubLogin(user_name, password) # 创建登录类对象并传递输入的用户名与密码

login.login()

执行以上代码,输入用户名与密码,即可显示获取的注册号码。如下图所示:

到此这篇关于Python 通过爬虫实现GitHub网页的模拟登录的示例代码的文章就介绍到这了,更多相关Python GitHub模拟登录内容请搜索聚米学院以前的文章或继续浏览下面的相关文章希望大家以后多多支持聚米学院!

python登录各种网页示例_Python 通过爬虫实现GitHub网页的模拟登录的示例代码相关推荐

  1. python登录网页账号密码_Python 通过爬虫实现GitHub网页的模拟登录的示例代码

    1. 实例描述 通过爬虫获取网页的信息时,有时需要登录网页后才可以获取网页中的可用数据,例如获取 GitHub 网页中的注册号码时,就需要先登录账号才能在登录后的页面中看到该信息,如下图所示.那么该如 ...

  2. python爬取网页原理_Python:爬虫原理和网页构造

    入门网络数据爬取,也就是Python爬虫 现实中我们使用浏览器访问网页时,网络是怎么运转的,做了什么呢? 首先,必须了解网络连接基本过程原理,然后,再进入爬虫原理了解就好理解的多了. 1.网络连接原理 ...

  3. python如何提取网络链接_Python网络爬虫——把一个网页中所有的链接地址提取出来(去重)...

    # 把一个网页中所有的链接地址提取出来. 运行环境Python3.6.4-实现代码:import urllib.request import re #1. 确定好要爬取的入口链接 url = &quo ...

  4. python爬虫(四)cookie模拟登录和反反爬案例

    处理不被信任证书的网站 SSL证书:数字证书的一种,配置在服务器上面的,类似于驾驶证.护照和营业执照的电子副本.因为配置在服务器上,也称为SSL服务器证书. SSL证书的特点:遵循了SSL协议,由收信 ...

  5. python 爬虫动态网页的区别_Python开发爬虫之动态网页抓取篇:爬取博客评论数据——通过Selenium模拟浏览器抓取...

    区别于上篇动态网页抓取,这里介绍另一种方法,即使用浏览器渲染引擎.直接用浏览器在显示网页时解析 HTML.应用 CSS 样式并执行 JavaScript 的语句. 这个方法在爬虫过程中会打开一个浏览器 ...

  6. python爬虫如何模仿登录_python爬虫:两种方法模拟登录博客园

    第一方法用第三方库(requests):参考http://www.mamicode.com/info-detail-1839685.html 源代码分析 博客园的登录页面非常简单,查看网页源代码,可以 ...

  7. java爬取网页数据_Python网络爬虫实战(二)数据解析

    Python网络爬虫实战 (二)数据解析 本系列从零开始阐述如何编写Python网络爬虫,以及网络爬虫中容易遇到的问题,比如具有反爬,加密的网站,还有爬虫拿不到数据,以及登录验证等问题,会伴随大量网站 ...

  8. python爬虫:两种方法模拟登录博客园

    第一方法用第三方库(requests):参考http://www.mamicode.com/info-detail-1839685.html 源代码分析 博客园的登录页面非常简单,查看网页源代码,可以 ...

  9. Python爬虫初学(三)—— 模拟登录知乎

    模拟登录知乎 这几天在研究模拟登录, 以知乎 - 与世界分享你的知识.经验和见解为例.实现过程遇到不少疑问,借鉴了知乎xchaoinfo的代码,万分感激! 知乎登录分为邮箱登录和手机登录两种方式,通过 ...

最新文章

  1. 更改MySQL数据库目录位置
  2. python提供了方法用于读取文本文件内容_python提供了哪三种方法用于读取文本文件的内容?...
  3. Python语言学习之字母D开头函数使用集锦:del、dict使用方法之详细攻略
  4. 如何在Appscale下发布自己的应用(二)
  5. pe常用软件_验证几款U盘PE系统,找出来纯净的几个请大家参考
  6. 2016 - 2- 2 非正式协议与正式协议
  7. 微信小程序 获取input输入的值
  8. Linux 设备树的使用技巧
  9. POJ 2104 K-th Number (区间第k大)
  10. android css 字体,如何定义移动端字体Font-Family?
  11. 数学分析练习题答案一(自己做的)
  12. 高斯函数表达式C语言,C语言计算高斯核函数
  13. 基于simulink的模糊PID控制器设计与实现
  14. 同济大学Python程序设计基础 实验一:Python程序设计基础
  15. win7家庭版和旗舰版区别_Windows系统的家庭版、专业版、旗舰版,都有什么区别?...
  16. 一个计算机专业女孩的求学之路——七年之痒,痒之感悟
  17. 为什么传统的验证码不再安全
  18. 帝国CMS Table '***.phome_ecms_news_data_' doesn't exist
  19. python中断输入_在 Python 中接管键盘中断信号的实现方法
  20. myftpadmin+proftpd+mysql架设ftp服务器_proftpd – 碎言碎语

热门文章

  1. 将View兑换Bitmap
  2. 工欲善其事 必先利其器
  3. 20121022 django学习笔记1
  4. MFC dialog 间 交互[2]
  5. 开工了,为自己做的软件。先做些控件。
  6. javascript window.close() 去掉那讨厌的确认对话框【转】
  7. 董老师又双叒叕送书啦,6本《Python程序设计实用教程》
  8. 这9个Python问题你能回答几个?
  9. python中time模块的时间戳和格式化日期_Python中的time模块与datetime模块
  10. Linux 进程间通信(IPC)---大总结