点击“简说Python”,选择“置顶/星标公众号”

福利干货,第一时间送达!

本文授权转载自裸睡的猪,禁二次转载
作者:猪哥66

阅读文本大概需要 8 分钟。

最近想爬取淘宝的一些商品,但是发现如果要使用搜索等一些功能时基本都需要登录,所以就想出一篇模拟登录淘宝的文章!
看了下网上有很多关于模拟登录淘宝,但是基本都是使用scrapy、pyppeteer、selenium等库来模拟登录,但是目前我们还没有讲到这些库,只讲了 requests库,那我们今天就来使用 requests库模拟登录淘宝
讲模拟登录淘宝之前,我们来回顾一下之前用 只需要在请求登录时将用户名和密码上传验证通过就成功了,也就是说一步到位!
而淘宝登录就比较复杂,为什么说复杂呢?因为淘宝登录 涉及参数多请求不止一次!我们就先来讲讲淘宝登录的流程,先把流程原理搞懂,再去敲代码,这样大家就容易理解!

一、淘宝登录流程

为了便于大家理解,猪哥画了一个非标准的淘宝登录请求时序图
淘宝ua参数:ua(User-Agent)故名用户代理,淘宝的ua参数加入了浏览器、ip、电脑、时间等信息,然后加密生成,在很多地方使用,不仅仅是登录!
上图是比较详细的流程图, 从代码层面考虑猪哥将模拟登录淘宝分为以下四个步骤
  1. 输入用户名后,浏览器会向淘宝(taobao.com)发起一个post的请求,判断是否出现滑块验证!
  2. 用户输入密码后,浏览器向淘宝(taobao.com)又发起一个post请求,验证用户名密码是否正确,如果正确则返回一个token。
  3. 浏览器拿着token去阿里巴巴(alibaba.com)交换st码!
  4. 浏览器获取st码之后,拿着st码获取cookies,登录成功
这里也许有同学会提出疑问: 为什么淘宝(taobao.com)验证通过之后还要拿着 token去阿里巴巴(alibaba.com)交换st码呢? 这个我们放后面讲!

二、模拟登录实现

上面我们只讲了大概的登录流程,这里猪哥会先详细讲解下每一步的操作,然后再贴出实现代码!

1.判断是否需要验证码

目前我们在登录淘宝的时候,大多数情况下是不会出现滑块验证码,猪哥尝试了很多次的登录退出也只是在中间出现过一次,那究竟是什么在控制是否需要滑块验证码的呢?

从上图可以看出,当猪哥输入用户名后,浏览器就会发起一个post请求,来验证是否需要出现滑块验证码,如果返回true,滑块验证码则出现!否则不出现,一般是不会出现!
图中我们可以看到这次post请求上传了两个参数: username、ua
前面猪哥说过ua为浏览器、ip、设备信息等多信息加密参数,所以猪哥猜想淘宝的验证码是否出现不仅仅从账号角度,还有ip、设备等角度!
举个例子:某台设备可能出现登录过大量的账号,这时候淘宝就可以从ua参数中获取设备号,然后对该设备进行限制!
知道了流程和请求链接及参数之后,我们就可以用代码来请求了!

2.验证用户名密码

这里一步也就是上面时序图图中的第5步:请求登录,这里会将用户名、ua参数、加密密码等30十几个参数post到淘宝(taobao.com)去验证。
我们来用代码实现一下,大家别被这么多参数吓到,都是从浏览器复制过来的!
看看请求结果!
可以看到申请st码链接后面带了一个token,具体token是干什么用的后面我们再分析!

3.申请st码

上面我们已经申请到了淘宝(taobao.com)的token,这一步就是用token来换取st码。
到这里很多人可能会有疑问:为什么淘宝登录需要这么麻烦呢?直接在 taobao.com 登录不就可以吗?为什么要先在taobao验证用户名密码,通过之后再去 alibaba.com 换取st码登录呢?
任何公司的框架都是慢慢演变的结果,我猜想最开始的淘宝登录肯定没这么复杂。但是随着阿里巴巴的慢慢壮大,很多事业线都划分开来,但是这些事业线之间又有关联性,比如用户 登录了淘宝账号之后天猫就不需要再登录(注意淘宝和天猫的顶级域名不同,所以不能共享cookis)为了实现这个功能, 单点登录就出现了。
单点登录(Single Sign On),简称为 SSO,是目前比较流行的企业业务整合的解决方案之一。SSO的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。   ——百度百科
很多大企业几乎都有做单点登录,那阿里的单点登录系统肯定是由母公司阿里巴巴(alibaba.com)来做啦,所有子公司去调用母公司接口!
我们再回来分析淘宝登录为何要如此复杂就很好理解了:用户数据在淘宝这里,所以需要现在淘宝(taobao.com)验证用户名和密码,验证通过生成一个token,浏览器拿着token去和阿里巴巴(alibaba.com)申请单点登录码(st码),阿里巴巴收到请求验证token通过则返回st码,所以用token换st码的原因就在于单点登录!
理解了设计原理之后,代码实现起来就很清晰了!

4.使用st码登录

成功获取st码之后我们就可以来登录了,这一步是通过st码获取登录的cookies。

到这里我们就已经模拟登录淘宝成功了!

5.获取淘宝昵称

其实上面我们就已经登录淘宝成功并返回用户主页的链接,我们为了进一步验证登录成功,就请求一下淘宝用户主页,顺便把淘宝昵称提取出来吧!

三、总结

整体讲完之后我们来稍微总结一下吧,主要从 代码结构存在的问题两个方面说下:

1.代码结构

来放出一张代码结构图,让大家直观了解

这就是我们前面说过的模拟登录淘宝的四个步骤,不过这里我们是用代码实现了!

2.存在问题

在写这篇教程之前猪哥也是先在网上了解,然后自己用浏览器和抓包工具(Charles)一步一步实践,最重要的是你先要了解淘宝登录的大概流程,不然你实际操作起来会一头雾水,下面就要讲讲目前遇到的问题和存在的问题吧
  1. 首先第一个问题便是淘宝的滑块解锁,目前requests还没有很好的破解办法,后面介绍了一些爬虫框架之后我们再来破解吧!
  2. 猪哥尝试了很多次(50次以上)登录退出都没出现过滑块验证码。
  3. 网上有人使用代理ip,这里猪哥也没用,只要你不是超级超级超级频繁且大量爬取数据,一般大厂都不太会去封ip,因为有误伤率和影响用户面太广,也许一封就是整个小区。
  4. 在第二步验证用户名和密码时,上传了近30个参数,如果你把username、ua、加密密码复制进去验证还是不通过可尝试把那30个参数换成你浏览器中的!
  5. 在第三步和第四步偶尔会出现一次错误,重试一下就可以!
  6. 文章有些关于淘宝登录框架纯属猪哥猜想,如有错误还望指正!
本文涉及源码:https://github.com/pig6/login_taobao
如果你觉得文章还不错,请点赞分享下。你的肯定是我最大的鼓励和支持。
仔细阅读下面四篇文章,2小时快速掌握Python基础知识要点

完整Python基础知识要点

我是老表,欢迎转发分享本文

公众号 简说Python 作者:老表,目前已经建了四个Python学习交流群,一个Java学习交流群,一个考研学习交流群,欢迎大家扫下方二维码加管理员老表微信,备注: Python , Java , 考研 等,加入对应的学习交流群,和爱学习的小伙伴们一起进步,简说学习交流,期待你的加入。
管理员二维码:
有问题,找老表
给个[在看],是对老表最大的支持!

Python模拟登录淘宝都实现了,你还怕模拟登录?相关推荐

  1. python模拟登录网站_Python模拟登录淘宝都实现了,你还怕模拟登录?

    文章转载自公众号 :裸睡的猪 , 作者 猪哥66 最近想爬取淘宝的一些商品,但是发现如果要使用搜索等一些功能时基本都需要登录,所以就想出一篇模拟登录淘宝的文章! 看了下网上有很多关于模拟登录淘宝,但是 ...

  2. python requests模拟登录淘宝购物车下单_Python使用requests库模拟登录淘宝账号(上)...

    学好Python这款编程语言,我们能够设计出很多程序要帮助我们完成数据采集等工作,ET代理今天要跟大家介绍如何用Python模拟登录淘宝账号? 看了下网上有很多关于模拟登录淘宝,但是基本都是使用scr ...

  3. python requests模拟登录淘宝购物车下单_Python使用requests库模拟登录淘宝账号(下)...

    在文章的上部分,我们已经做好了模拟登录的前期准备,接下来就是让操作实现的部分了.一起来继续看看具体的操作步骤吧: 3.申请st码 上面我们已经申请到了淘宝(http://taobao.com)的tok ...

  4. python淘宝爬虫登陆功能和下单功能_Python 爬虫实战5 模拟登录淘宝并获取所有订单...

    经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 本篇内容 python模拟登录淘宝网页 获取登录用户的所有订单详情 ...

  5. 手把手教你用Python模拟登录淘宝

    作者 | 猪哥66 来源 | 裸睡的猪(ID:IT--Pig) 最近想爬取淘宝的一些商品,但是发现如果要使用搜索等一些功能时基本都需要登录,所以就想出一篇模拟登录淘宝的文章! 看了下网上有很多关于模拟 ...

  6. Python爬虫实战(5):模拟登录淘宝并获取所有订单

    Python爬虫入门(1):综述 Python爬虫入门(2):爬虫基础了解 Python爬虫入门(3):Urllib库的基本使用 Python爬虫入门(4):Urllib库的高级用法 Python爬虫 ...

  7. Python爬虫实战(5):模拟登录淘宝并获取所有订单(1)

    经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 本篇内容 1. python模拟登录淘宝网页 2. 获取登录用户的 ...

  8. python淘宝爬虫登陆功能和下单功能_Python爬虫实战五之模拟登录淘宝并获取所有订单 | 静觅...

    经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...

  9. Python实战案例,requests模块,Python实现模拟登录淘宝网

    前言 利用利用Python模拟登录淘宝网.废话不多说. 让我们愉快地开始吧~ 开发工具 Python版本: 3.6.4 相关模块: re模块 os模块 requests模块: 以及一些Python自带 ...

最新文章

  1. 《精通Unix下C语言与项目实践》读书笔记(16)
  2. 两个例子详解并发编程的可见性问题和有序性问题,通过volatile保证可见性和有序性以及volatile的底层原理——缓存一致性协议MESI和内存屏障禁止指令重排
  3. 代码签名证书,让软件真正拥有姓名!
  4. 深入理解HashMap和LinkedHashMap的区别
  5. ERROR 3009 (HY000): Column count of mysql.user is wrong. Expected 45, found 42. Created with MySQL 5
  6. php iis redis,iis windows phpstudy安装redis扩展
  7. alxctools索引超出了数组界限_[译]V8中的数组类型
  8. 微信小游戏(打飞机1)
  9. SCAU高级语言程序设计--实验4 选择结构(3)
  10. CCF-CSP真题《202206-2—寻宝大冒险》思路+python满分题解
  11. SecureCRT免费安装教程
  12. Python实现求矩阵的伴随矩阵
  13. 基于C#的词法分析关键字识别与变色
  14. android对界面某一部分进行截图的方法
  15. 微信小程序开发-微信支付之免密支付(自动扣费)一 小程序+java接口
  16. AntDesign 分页 警告 [`dataSource` length is less than `pagination.total` but......] 解决方法
  17. 【群晖NAS】 利用云服务器 FRP技术 实现内网穿透
  18. wxh play 组织结构图
  19. Codeforces Round #375 (Div. 2) B. Text Document Analysis(字符串处理,简单题目)
  20. LaTex “too many unprocessed floats” 解决

热门文章

  1. Kali安装和使用oneforall和EHole
  2. 数据统计分析调研结果
  3. idea中摸鱼插件_IDEA插件上班摸鱼神器
  4. Linux中用ALSA驱动声卡流程详解
  5. 公钥、私钥、数字证书的概念
  6. 『VulnHub系列』EnuBox_Mattermost-Walkthrough
  7. Word查找技巧:批量删除文档中空格、空行
  8. Debian安装gnome桌面
  9. Linux Kali
  10. 关于神经网络的正确说法,可解释的神经网络模型