本节重点讲的是python爬虫中的session和cookie在爬虫中的应用,所以12306验证码的破解可能相比手工操作更麻烦,但未来会讲解更容易的验证码破解和12306登陆~
cookie和session引入:我们在浏览一些网址可能不需要使用账户密码,但要想进行一些个人操作(如评论、购买东西)就需要我们的账户以识别个人身份,这时候我们就需要输入账户和密码。
这里,我们注意到自己的账户和密码是不显示在网页上面,通常是存储在formdata内,要不然个人信息就会泄露,而这种请求就是post请求。
而post请求就涉及到cookies和session两个参数,下面让我们来一一介绍。

1 cookie介绍

1.1 定义

cookie: 记录身份信息。当你登录一个网站,你都会在登录页面看到一个可勾选的选项“记住我”,如果你勾选了,以后你再打开这个网站就会自动登录,这就是cookie在起作用。(1)当你登录微博账号123456,并勾选“记住我”。(2)服务器就会生成一个cookies和123456这个账号绑定。(3)接着,它把这个cookies告诉你的浏览器,让浏览器把cookies存储到你的本地电脑。(4)当下一次,浏览器带着cookies访问博客,服务器会知道你是123456,你不需要再重复输入账号密码,即可直接访问。注意a: 然而过一段时间,cookie会失效,需要再次输入注意b:有些网址也通过cookie来反爬,即使不需要登录输入信息,本节就是用讲的这种情况

总结:

图片来源于:python总结-cookies概念

1.2 应用

  • resp.cookies,resp.cookies.get_dict()获取cookie值
# requests.cookie()
# cookie保持一个登录的状态,进行一个会话的维持
# 例子1 :get方法请求,提取百度的cookie
import requests
resp = requests.get('https://www.baidu.com/')
print(resp.cookies)  # <RequestsCookieJar[<Cookie BDORZ=27315 for .baidu.com/>]>
print(resp.cookies.get_dict()  # {'BDORZ': '27315'}# 例子2:post方法请求,提取网页的cookie
login_in = requests.post(url,headers=headers,data=data)
#提取cookies的方法:调用requests对象(login_in)的cookies属性获得登录的cookies,并赋值给变量cookies。
cookies = login_in.cookies
123456789101112
  • headers里面添加cookie设置以阻止反爬、实现登录和会话维持
#模拟登陆知乎
url = 'https://www.zhihu.com/hot'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}
resp = requests.get(url,headers=headers)
print(resp.text)  # 无法登录,因为headers里面没有录入cookie数据
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','cookie':'_zap=f6651dfd-8259-4706-9032-5727ec6593ff; d_c0="AKAWpA4b6BCPTrYOvjRlh-tSAC2xRRy2R_o=|1583234256"; _ga=GA1.2.1237704894.1583234257; _xsrf=EQmHq5EuP5gF6Ja6bH46i3znv0r53niY; _gid=GA1.2.1825342243.1588076980; tst=h; tshl=; Hm_lvt_98beee57fd2ef70ccdd5ca52b9740c49=1587811271,1588076979,1588228873,1588246738; SESSIONID=aq5YCH9MiITrFZOobkIFT3EYgtlfG6SlvGwVB2EUB1F; JOID=UFwUAkLNy7aYh4WBEc5mLyDPZL4Dqr-Dyc_LvVyvhOfqydTIe7wBFMWKhoQZq-aJtgz8-vsmayVtXOxAwCJS2b4=; osd=UlgUC0zPz7aRiYeFEcdoLSTPbbABrr-Kx83PvVWhhuPqwNrKf7wIGseOho0XqeKJvwL-_vsvZSdpXOVOwiZS0LA=; capsion_ticket="2|1:0|10:1588254120|14:capsion_ticket|44:Yjk0ZTgyMjRjZDU0NGFlMjgwMzU4ZmZkMWJhYzA5MmI=|fdf13162982002c673847fae50e99c8f22d583ef7e23228c2d3ace7080b56ee7"; z_c0="2|1:0|10:1588254121|4:z_c0|92:Mi4xRjdYeENBQUFBQUFBb0Jha0Rodm9FQ1lBQUFCZ0FsVk5xU09ZWHdEcnRjZFhPSlkwdXpYZXFualQtekloamplbzdn|76d278afd875611d83dba20ed4d6169d34d0bf1447521478b93ec7ec38c443ae"; Hm_lpvt_98beee57fd2ef70ccdd5ca52b9740c49=1588254123; KLBRSID=ca494ee5d16b14b649673c122ff27291|1588254207|1588252528'}
resp = requests.get(url,headers=headers)
print(resp.text)  # 实现登录,因为headers录入了cookie数据123456789

2 session介绍

2.1 定义

session:会话,用于记录用户上网浏览的信息。例子:我们从浏览器上网到关闭浏览器的这一过程。session是会话过程中,服务器用来记录特定用户会话的信息。比如今天浏览微博,浏览了哪些话题,这些记录都会被保存在session中。

2.2 session和cookie关系

(1)互相存储信息:cookies中存储着session的编码信息,session中又存储了cookies的信息。举例:当我们登录微博账号123456,并勾选“记住我”。服务器就会生成一个cookies和123456这个账号绑定。接着,它把这个cookies告诉你的浏览器,让浏览器把cookies存储到你的本地电脑。当下一次,浏览器带着cookies访问博客,服务器会知道你是123456,你不需要再重复输入账号密码,即可直接访问。这样就能够持续保持会话进行。(2)应用:登陆网址,发表评论这个例子来源于(转载):Python学习之cookies及session用法本人觉得对比较有用,所以想敲一敲,学习一下,并搬运于此,供大家学习

import json,requests# 用requests.session()创建session对象,相当于创建了一个空的会话框,准备保持cookies
session = requests.sessions()
# 添加请求头,避免被反爬虫。
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}# 读取cookies:先把字符串转成字典,再把字典转成cookies本来的格式
def cookie_read():cookie_txt = open('cookie.txt','r')cookie_dict = json.loads(cookie_txt.read())cookie = requests.utils.cookiejar_from_dict(cookie_dict)return (cookie)# 登录网址,得到cookie,存储cookie(先转成字典,再转成字符串)
def sign_in():url = 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-login.php'data =  {'log': input('请输入你的账号'),'pwd': input('请输入你的密码'),'wp-submit': '登录','redirect_to': 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-admin/','testcookie': '1'}# 在创建的session下用post发起登录请求,session这个时候就包括 cookies 了。session.post(url,headers=headers,data=data)# cookies存储cookie_dict = requests.utils.dict_from_cookiejar(session.cookies)cookie_str = json.dump(cookie_dict)f = open('cookie.txt','w')f.write(cookies_str)f.close()# 登录成功,发表评论
def write_message():url2 = 'https://wordpress-edu-3autumn.localprod.oc.forchange.cn/wp-comments-post.php'data_2 = {'comment': input('请输入你要发表的评论:'),'submit': '发表评论','comment_post_ID': '13','comment_parent': '0'}return (session.post(url_2, headers=headers, data=data_2))   # 在创建的session下用post发起登录请求,session这个时候就包括 cookies 了。# 针对cookies过期的问题,需重新登录,重新保存cookie信息
try:session.cookies = cookie_read()
except FileExistsError:sign_in()session.cookies = cookie_read()
result = write_message()
if result.status_code == 200:print('评论成功!')
else:sign_in()session.cookies = cookie_read()result = write_message()

3 综合应用——以12306为例

3.1 12306的验证码破解

(1)了解12306的身份验证顺序:用户名(正确)-密码(正确)-验证码(错误)–点击登录

输入:用户名(错误)-密码(错误)-验证码(正确)-点击登录

== 得出 12306是先验证验证码-再验证账户密码 ==

result_message: "验证码校验成功", result_code: "4"}

2)理清破解验证码流程

1.请求目标url
2.拿到12306的验证码
3.点击正确验证码

3.1.1 设置参数,请求目标url

传入data、headers参数

data = {'answer': codeStr,'rand': 'sjrand','login_site': 'E'}
headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.

获取url位置:

# 1.请求url
response = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)
print(response)  # <response [200]说明请求成功,到达目标网址>
print(response.txt) # 打印内容,验证码信息失败,信息为空 

3.1.2 拿到12306的验证码

第一种方法: 打开图片链接 - 用base64模块处理 - 存储图片

import base64
# 正常图片长度一般不长
s = 'https://ss0.bdstatic.com/94oJfD_bAAcT8t7mm9GUKT-xh_/timg?image&quality=100&size=b4000_4000&sec=1588854070&di=e940d954e46236fcaf2ef5c5b99a800&src=http://pic3.16pic.com/00/01/11/16pic_111395_b.jpg'
# 12306图片网址很长,做了一个base64处理
url = ''
# 用python内置模块处理
img_data = base64.b64decode(url)
fn = open('code.png','wb')
fn.write(img_data) # Error: Incorrect padding No  不正确的填充,需要去掉url的前置 ‘data:image/jpg;base64’
fn.close()

第一种方法太长,不推荐。推荐第二种方法:在网页中寻求响应

查找两个url的相同处,得到验证码图片

# 第一个url
# https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1588854482831&callback=jQuery19106102610091091487_1588854471128&_=1588854471129
# 第二个url
# https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand&1588854489430&callback=jQuery19106102610091091487_1588854471128&_=1588854471130
# 相同处
https://kyfw.12306.cn/passport/captcha/captcha-image64?login_site=E&module=login&rand=sjrand
# 去掉64,得到验证码图片
# https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand 12306的验证码图片

# 2.拿到12306的图片验证码 pic_response = req.get('https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand') codeImage = pic_response.content fn = open('code2.png','wb') fn.write(codeImage) fn.close()

3.1.3 输入正确验证码

codeStr = input('请输入验证码坐标:')
data = {'answer': codeStr, 'rand': 'sjrand',login_site':'E'}

输入正确的验证码后还是失败,原因是没有保持会话的继续,这个时候需要session来保持会话进行

import requests
req = requests.session()
response = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)

3.1.4 完整练习

# {result_message: "验证码校验成功", result_code: "4"}
import requests
req = requests.session()
def login():# 2.拿到12306的图片验证码pic_response = req.get('https://kyfw.12306.cn/passport/captcha/captcha-image?login_site=E&module=login&rand=sjrand')codeImage = pic_response.contentfn = open('code2.png','wb')fn.write(codeImage)fn.close()headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'}codeStr = input('请输入验证码坐标:')data = {'answer': codeStr,'rand': 'sjrand','login_site': 'E'}# 1.请求目标urlresponse = req.post('https://kyfw.12306.cn/passport/captcha/captcha-check',data=data,headers=headers)print(response.text)
# 3.点击正确的目标图片
login()

3.2 浏览12306的车次列表

import requests
def query():# headers 里面要添加cookie,才能访问页面内容headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36','Cookie':'JSESSIONID=C69BB3C1423FE2782FBADBC6CCFFC1DB; _jc_save_toStation=%u6210%u90FD%2CCDW; _jc_save_wfdc_flag=dc; _jc_save_fromStation=%u957F%u6C99%2CCSQ; BIGipServerpassport=854065418.50215.0000; RAIL_EXPIRATION=1589138029444; RAIL_DEVICEID=GOUQ6YuSBKleYqFcUjEYfjqmJao9QkmcsX3v1DiP6qe2WIr1c0M6YJBDldFcO70lExNRkFiGF84NgrReBrIh95J9Fx0gL4RAM7sFfRDucqk4TkbR1Yz9TeSdrb8bo5H6p3LA_-P5QuCHROE9v4qeJojUO8G1ActN; route=9036359bb8a8a461c164a04f8f50b252; _jc_save_toDate=2020-05-07; _jc_save_fromDate=2020-05-14; BIGipServerpool_passport=233636362.50215.0000; BIGipServerportal=2949906698.17695.0000; BIGipServerotn=1257243146.64545.0000'}r = requests.get('https://kyfw.12306.cn/otn/leftTicket/query?leftTicketDTO.train_date=2020-05-14&leftTicketDTO.from_station=CSQ&leftTicketDTO.to_station=CDW&purpose_codes=ADULT',headers=headers)print(r.content.decode('utf-8'))
query()

需要源码或者视频教程的记得加群:1136192749

如何利用Python破解12306验证码和浏览车次为例!你学会了吗?相关推荐

  1. 利用 Python 破解 ZIP 或 RAR 文件密码

    利用 Python 破解 ZIP 或 RAR 文件密码 破解原理 实验环境 库 利用 Pipenv 安装 rarfile 编码 准备密码本 读取压缩文件 尝试解压 暴力破解 程序入口 使用 运行结果: ...

  2. 【Python】利用python进行数据分析——以新型冠状病毒疫情为例

    [Python]利用python进行数据分析--以新型冠状病毒疫情为例 重要说明 只提交该文档这一个文件,做完后提交到学习通"结课大作业"中. 1. 文件命名: 必须以学号-姓名- ...

  3. 利用python进行股票技术分析--以茅台为例

    """ 利用python进行股票技术分析–以茅台为例 通过下述策略对利用python进行股票技术分析,可以举一反三,并且能够实现复杂的技术分析策略,同时可以同python ...

  4. Python破解12306图片验证码

    不知从何时起,12306的登录验证码竟然变成了按字找图,可以说是又提高了一个等次,竟然把图像识别都用上了.不过有些图片,不得不说有些变态,图片的清晰图就更别说了,明显是从网络上的图库中搬过来的. 谁知 ...

  5. 模仿黑产破解12306验证码,验证码产品的未来是?

    导读:12306验证码,长时间高居反人类产品排行榜第一名(据某网站调查),普通人一次通过率仅8%,人也识别不清的图片就能成功阻挡自动机了吗?谷歌街景验证码完全取自自然环境确保图片的不重复不被爆破,但是 ...

  6. python开发12306抢票_如何利用 Python 实现12306抢票?

    生苦短,我用 python. 作为一种"胶水语言",python 为无数码农带来了便利:同时,越来越多的 python 工程师被标榜为"高薪党":"全 ...

  7. 利用keras破解captcha验证码

    本文参考了知乎上的一篇文章,只做了少许改动,感觉挺好玩的,自己实现了一下,准确率比原作者的要高一些.如果想要了解原创文章的话,请移步知乎:使用深度学习来破解captcha验证码 本文通过keras深度 ...

  8. Python破解滑块验证码算法,完美避开人机识别

    | 完美是不可能的,加个震惊!Python破解BiliBili滑块验证码,完美避开人机识别,可以有 准备工作 B站登录页 https://passport.bilibili.com/login pyt ...

  9. 利用Python解决豆瓣验证码,实现模拟登陆!

    前言: 更为重要的一件事情是它是纯Python编程语言开发的!!! 所以咱们利用Python去搞定它的验证码实现模拟登陆,是有一定意义的哟! 实战: Python 3.6.5 解释器 pycharm ...

最新文章

  1. Jittor框架API
  2. ApacheCN 数据科学/人工智能/机器学习知识树 2019.2
  3. 如何使用wink框架_如何解决Wink Hub的Z-Wave连接问题
  4. 用java设计秒表_运用Java编写 秒表程序
  5. C语言递归算法(一)
  6. Kerberos学习(一)
  7. 高可用高性能负载均衡软件HAproxy详解指南-第一章(简介、安装)
  8. SAP 产品条码WMS结合 以及ABAP script的集成 BarCode
  9. 关于徒手脱壳的几种方法
  10. Linux学习笔记 (五)关机和重启命令
  11. C++请不要问我string s=”a”+”b”分配了几次内存
  12. Python 100道题深入理解
  13. matlab画漫画,震惊!无聊男子竟用函数画出可爱的卡通猫
  14. 如何解决CC2640用IAR下载固件出现Fatal error: Failed to load the CPU core driver Session aborted的问题
  15. ubuntu conda、pip 设置代理
  16. 安卓开发学习——第四天
  17. 苹果首席设计师:iPhone X 耗时五年,设计要等技术赶上
  18. mysql----where 1=1是什么意思
  19. 3Dmax怎么渲染AO图?云渲染AO图是什么?
  20. R语言回归分析-回归诊断

热门文章

  1. excel多文件查询工具
  2. ubuntu16.04下编译ORB_SLAM3时出现的问题及解决方法
  3. python 判断x是否为英文字母 数字 空格
  4. uni-simple-router 注意事项
  5. 数学建模 - 椅子放在不平整的地上能否站稳(长方形)
  6. 高等教育计算机应用基础试题,高等教育自学考试《计算机应用基础》模拟试题...
  7. 备份数据库 用友NC
  8. 用电梯服务器怎样解电梯显示E34,成为电梯高手之三菱-菱云系列电梯故障代码表...
  9. 上海三菱电梯LEHY,LEGY,上海三菱,758 .778详 细地址码,总共100多页
  10. unity3d开发鼠标打飞碟游戏(Hit UFO)