python2实现模拟登陆UESTC信息门户

手动登陆查看post的数据包信息

打开UESTC信息门户

网页url为http://idas.uestc.edu.cn/authserver/loginservice=http%3A%2F%2Fportal.uestc.edu.cn%2F
可以看到登陆原本是不存在验证码的，但是当输入密码错误达五次以上后就会出现验证码,下面将给出不带验证码和带验证码的代码。
F12打开浏览器自带检查工具（我用的是Chorme)
手动登陆页面，在检查页面Network页面发现有一个login开头的包疑似我们需要的包，点击进入获取post的header/data,目标url等用于我们的登陆。包打开后观察header信息如下：

这里我们看到了一些包的信息，继续往后看会有更多有用的信息，包括post的data和header等。

在这里我们很高兴的看到了我们向服务器发送的请求包数据信息，里面包括我们的登陆名和密码和一些其他认证信息等，值得注意的是，It这个数据包是随cookie登陆信息变化的，这要求我们要加载cookie信息，或者使BeautifulSoup解析器获取。

不带验证码的模拟登陆

全部代码如下：

# -*- coding: utf-8 -*-
import urllib
import urllib2
from bs4 import BeautifulSoup
import http.cookiejar#Get It
def clt(url):response = urllib2.urlopen(url)data = response.read()soup = BeautifulSoup(data, 'html.parser', from_encoding='utf-8')link = soup.find_all('input')aa = link[2]aa=str(aa)return aa[38:-3]##获取cookies，发送认证信息
def post(username,password,url):cj = http.cookiejar.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opener(opener)header = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3)\AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.71 Safari/537.36r)'}##生成学号，登陆密码信息postdata = urllib.urlencode({'username': username,'password': password,'lt': clt('http://idas.uestc.edu.cn/authserver/login'),'dllt': 'userNamePasswordLogin','execution': 'e1s1','_eventId': 'submit','rmShown': '1'})postdata = postdata.encode('utf-8')req = urllib2.Request(url, postdata, headers=header)result = opener.open(req)return resultif __name__ =='__main__':url = 'http://idas.uestc.edu.cn/authserver/login?service=http%3A%2F%2Fportal.uestc.edu.cn%2F'username='你的学号'password = '你的密码'print '尝试密码为'+passwordresponse =post(username,password,url)data = response.read()print data

一般这样就能够顺利登陆了，如果成功，print data打印出网页信息如下：

如果不成功，返回信息中将会包括输入验证码等部分如下：

带验证码的模拟登陆和自动识别是否成功

基于返回的html信息我们可以找到两者的不同,发现其中有个字符串在登陆成功时不存在，在登陆成功时存在，标记一个flag来表明是否登陆成功。
如果带有验证码，则需要知道验证码的地址，将其下载到本地后进行下一步操作。
验证码url为：http://idas.uestc.edu.cn/authserver/captcha.html?ts=437
解决方法1：手动识别
解决方法2：运用PIL图像识别库读取验证码并将其变为字符串即可。

手动输入验证码

下面给出解决方法1的代码：
Soluion 1

# -*- coding: utf-8 -*-
"""
Created on Thu Oct 18 18:46:53 2018@author: 10091
"""
import urllib
import urllib2
from bs4 import BeautifulSoup
import http.cookiejar
from PIL import Image#获取It信息
def clt(url):response = urllib2.urlopen(url)data = response.read()soup = BeautifulSoup(data, 'html.parser', from_encoding='utf-8')##print(data.decode())link = soup.find_all('input')aa = link[2]aa=str(aa)return aa[38:-3]#爬取验证码
def get_captcha():url = 'http://idas.uestc.edu.cn/authserver/captcha.html?ts=437'name ='Captcha.jpg'html = urllib2.urlopen(url)cont = html.read()with open(name,'wb') as f:f.write(cont)#发送数据包尝试连接
def post(username,password,url):#获取cookies保持登陆cj = http.cookiejar.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opener(opener)user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.71 Safari/537.36r)'header = {'User-Agent': user_agent}##生成学号，登陆密码信息get_captcha()image = Image.open('Captcha.jpg')image.show()captchResponse = raw_input('What you see in chapcha:')postdata = urllib.urlencode({'username': username,'password': password,'captchaResponse': captchResponse,'lt': clt('http://idas.uestc.edu.cn/authserver/login'),'dllt': 'userNamePasswordLogin','execution': 'e1s1','_eventId': 'submit','rmShown': '1'})postdata = postdata.encode('utf-8')req = urllib2.Request(url, postdata, headers=header)result = opener.open(req)return result#解析返回的数据查看是否登陆成功
def jiexi(data):soup = BeautifulSoup(data, 'html.parser',from_encoding = 'utf-8')links=soup.find_all(href="getBackPasswordMainPage.do")  return len(links)#运行程序
if __name__ == '__main__':url = 'http://idas.uestc.edu.cn/authserver/login\service=http%3A%2F%2Fportal.uestc.edu.cn%2F'flag = 1exp_num =0while flag!=0 :username='你的学号'password = '你的密码'exp_num = exp_num+1print '尝试密码为'+passwordresponse =post(username,password,url)data = response.read()flag =jiexi(data)if exp_num > 5:print '输入次数过多，退出'breakif flag == 0 :print '登陆成功'

运用PIL自动识别

Solution 2
运用PIL库进行自动识别，由于可能存在识别错误的情况，进行多次登陆，直到成功为止退出。

# -*- coding: utf-8 -*-
"""
Created on Thu Oct 18 19:11:00 2018@author: 10091import urllib
import urllib2
from bs4 import BeautifulSoup
import http.cookiejarimport pytesseract
from PIL import Image#获取It信息
def clt(url):response = urllib2.urlopen(url)data = response.read()soup = BeautifulSoup(data, 'html.parser', from_encoding='utf-8')##print(data.decode())link = soup.find_all('input')aa = link[2]aa=str(aa)return aa[38:-3]#爬取验证码
def get_captcha():url = 'http://idas.uestc.edu.cn/authserver/captcha.html?ts=437'name ='Captcha.jpg'html = urllib2.urlopen(url)cont = html.read()with open(name,'wb') as f:f.write(cont)
#解析验证码
def read_captcha():image = Image.open('Captcha.jpg')vcode = pytesseract.image_to_string(image)word = ''for i in vcode:if (ord(i)>=48 and ord(i)<=57) or (ord(i)>=65 and ord(i)<=90) \or (ord(i)>=97 and ord(i)<=122):word += icaptcha = str(word).replace(' ','')print '识别验证码为：' + captchareturn captcha#发送数据包尝试连接
def post(username,password,url):#获取cookies保持登陆cj = http.cookiejar.CookieJar()opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))urllib2.install_opener(opener)user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.71 Safari/537.36r)'header = {'User-Agent': user_agent}##生成学号，登陆密码信息get_captcha()captchResponse = read_captcha()postdata = urllib.urlencode({'username': username,'password': password,'captchaResponse': captchResponse,'lt': clt('http://idas.uestc.edu.cn/authserver/login'),'dllt': 'userNamePasswordLogin','execution': 'e1s1','_eventId': 'submit','rmShown': '1'})postdata = postdata.encode('utf-8')req = urllib2.Request(url, postdata, headers=header)result = opener.open(req)return result
#解析返回的数据查看是否登陆成功
def jiexi(data):soup = BeautifulSoup(data, 'html.parser',from_encoding = 'utf-8')links=soup.find_all(href="getBackPasswordMainPage.do")  return len(links)#运行程序
if __name__ == '__main__':url = 'http://idas.uestc.edu.cn/authserver/login?service=http%3A%2F%2Fportal.uestc.edu.cn%2F'username='2016100104028'password = '106711'flag=1exp_num =0while flag!=0 :exp_num = exp_num+1print '尝试密码为'+passwordresponse =post(username,password,url)data = response.read()flag =jiexi(data)if exp_num>5:print '次数过多，你可能密码错了'breakif flag == 0 :print '登陆成功'

如果操作太过频繁。建议使用代理和延时等。