python爬虫-京东登录

在写爬虫的时候，解决登陆问题往往是比较麻烦的事情。这里介绍一下京东网站的登陆方法。

登陆到京东的首页，我们看到最上方有一个登陆链接，点进去之后是这样： https://passport.jd.com/new/login.aspx

为了方便我们观察传递的参数规律，我们先用自己的账号密码模拟登陆一次，然后使用抓包工具查看。这里使用的是firefox+firebug ,firebug在这篇文章中有讲到。

点击登陆之后我们经过仔细的查看，找到了登陆的这条POST信息：

这里我们可以看到，POST数据的目标地址为： http://passport.jd.com/uc/loginService ，POST参数中需要我们我们自己填写的为：loginname，loginpwd，nloginpwd，其中后面两个是一样的，都是用户的密码。另外三个machineCpu，machineDisk，machineNet都为空。那么还有两个怎么办呢？一个是第一行的无规律的字符，另外一个是uuid，这两个都是根据每次登陆随机生成的内容，要怎么才能找到呢？

我们回到最开始的登陆页面 https://passport.jd.com/new/login.aspx ，查看源代码。直接搜索uuid，能够找到后面的值：

可以直接用BeautifulSoup或者正则表达式提取出来：

uuid = loginSoup.find_all("form")[0].find_all("input")[0]['value']

那么另外一个参数怎么办呢？由于这个参数的Key和Value都是变化的，我们可以先把登陆页面源代码保存下来，然后登陆一次，查看包中的Key的值，再通过这个值在刚刚保存的代码中去搜索，从而知道它的位置：

我们同样能够把它取出来：

clr = loginSoup.find_all("span","clr")[0]
clrName = clr.find_next_siblings("input")[0]['name']
clrValue = clr.find_next_siblings("input")[0]['value']

有了这两个参数，我们就可以尝试着进行登陆了：

import urllib
import urllib2
import cookielib
import re
import socket
from bs4 import BeautifulSoupdef Navigate(url,data={}):           #定义连接函数，有超时重连功能tryTimes = 0while True:if (tryTimes>20):print "多次尝试仍无法链接网络，程序终止"breaktry:if (data=={}):req = urllib2.Request(url)else:req = urllib2.Request(url,urllib.urlencode(data))req = urllib2.urlopen(req).read()tryTimes = tryTimes +1except socket.error:print "连接失败，尝试重新连接"else:breakreturn req   try:cookie = cookielib.CookieJar()cookieProc = urllib2.HTTPCookieProcessor(cookie)
except:raise
else:opener = urllib2.build_opener(cookieProc)opener.addheaders = [('User-Agent','Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11')]urllib2.install_opener(opener)url = "https://passport.jd.com/uc/login"
login = func.Navigate(url)
loginSoup = BeautifulSoup(login)
#查找登陆参数中的uuid
uuid = loginSoup.find_all("form")[0].find_all("input")[0]['value']
#print uuid#查找登陆参数中的随机值，class为clr
clr = loginSoup.find_all("span","clr")[0]
clrName = clr.find_next_siblings("input")[0]['name']
clrValue = clr.find_next_siblings("input")[0]['value']
#print clrName,clrValueurl = "http://passport.jd.com/uc/loginService"
#print urlpostData = {
  'loginname':self.user,
  'nloginpwd':self.password,
  'loginpwd':self.password,
  # 'machineNet':'',
  # 'machineCpu':'',
  # 'machineDisk':'', str(clrName):str(clrValue),
  'uuid':uuid,
  'authcode':''
}
passport = Navigate(url,postData)
print passportSoup

运行程序，程序返回：{“success”:”http://www.jd.com”} ，则说明登陆成功。

但还不是这么顺利，因为京东在几次登陆之后就会加上讨厌的验证码，普通登陆的情况下验证码authcode只要为空即可，但如果接口返回的是“请输入验证码”的汉字编码的话，则说明该用户需要验证码才能登陆了。

目前验证码处理仍然是一个比较困难的问题。ocr技术也并不是那么成熟。不过好在京东的验证码图片并不太复杂，不像那种人去看都看不明白的反人类图片。要解决这一问题可以有两种方法：

如果仅仅是个人使用，一般的实验测试等，可以将验证码图片下载下来，通过人工查看并手动输入的方法来完成，这里附上代码处理：

#下载验证码图片：
checkPicUrl = loginSoup.find_all("div","item-ifo")[2].find_all("img")[0]['src2']
req = func.Navigate(checkPicUrl)
checkPic = open("checkPic.jpg","w")
checkPic.write(req)
checkPic.close()
#调用Linux系统的eog(图像查看器)来打开图片文件os.system('eog checkPic.jpg')
checkCode = raw_input("请输入弹出图片中的验证码：")
postData['authcode'] = str(checkCode)

把这段代码放到最后的登陆代码之前即可，这里需要系统有图形界面和图片查看器，并通过程序内置调用Linux的命令来打开验证码图片。

2.没有图形界面，大规模调用的情况。

这种情况如果自己没有验证码识别的系统，可以求助于网上很多第三方接口，厂商名字这里就不介绍了以免有广告之嫌。不过效果还是不错的，价格一般是根据验证码的复杂程度区别。像京东的4字符这种一般是1分钱一条。

自此，京东网站登陆完毕。接下来就可以任意的抓取想要的信息啦。

欢迎转载，请注明出处。

python爬虫-京东登录相关推荐

python 爬虫-京东用户评论数据和用户评分
python 爬虫-京东用户评论数据和用户评分在京东页面查找(例如:oppo r15),选择第一个商品点击进入. 点击第一个评论页面: 点击第二个评论页面: 第三个评论页面: 发现第二页和第三页的网 ...
【Python技能树共建】Python爬虫模拟登录
Python 爬虫模拟登录 Python 爬虫模拟登录是使用脚本实现自动登录,部分站点需要逆向加密逻辑,更多的站点会采用验证码进行鉴权验证. 本文为大家带来最简单的登录,其核心用到的是 request ...
python爬虫模拟登录人人网过程解析
这篇文章主要介绍了python爬虫模拟登录人人网过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 equests 提供了一个叫做sessio ...
python登录教务系统_强智科技教务系统python爬虫模拟登录分析(湖南)
强智科技教务系统python爬虫模拟登录分析(湖南) 本文章仅用作于学习前提:最近期末到来,想第一时间看到新出成绩的,于是就有了爬取学校教务系统自己的成绩并通过Qmsg酱推送到自己QQ上的想法,目前 ...
python爬虫——Cookie登录爬取豆瓣短评和影评及常见问题
python爬虫--Cookie登录爬取豆瓣短评和影评常见问题(本文已解决) 具体步骤一.获取网页源码短评.影评二.解析网页源码及爬取评论 1.短评网页解析 ①确定位置 2.短评爬取 ①名称爬 ...
python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例
转载请注明出处:python–爬虫–模拟登录全面介绍和简例–以抓取雅卓app为例我们在前面的文章中已经学习了如果使用python进行数据抓取. 但我们常常会遇到一种场景,就是想要获取的页面内容或者接 ...
利用python爬虫自动登录人人网
刚学python爬虫,使用python爬虫自动登录人人网,在运行代码时一直报错HTTPError /syshome urllib.error可以接收有urllib.request产生的异常.urlli ...
python爬虫登陆教程_(python模拟登陆教程)python爬虫模拟登录是什么意思
python爬虫模拟登录是什么意思网站需要登录后才能所需要的信息,此时可以设计爬虫进拟登录,原理是利用浏cookie. 一.浏览器访问服务器的过程: (1)浏览器(客户端)向Web服务器发出一个HT ...
Python爬虫-京东商品到货自动邮件通知
文章目录前言京东爬虫网页分析代码实现效果演示小结前言前阵子疫情严重期间,口罩遭到疯抢,各大电商平台口罩供不应求.本文简述如何通过 Python 爬虫不断监控京东商品是否有货,并在到货时 ...

python爬虫-京东登录

python爬虫-京东登录相关推荐

最新文章

热门文章