python爬虫淘宝登录_python爬虫实现模拟淘宝登录
就算所有人都不支持你。这条路会很曲折,你也会一度认为是不是自己选错了,但只要坚持,就算最后没有成功,但努力了就不会有遗憾。
python爬虫模拟淘宝登录
小贴士
这个爬虫和搜索引擎的爬虫是有区别的.搜索引擎的爬虫是一种对图的遍历,沿着超链接不断爬取整个网络.我们的小爬虫很懒惰,只爬取我们指定的url.
试验了一个晚上,python的小爬虫还是挺可爱的,简单几行就可以抓取网页了。如果你和我一样是新手,你可以先去http://blog.csdn.net/column/details/why-bug.html了解一下爬虫和网络的基本知识。强调一下,这个爬虫和搜索引擎的爬虫是有区别的。搜索引擎的爬虫是一种对图的遍历,沿着超链接不断爬取整个网络。我们的小爬虫很懒惰,只爬取我们指定的url,下面就是对淘宝实现模拟登录。import urllib
import urllib2
import cookielib
def taobao(username, password):
cj = cookielib.CookieJar()
cj
post_data = urllib.urlencode(
{
'TPL_password': password,
'TPL_username': username,
})
path = 'https://login.taobao.com/member/login.jhtml'
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
opener.addheaders = [
('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1;
zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13')]
urllib2.install_opener(opener)
req = urllib2.Request(path, post_data)
# try login
conn = urllib2.urlopen(req)
html = conn.read().decode('gbk', 'ignore')
cj
html
taobao('username', 'password')
'OK'
代码不对,整个的关键就在于post_data,其实就是把程序模拟成浏览器,post_data就是你点击登录按钮时,浏览器向服务器发送的登录信息。你可以用浏览器打开登录界面,单击右键选择查看元素,在下面的页面代码上就可以看到两个输入框一个叫TPL_username一个叫TPL_password。具体看图:
他告诉我们信息发往何方/memer/login.jhtml,怎样传递参数post。你想登陆的大部分网页都是这样的。剩下的部分就是常规爬网页,但是opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1;
zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13')]
是比较重要的,否则会让你输入验证码,这样就把你的程序模拟成了浏览器。接下来就是解码,淘宝使用的gbk编码。所以打印的时需要使用gbk解码。
最后介绍一下cookie的使用,我们在一开始先声明了一个空的cookie,打印为空。当带着这个空的cookie登录后,他就有了数据。
你可以打印看看。其实最容易爬取的是学校的选课系统,我们学校的选课系统的cookie就是学号加上一个序列号了。
python爬虫淘宝登录_python爬虫实现模拟淘宝登录相关推荐
- python淘宝抢购_Python 实现毫秒级淘宝抢购脚本的示例代码
本篇文章主要介绍了Python 通过selenium实现毫秒级自动抢购的示例代码,通过扫码登录即可自动完成一系列操作,抢购时间精确至毫秒,可抢加购物车等待时间结算的,也可以抢聚划算的商品. 博主不提供 ...
- python运势预测程序_Python 爬虫系列之一——每日星座运势
开个新坑--Python 爬虫系列,最近脑子里有很多非常有趣的想法,但实现起来都需要一些简单的爬虫知识,如果放在趣学 Python 系列,会显得文章太长,干脆拿出来开个新坑.这个系列本质上是为趣学 P ...
- pythoncookie自动登录_Python爬虫连载6-cookie深入使用实例化实现自动登录
一.使用cookie登录 1.直接把cookie复制下去,然后手动放到请求头 2.http模块包含一些关于cookie的模块,通过他们我们可以自动使用cookie (1)cookieJar 管理存储c ...
- python爬虫基础项目教程_Python爬虫开发与项目实战_Python教程
资源名称:Python爬虫开发与项目实战 内容简介: 随着大数据时代到来,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语 ...
- python打开网页被禁止_Python爬虫被禁?看看是不是这几个问题
Python爬虫在网上完成网站的信息采集时,常常出现无缘无故的ip被禁的情况,正爬取呢就没法继续了,造成日常业务也没办法正常进行了,整个人都不好了呢.一部分人完全不清楚被禁的原因,这么简单的就给禁掉了 ...
- python 无头模式 绕过检测_python爬虫反反爬虫有绝技,轻松绕开百度人机验证!...
你可能已经了解到了无头浏览器的作用以及使用的方法,那么本篇文章就让我们一起用无头浏览器做点事情. 是的你没有看错,我们要"搞"的对象就是百度指数这个网站,不知道你平时是否会应用到这 ...
- python爬虫微博评论图片_python爬虫爬取微博评论
原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...
- python爬取收费素材_Python爬虫练习:爬取素材网站数据
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...
- python爬虫抓取房产_Python爬虫实战(3):安居客房产经纪人信息采集
1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的&q ...
最新文章
- java有main却说找不到_小说:女子雨夜找扳指,男子却说你找不到的:我没丢怎么也找到...
- Mysql主从复制及Tomcat的相关介绍
- 关于 CSS3 backface-visiable 与 overflow 属性的冲突
- PHP对Json字符串解码返回NULL的一般解决方案
- 日记——2019-03-08
- JAVA标识符中含小数点可以吗_数值类型小数点后是否可以接零问题
- 滑动cell的时候执行动画效果
- 【windows】windows操作系统安全加固
- Oracle收购后的Mysql目标市场
- yolov3从头实现(四)-- darknet53网络tf.keras搭建
- remote Incorrect username or password ( access token ):用户名或密码不正确(访问令牌)
- Vue:router的beforeEach与afterEach钩子函数
- 怎么学计算机制作ppt,怎样制作ppt详细步骤(电脑怎么做ppt新手)
- 十四步实现拥有强大AI的五子棋游
- 超酷计算机病毒,世界上十种最强的计算机病毒,最著名的计算机病毒都在这里!...
- PostgreSQL教程
- 企业级服务器固态硬盘,企业级硬盘和固态硬盘有什么区别
- 产品经理需要看懂接口文档么?
- Hive解决return code 3问题
- 微信 css3动画失效,css3 动画效果在微信中无效