就算所有人都不支持你。这条路会很曲折,你也会一度认为是不是自己选错了,但只要坚持,就算最后没有成功,但努力了就不会有遗憾。

python爬虫模拟淘宝登录

小贴士

这个爬虫和搜索引擎的爬虫是有区别的.搜索引擎的爬虫是一种对图的遍历,沿着超链接不断爬取整个网络.我们的小爬虫很懒惰,只爬取我们指定的url.

试验了一个晚上,python的小爬虫还是挺可爱的,简单几行就可以抓取网页了。如果你和我一样是新手,你可以先去http://blog.csdn.net/column/details/why-bug.html了解一下爬虫和网络的基本知识。强调一下,这个爬虫和搜索引擎的爬虫是有区别的。搜索引擎的爬虫是一种对图的遍历,沿着超链接不断爬取整个网络。我们的小爬虫很懒惰,只爬取我们指定的url,下面就是对淘宝实现模拟登录。import urllib

import urllib2

import cookielib

def taobao(username, password):

cj = cookielib.CookieJar()

print

cj

post_data = urllib.urlencode(

{

'TPL_password': password,

'TPL_username': username,

})

path = 'https://login.taobao.com/member/login.jhtml'

opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

opener.addheaders = [

('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1;

zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13')]

urllib2.install_opener(opener)

req = urllib2.Request(path, post_data)

# try login

conn = urllib2.urlopen(req)

html = conn.read().decode('gbk', 'ignore')

print

cj

print

html

taobao('username', 'password')

print

'OK'

代码不对,整个的关键就在于post_data,其实就是把程序模拟成浏览器,post_data就是你点击登录按钮时,浏览器向服务器发送的登录信息。你可以用浏览器打开登录界面,单击右键选择查看元素,在下面的页面代码上就可以看到两个输入框一个叫TPL_username一个叫TPL_password。具体看图:

他告诉我们信息发往何方/memer/login.jhtml,怎样传递参数post。你想登陆的大部分网页都是这样的。剩下的部分就是常规爬网页,但是opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows; U; Windows NT 6.1;

zh-CN; rv:1.9.2.13) Gecko/20101203 Firefox/3.6.13')]

是比较重要的,否则会让你输入验证码,这样就把你的程序模拟成了浏览器。接下来就是解码,淘宝使用的gbk编码。所以打印的时需要使用gbk解码。

最后介绍一下cookie的使用,我们在一开始先声明了一个空的cookie,打印为空。当带着这个空的cookie登录后,他就有了数据。

你可以打印看看。其实最容易爬取的是学校的选课系统,我们学校的选课系统的cookie就是学号加上一个序列号了。

python爬虫淘宝登录_python爬虫实现模拟淘宝登录相关推荐

  1. python淘宝抢购_Python 实现毫秒级淘宝抢购脚本的示例代码

    本篇文章主要介绍了Python 通过selenium实现毫秒级自动抢购的示例代码,通过扫码登录即可自动完成一系列操作,抢购时间精确至毫秒,可抢加购物车等待时间结算的,也可以抢聚划算的商品. 博主不提供 ...

  2. python运势预测程序_Python 爬虫系列之一——每日星座运势

    开个新坑--Python 爬虫系列,最近脑子里有很多非常有趣的想法,但实现起来都需要一些简单的爬虫知识,如果放在趣学 Python 系列,会显得文章太长,干脆拿出来开个新坑.这个系列本质上是为趣学 P ...

  3. pythoncookie自动登录_Python爬虫连载6-cookie深入使用实例化实现自动登录

    一.使用cookie登录 1.直接把cookie复制下去,然后手动放到请求头 2.http模块包含一些关于cookie的模块,通过他们我们可以自动使用cookie (1)cookieJar 管理存储c ...

  4. python爬虫基础项目教程_Python爬虫开发与项目实战_Python教程

    资源名称:Python爬虫开发与项目实战 内容简介: 随着大数据时代到来,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,本书从基本的爬虫原理开始讲解,通过介绍Pthyon编程语 ...

  5. python打开网页被禁止_Python爬虫被禁?看看是不是这几个问题

    Python爬虫在网上完成网站的信息采集时,常常出现无缘无故的ip被禁的情况,正爬取呢就没法继续了,造成日常业务也没办法正常进行了,整个人都不好了呢.一部分人完全不清楚被禁的原因,这么简单的就给禁掉了 ...

  6. python 无头模式 绕过检测_python爬虫反反爬虫有绝技,轻松绕开百度人机验证!...

    你可能已经了解到了无头浏览器的作用以及使用的方法,那么本篇文章就让我们一起用无头浏览器做点事情. 是的你没有看错,我们要"搞"的对象就是百度指数这个网站,不知道你平时是否会应用到这 ...

  7. python爬虫微博评论图片_python爬虫爬取微博评论

    原标题:python爬虫爬取微博评论 python爬虫是程序员们一定会掌握的知识,练习python爬虫时,很多人会选择爬取微博练手.python爬虫微博根据微博存在于不同媒介上,所爬取的难度有差异,无 ...

  8. python爬取收费素材_Python爬虫练习:爬取素材网站数据

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 在工作中的电子文案.ppt,生活中的新闻.广告,都离不开大量的素材,而素材 ...

  9. python爬虫抓取房产_Python爬虫实战(3):安居客房产经纪人信息采集

    1, 引言 Python开源网络爬虫项目启动之初,我们就把网络爬虫分成两类:即时爬虫和收割式网络爬虫.为了使用各种应用场景,该项目的整个网络爬虫产品线包含了四类产品,如下图所示: 本实战是上图中的&q ...

最新文章

  1. java有main却说找不到_小说:女子雨夜找扳指,男子却说你找不到的:我没丢怎么也找到...
  2. Mysql主从复制及Tomcat的相关介绍
  3. 关于 CSS3 backface-visiable 与 overflow 属性的冲突
  4. PHP对Json字符串解码返回NULL的一般解决方案
  5. 日记——2019-03-08
  6. JAVA标识符中含小数点可以吗_数值类型小数点后是否可以接零问题
  7. 滑动cell的时候执行动画效果
  8. 【windows】windows操作系统安全加固
  9. Oracle收购后的Mysql目标市场
  10. yolov3从头实现(四)-- darknet53网络tf.keras搭建
  11. remote Incorrect username or password ( access token ):用户名或密码不正确(访问令牌)
  12. Vue:router的beforeEach与afterEach钩子函数
  13. 怎么学计算机制作ppt,怎样制作ppt详细步骤(电脑怎么做ppt新手)
  14. 十四步实现拥有强大AI的五子棋游
  15. 超酷计算机病毒,世界上十种最强的计算机病毒,最著名的计算机病毒都在这里!...
  16. PostgreSQL教程
  17. 企业级服务器固态硬盘,企业级硬盘和固态硬盘有什么区别
  18. 产品经理需要看懂接口文档么?
  19. Hive解决return code 3问题
  20. 微信 css3动画失效,css3 动画效果在微信中无效

热门文章

  1. springMVC的controller的ModelAndView设定的值,无法在jsp显示问题
  2. 28个Metpy绘图代码
  3. 复习总结:大学物理(大物)
  4. 【3ds Max 给PCB外壳建模1】嘉立创的3D图形obj文件导入3d max、导出、另存为
  5. 《密码编码学与网络安全》复习总结
  6. matlab fsolve用法,求助Matlab fsolve用法
  7. notepad++设置网络代理
  8. 【QT】QT实现画板工具的制作
  9. iOS-直播中粒子效果
  10. [转]李平:大型网站的灵魂——性能