写一个简单的爬虫 - 如何模拟登录网站
设置Developer Tools 以查看完整的登录过程
如 chrome 的 Developer Tools、firefox 的 httpfox 插件等
推荐 chrome 的 Developer Tools,设置Preserver log 显示完整的跳转过程、Disable cache 禁用缓存
关于浏览器开发工具,可参考:http://jinlong.github.io/2013/08/29/devtoolsecrets/
以163的登录过程为例:
tips:如果看到Request Headers里带有Cookie,说明前面还有一步获取Cookie的过程。
分析登录过程
第一步的 https://reg.163.com/logins.jsp,post 的参数有三个,其中有username, password,都是明文的。
试试在 url 后面加上 post 的参数看看会发生什么,https://reg.163.com/logins.jsp?username=abcdefg@163.com&password=1234567(将username, password 换为自己的)直接登录成功。
Tips:有的网站同时支持POST、GET 登录方式
登录成功后,保存返回的cookie,后续操作带着该cookie 即可。
有的网站登录时还有验证码等保护措施,不妨直接使用最终跳转页面的 cookie,通常有十几天的保质期,如:
原文:http://www.cnblogs.com/congbo/archive/2012/11/04/2753961.html
转载于:https://www.cnblogs.com/congbo/archive/2012/11/05/2753961.html
写一个简单的爬虫 - 如何模拟登录网站相关推荐
- 用python写一个简单的爬虫保存在json文件中
学习python没多久,所以只能写一个很简单的爬虫啦~~ 我使用annacada 自带的spyder来写爬虫的,这次我们要爬取得网站是http://www.drugbank.ca/drugs, 主要是 ...
- 用python写一个简单的爬虫_Python实现简易Web爬虫详解
编辑推荐: 本文主要介绍了Python实现简易Web爬虫详解,希望对大家有帮助. 本文来自于脚本之家 ,由火龙果软件Alice编辑,推荐. 简介: 网络爬虫(又被称为网页蜘蛛),网络机器人,是一种按照 ...
- Python爬虫不会?戳一下,小编一步步教你写一个简单的爬虫
写在前面 网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序.众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需内容. 优先申明:我们使用的py ...
- 用python写一个简单的爬虫_用Python编写一个简单的爬虫
作者信息: Author : 黄志成(小黄) 博客地址: 博客 呐,这是一篇福利教程.为什么这么说呢.我们要爬取的内容是美图网站(嘿嘿,老司机都懂的) 废话不多说.开始今天的表演. 这个图集网站不要问 ...
- 写一个简单的爬虫来批量爬取新浪网的新闻
如标题,学习爬虫也有一段时间了,今天来爬取一下新浪网的新闻(其实之前自己爬过,但是隔了好久发现新浪网的网页结构有一些变化导致之前的爬虫失效了,这两天进行了一下代码更新),话不多说,进入正题. 工具:A ...
- 使用selenium写一个简单的爬虫登录邮箱
零.前言 selenium使用过程比较简单,完整代码在最后 一.安装selenium 参考:http://www.testclass.net/selenium_python/install-selen ...
- python写一个简单的爬虫程序(爬取快手)(附源码)
快手是一个有意思的视频应用,但是它有一些视频不让下载,我们今天就用爬虫来实现爬取不让下载的视频: 首先右键点击检查,我们可以看见找到了视频的src,访问这个src就可以得到视频的下载网址,如下: 右键 ...
- 随笔写一个简单的爬虫
目标:爬取damai网上即将上演的信息 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 3 4 import requests, re 5 from bs4 ...
- 用python写一个简单的爬虫_用Python从零开始写一个简单爬虫
import requests from bs4 import BeautifulSoup url = "https://tieba.baidu.com/f?kw=王者荣耀&fr=h ...
最新文章
- 神经网络的物理学解释(一)---权重与概率幅
- C# addin 开发心得记录
- pytorch之object.grad.zero_()
- BZOJ——2134: 单选错位
- Swap in C C++ C# Java
- 拓端tecdat|R语言中的岭回归、套索回归、主成分回归:线性模型选择和正则化
- 基于android的电影院订票影院售票系统app
- 又一起“删库”跑路:链家程序员怒删公司 9TB 数据,被判 7 年!网友:真惨~...
- 【愚公系列】2022年04月 微信小程序-Flex布局详解
- printf()输出格式
- 关于坑爹的QQ互联成为开发者的坑
- 一起学libcef--一个应用libcef的简单例子(windows程序)
- 阿里天池心跳信号分类预测baseline
- 电容式液晶屏可实现多点触控
- 网易2016实习研发笔试
- Mob研究院 |2019互联网医疗行业洞察
- 关于腾讯云服务器的域名备案流程(尽力图文并茂)
- python 模块paramiko
- 简约不简单 细说专票电子化的“四个新”
- k4-使用百度账号-登陆本系统-操作指南