爬虫实战4:豆瓣的模拟登陆
目录
1、页面解析
2、代码展示
3、总结
1、页面解析
重所周知,想要对豆瓣进行大量爬虫处理,首先需要进行豆瓣网站的模拟登陆,携带cookies来访问网站。先对豆瓣网站进行模拟登陆,主要操作步骤如下所示
第二步:对登陆链进行分析
观察发现,每次账号登陆都是携带name,password两个参数进行的。
2、代码展示
主要代码展示
url_basic = 'https://accounts.douban.com/j/mobile/login/basic'url = 'https://www.douban.com/'ua_headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}# basic中post请求的参数,一种模拟登陆的方式,观察在登陆页面上输入错误账号是否有post请求存在data = {'ck': '','name': '15937590817','password': '021412abc.','remember': 'false','ticket': ''}s = requests.session()# 先请求post请求,提交登陆参数表单s.post(url=url_basic, headers=ua_headers, data=data)# 携带登陆成功的cookie去请求get登陆response = s.get(url=url, headers=ua_headers)
3、总结
1、requests中函数session的使用
爬虫实战4:豆瓣的模拟登陆相关推荐
- 淘宝爬虫实战---requests库实现模拟登陆模块
淘宝网---爬虫 (一).requests库实现淘宝网模拟登陆 最近想要写一个淘宝网的爬虫,具备模拟登陆.代理IP池.根据关键词爬取搜索页面商品数据,第一个目标就是淘宝的模拟登陆,不得不说,淘宝的用户 ...
- 用爬虫实现验证码识别并模拟登陆和cookie操作、代理操作、线程池
一.模拟登陆 1.为什么要进行模拟登陆 有时,我们需要爬取一些基于个人用户的用户信息(需要登陆后才可以查看) 2.为什么要需要识别验证码 因为验证码往往是作为登陆请求中的请求参数被使用 3.验证码识别 ...
- python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票
对爬虫的简单介绍 1. 什么是爬虫? 请求页面并提取数据的自动化过程. 2. 爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...
- python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博
preface:最近的任务,还是爬微博.之前的用不上,post提交,还是不太熟悉,模拟登陆不了,故换种方式,用selenium模拟登陆,从此任何登录以及js调用都是浮云,我模拟登录分分钟解决.之前的时 ...
- 【Python】Scrapy爬虫实战(豆瓣电影 Top 250)
今天一天都在弄Scrapy,虽然爬虫起来真的很快,很有效率,但是......捣鼓了一天 豆瓣电影 Top 250:https://movie.douban.com/top250 安装好的scrapy ...
- 利用python爬虫技术本福特_Python爬虫技术(一)--模拟登陆
好了,最后上完整代码,当当当当~ # -*- coding: utf-8 -*- import requests import sys import urllib2 import re if __na ...
- python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...
- python爬虫实战(一)——豆瓣top250(re)
文章目录 一 . 原理 二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式 三 . 代码 一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...
- python实战(二)模拟登陆两小无猜网
知识点 当我们无法获得网页源代码的要考虑的几点 添加表头headers user-agent host.referer.origin 添加cookies缓存数据 通过会话获取网页代码 动态的获取网页的 ...
最新文章
- 服务器上安装运行fastqc
- android gpuimage显示的缩放和剪裁模式
- linux 同步 mac,WorkFlowy Beta for Mac(跨平台同步笔记工具)
- 华为4g模块 linux驱动程序,定制Android之4G-LTE模块驱动
- PhpStudy升级数据库到mysql5.7方法
- Swagger2接口注释参数使用数组
- alsa的动态库安装在哪里_linux 给运行程序指定动态库路径
- XCode 编辑器的shortcuts
- java的write无法写入,Java加载ImageIO.write的文件在.jar中不起作用
- 全国资格考试网报平台证件照片审核处理系统报错:打开照片文件类型还是JPG或JPEG格式,请选择JPG或JPEG格式照片文件。
- python登录华为路由器
- 读书笔记—中国跑步指南
- MyBatis crud练习
- 公寓宽带服务器无响应,利用RLDP协议解决网络环路故障
- 计算机多媒体最新参考文献,多媒体技术计算机论文,关于基于多媒体技术计算机教学因相关参考文献资料-免费论文范文...
- 文件上传黑名单和白名单校验
- Panda 用法( 基础 )
- 微信Android客户端的卡顿监控方案
- NSSCTF ez_unserialize
- 25款很好看的液晶数字字体下载