1、页面解析

重所周知，想要对豆瓣进行大量爬虫处理，首先需要进行豆瓣网站的模拟登陆，携带cookies来访问网站。先对豆瓣网站进行模拟登陆，主要操作步骤如下所示

第一步：获取账号登陆链接

首先输入错误的账号密码，进行以下操作，

第二步：对登陆链进行分析

观察发现，每次账号登陆都是携带name,password两个参数进行的。

2、代码展示

主要代码展示

    url_basic = 'https://accounts.douban.com/j/mobile/login/basic'url = 'https://www.douban.com/'ua_headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}# basic中post请求的参数，一种模拟登陆的方式，观察在登陆页面上输入错误账号是否有post请求存在data = {'ck': '','name': '15937590817','password': '021412abc.','remember': 'false','ticket': ''}s = requests.session()# 先请求post请求，提交登陆参数表单s.post(url=url_basic, headers=ua_headers, data=data)# 携带登陆成功的cookie去请求get登陆response = s.get(url=url, headers=ua_headers)

3、总结

1、requests中函数session的使用

爬虫实战4：豆瓣的模拟登陆相关推荐

淘宝爬虫实战---requests库实现模拟登陆模块
淘宝网---爬虫 (一).requests库实现淘宝网模拟登陆最近想要写一个淘宝网的爬虫,具备模拟登陆.代理IP池.根据关键词爬取搜索页面商品数据,第一个目标就是淘宝的模拟登陆,不得不说,淘宝的用户 ...
用爬虫实现验证码识别并模拟登陆和cookie操作、代理操作、线程池
一.模拟登陆 1.为什么要进行模拟登陆有时,我们需要爬取一些基于个人用户的用户信息(需要登陆后才可以查看) 2.为什么要需要识别验证码因为验证码往往是作为登陆请求中的请求参数被使用 3.验证码识别 ...
python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票
对爬虫的简单介绍 1. 什么是爬虫? 请求页面并提取数据的自动化过程. 2. 爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...
python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博
preface:最近的任务,还是爬微博.之前的用不上,post提交,还是不太熟悉,模拟登陆不了,故换种方式,用selenium模拟登陆,从此任何登录以及js调用都是浮云,我模拟登录分分钟解决.之前的时 ...
【Python】Scrapy爬虫实战（豆瓣电影 Top 250）
今天一天都在弄Scrapy,虽然爬虫起来真的很快,很有效率,但是......捣鼓了一天豆瓣电影 Top 250:https://movie.douban.com/top250 安装好的scrapy ...
利用python爬虫技术本福特_Python爬虫技术（一）--模拟登陆
好了,最后上完整代码,当当当当~ # -*- coding: utf-8 -*- import requests import sys import urllib2 import re if __na ...
python爬虫实战获取豆瓣排名前250的电影信息--基于正则表达式
一.项目目标爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式二.确定页面内容爬虫地址:https://movie.douban.co ...
python爬虫实战(一)——豆瓣top250(re)
文章目录一 . 原理二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式三 . 代码一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...
python实战（二）模拟登陆两小无猜网
知识点当我们无法获得网页源代码的要考虑的几点添加表头headers user-agent host.referer.origin 添加cookies缓存数据通过会话获取网页代码动态的获取网页的 ...

爬虫实战4：豆瓣的模拟登陆

目录

1、页面解析

2、代码展示

3、总结

爬虫实战4：豆瓣的模拟登陆相关推荐

最新文章

热门文章