目录

1、页面解析

2、代码展示

3、总结


1、页面解析

重所周知,想要对豆瓣进行大量爬虫处理,首先需要进行豆瓣网站的模拟登陆,携带cookies来访问网站。先对豆瓣网站进行模拟登陆,主要操作步骤如下所示

第一步:获取账号登陆链接
首先输入错误的账号密码,进行以下操作,

第二步:对登陆链进行分析

观察发现,每次账号登陆都是携带name,password两个参数进行的。

2、代码展示

主要代码展示

    url_basic = 'https://accounts.douban.com/j/mobile/login/basic'url = 'https://www.douban.com/'ua_headers = {"User-Agent": 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)'}# basic中post请求的参数,一种模拟登陆的方式,观察在登陆页面上输入错误账号是否有post请求存在data = {'ck': '','name': '15937590817','password': '021412abc.','remember': 'false','ticket': ''}s = requests.session()# 先请求post请求,提交登陆参数表单s.post(url=url_basic, headers=ua_headers, data=data)# 携带登陆成功的cookie去请求get登陆response = s.get(url=url, headers=ua_headers)

3、总结

1、requests中函数session的使用

爬虫实战4:豆瓣的模拟登陆相关推荐

  1. 淘宝爬虫实战---requests库实现模拟登陆模块

    淘宝网---爬虫 (一).requests库实现淘宝网模拟登陆 最近想要写一个淘宝网的爬虫,具备模拟登陆.代理IP池.根据关键词爬取搜索页面商品数据,第一个目标就是淘宝的模拟登陆,不得不说,淘宝的用户 ...

  2. 用爬虫实现验证码识别并模拟登陆和cookie操作、代理操作、线程池

    一.模拟登陆 1.为什么要进行模拟登陆 有时,我们需要爬取一些基于个人用户的用户信息(需要登陆后才可以查看) 2.为什么要需要识别验证码 因为验证码往往是作为登陆请求中的请求参数被使用 3.验证码识别 ...

  3. python3 简单爬虫实战|使用selenium来模拟浏览器抓取选股宝网站信息里面的股票

    对爬虫的简单介绍 1.    什么是爬虫? 请求页面并提取数据的自动化过程. 2.    爬虫的基本流程 (1) 发起请求:通过url向服务器发起request请求,请求可以包含额外的header信息 ...

  4. python爬虫——基于selenium用火狐模拟登陆爬搜索关键词的微博

    preface:最近的任务,还是爬微博.之前的用不上,post提交,还是不太熟悉,模拟登陆不了,故换种方式,用selenium模拟登陆,从此任何登录以及js调用都是浮云,我模拟登录分分钟解决.之前的时 ...

  5. 【Python】Scrapy爬虫实战(豆瓣电影 Top 250)

    今天一天都在弄Scrapy,虽然爬虫起来真的很快,很有效率,但是......捣鼓了一天 豆瓣电影 Top 250:https://movie.douban.com/top250 安装好的scrapy ...

  6. 利用python爬虫技术本福特_Python爬虫技术(一)--模拟登陆

    好了,最后上完整代码,当当当当~ # -*- coding: utf-8 -*- import requests import sys import urllib2 import re if __na ...

  7. python爬虫实战 获取豆瓣排名前250的电影信息--基于正则表达式

    一.项目目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在txt文件中,html解析方式基于正则表达式 二.确定页面内容 爬虫地址:https://movie.douban.co ...

  8. python爬虫实战(一)——豆瓣top250(re)

    文章目录 一 . 原理 二 . 注意点 1 . 返回403 2 . 循环获取页面数据 3 . 正则表达式 三 . 代码 一 . 原理 python实战的第一个项目基本上都是豆瓣的top250吧hhhh ...

  9. python实战(二)模拟登陆两小无猜网

    知识点 当我们无法获得网页源代码的要考虑的几点 添加表头headers user-agent host.referer.origin 添加cookies缓存数据 通过会话获取网页代码 动态的获取网页的 ...

最新文章

  1. 服务器上安装运行fastqc
  2. android gpuimage显示的缩放和剪裁模式
  3. linux 同步 mac,WorkFlowy Beta for Mac(跨平台同步笔记工具)
  4. 华为4g模块 linux驱动程序,定制Android之4G-LTE模块驱动
  5. PhpStudy升级数据库到mysql5.7方法
  6. Swagger2接口注释参数使用数组
  7. alsa的动态库安装在哪里_linux 给运行程序指定动态库路径
  8. XCode 编辑器的shortcuts
  9. java的write无法写入,Java加载ImageIO.write的文件在.jar中不起作用
  10. 全国资格考试网报平台证件照片审核处理系统报错:打开照片文件类型还是JPG或JPEG格式,请选择JPG或JPEG格式照片文件。
  11. python登录华为路由器
  12. 读书笔记—中国跑步指南
  13. MyBatis crud练习
  14. 公寓宽带服务器无响应,利用RLDP协议解决网络环路故障
  15. 计算机多媒体最新参考文献,多媒体技术计算机论文,关于基于多媒体技术计算机教学因相关参考文献资料-免费论文范文...
  16. 文件上传黑名单和白名单校验
  17. Panda 用法( 基础 )
  18. 微信Android客户端的卡顿监控方案
  19. NSSCTF ez_unserialize
  20. 25款很好看的液晶数字字体下载

热门文章

  1. [kuanbin带我飞]的专题1---简单搜索
  2. Java 计算任意两天之间相隔的天数
  3. #发现你#桃子还是苹果——沉锚效应
  4. Spring切面通知执行的顺序(Advice Order)
  5. angularjs学习总结(资料收集)
  6. 影院管理系统Cinema Management System
  7. 网络知识点之-APR协议
  8. 博客写作模板——自用
  9. Keil中配置GCC编译器开发STM32
  10. 没有伞的孩子,必须努力奔跑!