用Cookies保存登录状态实现部分反反爬机制

使用cookies:直接将cookies信息放入到headers中

直接封装cookies    ,然后requests.请求(cookies = {  })

使用session信息保持用户登录

2.

cookie是用来保存用户状态信息的,页面和页面直接不能共享

session用来在浏览器上保存cookie,并且session可以在同一域名下共享使用

session的意义:可以保持用户的登录会话

requests.请求方式()不带任何访问记录请求

requests.session().请求方式() 可以将浏览器产生的cookies信息保存在爬虫的session

#1.先创建一个session()机制

#2.需要登录网站的链接

#3.把里面的data,和headers都拿进来

import requests

s = requests.session()

url = 'http://www.renren.com/ajaxLogin/login'

data = {

'email': '***',  #用自己的登录信息

'icode':'',

'origURL': 'http://www.renren.com/home',

'domain': 'renren.com',

'key_id': '1',

'captcha_type': 'web_login',

'password': '****',

'rkey': '0323aa4e9d1115b71c099a62a9c266da',

'f':''

}

headers = {

'Host': 'www.renren.com',

'Origin': 'http://www.renren.com',

'Referer': 'http://www.renren.com/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36',

'X-Requested-With': 'XMLHttpRequest'

}

response = s.post(url=url,data=data,headers=headers) # 参数cookies自动保存在session

print(response.text)

url1 = "http://www.renren.com/972994466/profile" # 进入后的网页地址

headers = {

'Host': 'www.renren.com',

'Origin': 'http://www.renren.com',

'Referer': 'http://www.renren.com/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36'

}

response1 = s.get(url=url1,headers=headers)

print(response1.text)

python登录网页_Python如何爬取需要登录的页面相关推荐

  1. python实现登录抓取_Python实现爬取需要登录的网站完整示例

    本文实例讲述了Python爬取需要登录的网站实现方法.分享给大家供大家参考,具体如下: import requests from lxml import html # 创建 session 对象.这个 ...

  2. python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)

    注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...

  3. Python对网页信息进行爬取并对标题分词

    本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息 爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...

  4. python多线程爬取多个网页_python多线程爬取网页

    #-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.du ...

  5. python xpath循环_Python爬虫 爬取北京二手房数据

    点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...

  6. python京东购买_python大规模爬取京东

    python大规模爬取京东 主要工具 scrapy BeautifulSoup requests 分析步骤 打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点 我们可以看到这个页面 ...

  7. python批量评论_python批量爬取京东手机评论信息及星级

    本科生在读,如有问题欢迎指正 爬取京东评论信息:评论信息是动态加载的,所以在商品详情页不能直接爬取评论. 下面以一款手机为例,详细介绍python批量爬取京东评论. 找到评论区域 image.png ...

  8. Python动态网页爬虫之爬取知乎话题回答

    你是如何开始能写Python爬虫?就这个问题我查看了一下知乎,看到各种大牛写的心得,感觉受益匪浅,于是我有了一种冲动,想把各种大牛回答的心得爬取下来,以后可以细细品味. 首先我们在浏览器输入https ...

  9. python websocket爬虫_Python如何爬取实时变化的WebSocket数据

    一.前言 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: Web 领域中,用于实现数据'实时'更新的手段有轮询和 WebSo ...

最新文章

  1. 收藏 | 一文遍览CNN网络结构的发展
  2. eclipse MAT分析heap dump
  3. 创建mat二值图 matlab,OpenCV学习之路(二)——Mat对象
  4. 解决Eclipse debug卡慢问题!!!
  5. bind9 安装:部署自建dns系统
  6. ajax 返回flase,Django request.is_ajax返回false
  7. 聊聊RocksDB Compact
  8. Rem布局的原理解析
  9. 程序员里面开源_开源对年轻程序员意味着什么
  10. 《Head First设计模式》 读书笔记03 装饰对象
  11. springmvc和activemq的整合使用
  12. 世嘉MD游戏开发【十】:精灵动画,Sprite Animation
  13. windows 下杀手tomcat 进程
  14. 统一社会信用代码的校验
  15. MyBatis在字段返回为null不返回字段
  16. 谁说NTFS不支持UEFI启动的?启动U盘放不了超过4G的文件怎么办?Server2016 Win10 U盘UEFI启动制作方法...
  17. 数据库备份还原与分离附加
  18. CF25A IQ test
  19. LeetCode第319周赛题解
  20. 利用MQL进行MQL解析

热门文章

  1. 连接真机开发安卓(Android)移动app MUI框架 反馈意见、忘记密码、登录、底部选项卡、联系我们、导航等页面代码可拿——混合式开发(六)
  2. matplotlib的基本使用 附python代码详细讲解(基本图的绘制、样式、简单函数的使用)
  3. 20172324 2017-2018-2《程序设计与数据结构》实验三报告
  4. java第三课,流程控制语句
  5. meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1 /
  6. 【代码笔记】iOS-对UIView进行截图
  7. Java字符串找出4个字节长度的字符
  8. 经典的十个机器学习算法
  9. 吴恩达深度学习编程作业汇总
  10. PHP函数-判断字符是否在于指定的字符串中