python登录网页_Python如何爬取需要登录的页面
用Cookies保存登录状态实现部分反反爬机制
使用cookies:直接将cookies信息放入到headers中
直接封装cookies ,然后requests.请求(cookies = { })
使用session信息保持用户登录
2.
cookie是用来保存用户状态信息的,页面和页面直接不能共享
session用来在浏览器上保存cookie,并且session可以在同一域名下共享使用
session的意义:可以保持用户的登录会话
requests.请求方式()不带任何访问记录请求
requests.session().请求方式() 可以将浏览器产生的cookies信息保存在爬虫的session
#1.先创建一个session()机制
#2.需要登录网站的链接
#3.把里面的data,和headers都拿进来
import requests
s = requests.session()
url = 'http://www.renren.com/ajaxLogin/login'
data = {
'email': '***', #用自己的登录信息
'icode':'',
'origURL': 'http://www.renren.com/home',
'domain': 'renren.com',
'key_id': '1',
'captcha_type': 'web_login',
'password': '****',
'rkey': '0323aa4e9d1115b71c099a62a9c266da',
'f':''
}
headers = {
'Host': 'www.renren.com',
'Origin': 'http://www.renren.com',
'Referer': 'http://www.renren.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36',
'X-Requested-With': 'XMLHttpRequest'
}
response = s.post(url=url,data=data,headers=headers) # 参数cookies自动保存在session
print(response.text)
url1 = "http://www.renren.com/972994466/profile" # 进入后的网页地址
headers = {
'Host': 'www.renren.com',
'Origin': 'http://www.renren.com',
'Referer': 'http://www.renren.com/',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36'
}
response1 = s.get(url=url1,headers=headers)
print(response1.text)
python登录网页_Python如何爬取需要登录的页面相关推荐
- python实现登录抓取_Python实现爬取需要登录的网站完整示例
本文实例讲述了Python爬取需要登录的网站实现方法.分享给大家供大家参考,具体如下: import requests from lxml import html # 创建 session 对象.这个 ...
- python爬虫动态加载页面_Python+Selenium爬取动态加载页面(2)
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
- Python对网页信息进行爬取并对标题分词
本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息 爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...
- python多线程爬取多个网页_python多线程爬取网页
#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.du ...
- python xpath循环_Python爬虫 爬取北京二手房数据
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
- python京东购买_python大规模爬取京东
python大规模爬取京东 主要工具 scrapy BeautifulSoup requests 分析步骤 打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点 我们可以看到这个页面 ...
- python批量评论_python批量爬取京东手机评论信息及星级
本科生在读,如有问题欢迎指正 爬取京东评论信息:评论信息是动态加载的,所以在商品详情页不能直接爬取评论. 下面以一款手机为例,详细介绍python批量爬取京东评论. 找到评论区域 image.png ...
- Python动态网页爬虫之爬取知乎话题回答
你是如何开始能写Python爬虫?就这个问题我查看了一下知乎,看到各种大牛写的心得,感觉受益匪浅,于是我有了一种冲动,想把各种大牛回答的心得爬取下来,以后可以细细品味. 首先我们在浏览器输入https ...
- python websocket爬虫_Python如何爬取实时变化的WebSocket数据
一.前言 作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: Web 领域中,用于实现数据'实时'更新的手段有轮询和 WebSo ...
最新文章
- 收藏 | 一文遍览CNN网络结构的发展
- eclipse MAT分析heap dump
- 创建mat二值图 matlab,OpenCV学习之路(二)——Mat对象
- 解决Eclipse debug卡慢问题!!!
- bind9 安装:部署自建dns系统
- ajax 返回flase,Django request.is_ajax返回false
- 聊聊RocksDB Compact
- Rem布局的原理解析
- 程序员里面开源_开源对年轻程序员意味着什么
- 《Head First设计模式》 读书笔记03 装饰对象
- springmvc和activemq的整合使用
- 世嘉MD游戏开发【十】:精灵动画,Sprite Animation
- windows 下杀手tomcat 进程
- 统一社会信用代码的校验
- MyBatis在字段返回为null不返回字段
- 谁说NTFS不支持UEFI启动的?启动U盘放不了超过4G的文件怎么办?Server2016 Win10 U盘UEFI启动制作方法...
- 数据库备份还原与分离附加
- CF25A IQ test
- LeetCode第319周赛题解
- 利用MQL进行MQL解析
热门文章
- 连接真机开发安卓(Android)移动app MUI框架 反馈意见、忘记密码、登录、底部选项卡、联系我们、导航等页面代码可拿——混合式开发(六)
- matplotlib的基本使用 附python代码详细讲解(基本图的绘制、样式、简单函数的使用)
- 20172324 2017-2018-2《程序设计与数据结构》实验三报告
- java第三课,流程控制语句
- meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1 /
- 【代码笔记】iOS-对UIView进行截图
- Java字符串找出4个字节长度的字符
- 经典的十个机器学习算法
- 吴恩达深度学习编程作业汇总
- PHP函数-判断字符是否在于指定的字符串中