python登录网页_Python如何爬取需要登录的页面

用Cookies保存登录状态实现部分反反爬机制

使用cookies：直接将cookies信息放入到headers中

直接封装cookies ，然后requests.请求(cookies = { })

使用session信息保持用户登录

cookie是用来保存用户状态信息的，页面和页面直接不能共享

session用来在浏览器上保存cookie，并且session可以在同一域名下共享使用

session的意义：可以保持用户的登录会话

requests.请求方式()不带任何访问记录请求

requests.session().请求方式() 可以将浏览器产生的cookies信息保存在爬虫的session

#1.先创建一个session()机制

#2.需要登录网站的链接

#3.把里面的data,和headers都拿进来

import requests

s = requests.session()

url = 'http://www.renren.com/ajaxLogin/login'

data = {

'email': '***', #用自己的登录信息

'icode':'',

'origURL': 'http://www.renren.com/home',

'domain': 'renren.com',

'key_id': '1',

'captcha_type': 'web_login',

'password': '****',

'rkey': '0323aa4e9d1115b71c099a62a9c266da',

'f':''

}

headers = {

'Host': 'www.renren.com',

'Origin': 'http://www.renren.com',

'Referer': 'http://www.renren.com/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36',

'X-Requested-With': 'XMLHttpRequest'

}

response = s.post(url=url,data=data,headers=headers) # 参数cookies自动保存在session

print(response.text)

url1 = "http://www.renren.com/972994466/profile" # 进入后的网页地址

headers = {

'Host': 'www.renren.com',

'Origin': 'http://www.renren.com',

'Referer': 'http://www.renren.com/',

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/555.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/555.36'

}

response1 = s.get(url=url1,headers=headers)

print(response1.text)

python登录网页_Python如何爬取需要登录的页面相关推荐

python实现登录抓取_Python实现爬取需要登录的网站完整示例
本文实例讲述了Python爬取需要登录的网站实现方法.分享给大家供大家参考,具体如下: import requests from lxml import html # 创建 session 对象.这个 ...
python爬虫动态加载页面_Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
Python对网页信息进行爬取并对标题分词
本篇文章主要对新浪新闻进行python爬虫爬取. 一.主要使用的python库 requests bs4 json jieba 二.爬取网页的信息爬取的新浪网页:关于开学,钟南山说这两点非常重要! ...
python多线程爬取多个网页_python多线程爬取网页
#-*- encoding:utf8 -*- ''' Created on 2018年12月25日 @author: Administrator ''' from multiprocessing.du ...
python xpath循环_Python爬虫爬取北京二手房数据
点击蓝字"python教程"关注我们哟! 前言 Python现在非常火,语法简单而且功能强大,很多同学都想学Python!所以小的给各位看官们准备了高价值Python学习视频教程及 ...
python京东购买_python大规模爬取京东
python大规模爬取京东主要工具 scrapy BeautifulSoup requests 分析步骤打开京东首页,输入裤子将会看到页面跳转到了这里,这就是我们要分析的起点我们可以看到这个页面 ...
python批量评论_python批量爬取京东手机评论信息及星级
本科生在读,如有问题欢迎指正爬取京东评论信息:评论信息是动态加载的,所以在商品详情页不能直接爬取评论. 下面以一款手机为例,详细介绍python批量爬取京东评论. 找到评论区域 image.png ...
Python动态网页爬虫之爬取知乎话题回答
你是如何开始能写Python爬虫?就这个问题我查看了一下知乎,看到各种大牛写的心得,感觉受益匪浅,于是我有了一种冲动,想把各种大牛回答的心得爬取下来,以后可以细细品味. 首先我们在浏览器输入https ...
python websocket爬虫_Python如何爬取实时变化的WebSocket数据
一.前言作为一名爬虫工程师,在工作中常常会遇到爬取实时数据的需求,比如体育赛事实时数据.股市实时数据或币圈实时变化的数据.如下图: Web 领域中,用于实现数据'实时'更新的手段有轮询和 WebSo ...

python登录网页_Python如何爬取需要登录的页面

python登录网页_Python如何爬取需要登录的页面相关推荐

最新文章

热门文章