python 带账号密码的爬取

某些网页需要输入账号密码才能进入到特定的页面，比如cdsn登陆之后才能进入自己的博客管理页面。
博客页面url：https://mp.csdn.net/postlist
登陆的方式有几种，如下具体描述。
假如没有输入用户名密码的原始爬取，代码

import urllib.requesturl = "https://mp.csdn.net/postlist"
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

运行之后，得到的html页面为

爬取的网站，会默认的回到登陆页面
所以需要使用用户名和密码的登陆方式。

方法一：
打开登陆页面，f12调出开发者工具，使用账号密码登陆，相应的在开发者工具network中查看该网页，点击后寻找到cookie
cookie中包含了账号密码信息，将cookie写入headers中，执行代码

import urllib.requesturl = "https://mp.csdn.net/postlist"
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie': "xxxxxxxxxxxxxxxxxxxxxxxxxx"}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

打开a.html，页面为

方法二：
使用模拟登陆
模拟登陆就是先用账号密码模拟登陆，得到相应的cookie（python直接获取，不去查找），然后再用得到的cookie登陆网站
代码依次为

import urllib.request
import urllib.parse

python 带账号密码的爬取相关推荐

Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
python爬虫豆瓣影评的爬取cookies实现自动登录账号
python爬虫豆瓣影评的爬取cookies实现自动登录账号频繁的登录网页会让豆瓣锁定你的账号-- 网页请求使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...
Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)
专题系列导引爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...
python爬虫如何实现每天爬取微信公众号的推送文章
python爬虫如何实现每天爬取微信公众号的推送文章上上篇文章爬虫如何爬取微信公众号文章上篇文章python爬虫如何爬取微信公众号文章(二) 上面的文章分别介绍了如何批量获取公众号的历史文章url ...
Python 3.6模拟输入并爬取百度前10页密切相关链接
1.安装扩展库mechanicalsoup,这个库依赖requests.beautifulsoup4等模块,一般会自动安装,如果失败的话,可以先安装依赖的其他扩展库. 2.分析百度网页源代码,找到用来 ...
转 Python爬虫实战一之爬取糗事百科段子
静觅 » Python爬虫实战一之爬取糗事百科段子首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示糗事百科在前一段时间进行了改版,导致 ...
Python爬虫实战一之爬取糗事百科段子
点我进入原文另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...
Python爬虫入门 | 7 分类爬取豆瓣电影，解决动态加载问题
比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒-- 又比如知乎关注的人列表页面: 我复制了其中两个人昵称 ...

python 带账号密码的爬取

python 带账号密码的爬取相关推荐

最新文章

热门文章