某些网页需要输入账号密码才能进入到特定的页面,比如cdsn登陆之后才能进入自己的博客管理页面。
博客页面url:https://mp.csdn.net/postlist
登陆的方式有几种,如下具体描述。
假如没有输入用户名密码的原始爬取,代码

import urllib.requesturl = "https://mp.csdn.net/postlist"
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

运行之后,得到的html页面为

爬取的网站,会默认的回到登陆页面
所以需要使用用户名和密码的登陆方式。

方法一:
打开登陆页面,f12调出开发者工具,使用账号密码登陆,相应的在开发者工具network中查看该网页,点击后寻找到cookie
cookie中包含了账号密码信息,将cookie写入headers中,执行代码

import urllib.requesturl = "https://mp.csdn.net/postlist"
headers = {'User-Agent:': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36','cookie': "xxxxxxxxxxxxxxxxxxxxxxxxxx"}
req = urllib.request.Request(url=url, headers=headers)
content = urllib.request.urlopen(req)with open('a.html', 'w', encoding='utf-8') as f:f.write(content.read().decode('utf-8'))

打开a.html,页面为

方法二:
使用模拟登陆
模拟登陆就是先用账号密码模拟登陆,得到相应的cookie(python直接获取,不去查找),然后再用得到的cookie登陆网站
代码依次为

import urllib.request
import urllib.parse

python 带账号密码的爬取相关推荐

  1. Python爬虫【二】爬取PC网页版“微博辟谣”账号内容(selenium同步单线程)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  2. python爬虫 豆瓣影评的爬取cookies实现自动登录账号

    python爬虫 豆瓣影评的爬取cookies实现自动登录账号 频繁的登录网页会让豆瓣锁定你的账号-- 网页请求 使用cookies来实现的自动登录账号,这里的cookies因为涉及到账号我屏蔽了,具 ...

  3. Python爬虫【四】爬取PC网页版“微博辟谣”账号内容(selenium多线程异步处理多页面)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  4. Python爬虫【三】爬取PC网页版“微博辟谣”账号内容(selenium单页面内多线程爬取内容)

    专题系列导引   爬虫课题描述可见: Python爬虫[零]课题介绍 – 对"微博辟谣"账号的历史微博进行数据采集   课题解决方法: 微博移动版爬虫 Python爬虫[一]爬取移 ...

  5. python爬虫如何实现每天爬取微信公众号的推送文章

    python爬虫如何实现每天爬取微信公众号的推送文章 上上篇文章爬虫如何爬取微信公众号文章 上篇文章python爬虫如何爬取微信公众号文章(二) 上面的文章分别介绍了如何批量获取公众号的历史文章url ...

  6. Python 3.6模拟输入并爬取百度前10页密切相关链接

    1.安装扩展库mechanicalsoup,这个库依赖requests.beautifulsoup4等模块,一般会自动安装,如果失败的话,可以先安装依赖的其他扩展库. 2.分析百度网页源代码,找到用来 ...

  7. 转 Python爬虫实战一之爬取糗事百科段子

    静觅 » Python爬虫实战一之爬取糗事百科段子 首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来. 友情提示 糗事百科在前一段时间进行了改版,导致 ...

  8. Python爬虫实战一之爬取糗事百科段子

    点我进入原文 另外, 中间遇到两个问题: 1. ascii codec can't decode byte 0xe8 in position 0:ordinal not in range(128) 解 ...

  9. Python爬虫入门 | 7 分类爬取豆瓣电影,解决动态加载问题

      比如我们今天的案例,豆瓣电影分类页面.根本没有什么翻页,需要点击"加载更多"新的电影信息,前面的黑科技瞬间被秒--   又比如知乎关注的人列表页面:   我复制了其中两个人昵称 ...

最新文章

  1. KingFly独家爆料!网络赚黑钱,你安心吗?(气愤)
  2. Direct2D (11) : 画刷之 ID2D1LinearGradientBrush
  3. roller在eclipse中的部署
  4. CDC,CPaintDC,CClientDC,CWindowDC区别
  5. iOS警告-This block declaration is not a prototype
  6. 单片机平台的最小偏差圆弧插补算法
  7. LeetCode 3_Longest Substring Without Repeating Characters
  8. 有人不会使用计算机的反义,现代汉语练习题及答案
  9. ae2020不支持的视频驱动程序_英伟达发布支持GeForce GTX 1660 SUPER的新Linux图形驱动程序...
  10. 信奥中的数学:微积分 高等数学 数学分析
  11. (整理自网络)怎么样休息
  12. XJTU_选课小助手
  13. Semantic Proximity Search on Heterogeneous Graph by Proximity Embedding
  14. 四川创峄信息科技有限公司企业公章管理
  15. 日常报错:关于tomcat默认端口被占用的问题
  16. SpringMVC(三)——响应
  17. python 根据word生成ppt_python 生成 word、ppt 操作源码分享
  18. 茗创:脑电数据处理业务
  19. android camera viewport rect,如何判断元素是否在可视区域ViewPort
  20. 微雪2.9寸墨水屏在普中Z100(stm32f103zet6)板上点亮

热门文章

  1. Python 实现功能 --- 微信机器人
  2. 查看cpu是否支持avx2指令集
  3. 《北京青年报》:欧美手机漫游费怎么收?
  4. 【CF 应用开发大赛】副食品进销存系统
  5. 《你也能看得懂的Python算法书》学习笔记(四)
  6. 【Mysql】什么是死锁?如何避免死锁
  7. python虚拟环境配置
  8. 宋宝华:可以杀死的深度睡眠TASK_KILLABLE状态(最透彻一篇)
  9. python根据身份证前17位数计算第18位数
  10. nginx实现负载均衡的6种方式