学习笔记


文章目录

  • cookie模拟登陆
    • 获取cookie
    • 爬取我的简介

cookie模拟登陆

有的时候,我们想要抓取一个网站,但是需要先登录才能访问它,如果不输入用户名和密码,我们就会一直停留在登录页面。

那我们该如何抓取呢?

这时,我们可以用cookie模拟登录。

获取cookie

我们以猫耳FM为例,咳咳咳,不知道有没有小伙伴玩猫耳啊,咳咳咳。

我先进入网站首页,同时开启网络抓包(右键打开审查元素–>点击Network–>点击All),再登录我的账号,最后截取携带登录信息的cookie的数据包:

数据包中的Request Headers信息:

accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8
accept-encoding:gzip, deflate, br
accept-language:zh-CN,zh;q=0.9
cookie:Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447
referer:https://www.missevan.com/member/login
upgrade-insecure-requests:1
user-agent:Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36

爬取我的简介

现在,我想获取我的主页中的简介:

我创建一个py文件,专门放我的请求头信息。

my_headers.py

headers = {
"accept":"image/webp,image/apng,image/*,*/*;q=0.8",
"accept-language":"zh-CN,zh;q=0.9",
"cookie":"Hm_lvt_91a4e950402ecbaeb38bd149234eb7cc=1588057449; Hm_lpvt_91a4e950402ecbaeb38bd149234eb7cc=1588059525; MSESSID=ss0bkgssd754dmosq13phbh7h6; token=5ea7ddff051cbec5bd6d1fd4%7Caef97ce98517a012%7C1588059647%7Cb46af3e345721caa; SERVERID=832fef4323c87b883d6becf9932943f1|1588059647|1588057447",
"referer":"https://www.missevan.com/member/login",
"user-agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36"
}

python爬虫代码:

# -*- coding: utf-8 -*-import requests
import my_headers
from lxml import etreeurl = 'https://www.missevan.com/mperson/homepage'
xpath = '//*[@id="t_u_n_a"]/text()'html = requests.get(url = url, headers = my_headers.headers).content.decode('utf-8')
parse_html = etree.HTML(html)
profit = parse_html.xpath(xpath)print('简介:', profit)

输出:

简介: ['\n                我是山羊的简介            ']

成功GET!


后记:如果我在浏览器上退出猫耳FM的登录了,程序即使带有cookie也会无法访问到我们要的HTML页面。如果我们保持浏览器的登录状态,但是headers中不写cookie,也无法获取到我们想要爬取的简介。

总之,就是出现了上面两种状况,我现在有点迷。

利用python爬虫(part15)--cookie模拟登陆相关推荐

  1. Python 爬虫实战,模拟登陆爬取数据

    Python 爬虫实战,模拟登陆爬取数据 从0记录爬取某网站上的资源连接: 模拟登陆 爬取数据 保存到本地 结果演示: 源网站展示: 爬到的本地文件展示: 环境准备: python环境安装 略 安装r ...

  2. Python爬虫实现--微博模拟登陆--涉及到的知识点,python包,实现代码详解。

    之前写过一篇关于爬虫的文章,其中提到了用python requests包请求网页,并用beautifulsoup解析. https://blog.csdn.net/qq_40589051/articl ...

  3. python爬虫使用selenium模拟登陆人人网

    谷歌浏览器:chromedriver驱动资源下载地址: https://chromedriver.storage.googleapis.com/index.html 人人网是我们10多年前,在校学生一 ...

  4. 利用cookie模拟登陆知乎

    我们知道一些网站是需要账号密码才可以登陆的,例如知乎.而利用requests库里的get方法的headers参数可以达到这个目的 首先在知乎的网页上登陆自己的知乎账号,利用chrome的开发者工具(F ...

  5. Scrapy框架的学习(10.Scrapy中的模拟登陆(使用cookie模拟登陆))

    1. 为什么需要模拟登陆? 获取cookie,能够爬取登陆后的页面的数据 2.使用cookie模拟登陆的场景 (1) cookie过期时间很长,常见于一些不规范的网站 (2) 能在cookie过期之前 ...

  6. PythonScript_003_通过Cookie模拟登陆人人网

    #!/usr/bin/env python # -*- coding:utf-8 -*-import urllib.request import http.cookiejar # 相当于Python2 ...

  7. 手把手教你利用 python 爬虫分析基金、股票

    手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...

  8. python爬虫怎么赚钱-个人利用Python爬虫技术怎么挣钱-10万被动收入...

    我利用Python爬虫技术年挣10万被动收入的方式,在正式聊Python爬虫技术之前,先来说说挣钱的事,说说作为一个自由职业或兼职者怎么利用爬虫来挣钱. 个人爬虫挣钱方法大致如下 爬虫技术挣钱方法1: ...

  9. python爬虫赚钱的经历-个人利用Python爬虫技术怎么挣钱-10万被动收入

    我利用Python爬虫技术年挣10万被动收入的方式,在正式聊Python爬虫技术之前,先来说说挣钱的事,说说作为一个自由职业或兼职者怎么利用爬虫来挣钱. 个人爬虫挣钱方法大致如下 爬虫技术挣钱方法1: ...

最新文章

  1. ---Mybatis3学习笔记(2)
  2. 【机器视觉】 reset_fuzzy_measure算子
  3. Python还能走多远?
  4. 用gambit学博弈论--完全信息动态博弈-扩展式表述的博弈的纳什均衡
  5. ajaxForm和ajaxSubmit实现form的ajax提交的方法
  6. 2023年度深圳市中小试基地认定资助申请指南
  7. 认知计算、大数据及人工智能革命
  8. 三维立体图的原理和欣赏方法
  9. 织梦栏目地址使用栏目名称首字母
  10. 关于win10无法打开.msi文件的解决方法
  11. Pygame显示文字
  12. Unity零基础到入门 ☀️| 近万字教程 对 Unity 中的 动画系统基础 全面解析+实战演练,你确定要错过吗?
  13. 前端换肤功能如何实现
  14. InsightFace又出新作!合成更真实更多样近红外人脸图片,助力“近红外-可见光”跨域人脸识别...
  15. CentOS7安装与克隆
  16. 2020 icpc济南 A - Matrix Equation (高斯消元求自由元个数)
  17. 精确查找top k和非精确查找top k
  18. 小程序源码:后台版本趣味测试微信小程序源码下载支持自定义问题等等
  19. 国内9大免费CDN汇总,除了加速乐,你还用过哪些?
  20. thymeleaf配置

热门文章

  1. python创建脚本文件_python创建文件备份的脚本
  2. AOP概述及实现原理
  3. 使用django创建一个单表查询的图书管理系统
  4. 特殊权限-软连接-硬链接
  5. ***解决UEditor编辑器无法插入第三方视频地址
  6. NAO机器人学习小计
  7. 在Cloud9上搭建Yii开发环境
  8. 线上redis服务内存异常分析。
  9. 窝里斗,只给微软看笑话
  10. ASP.NET,IE6下URL中文乱码问题