python爬虫之模拟登陆(CSDN篇)
请求大神帮助
最近想搞一下爬虫的模拟登陆,就想直接拿CSDN练手了,一开始还想着一篇文章写完,写到一半发现,大意了,CSDN有加密,得慢慢啃了,啃着啃着谁知道又发现问题了。
打开F12,查看网页源码
点击F5刷新,并勾选preserve log
勾选preserve log 是为了查看登陆成功后,也就是页面刷新前的网页文件,我们需要搞清楚它提交了什么样的参数。
进行一次账号登陆
这一次账号登陆就是为了搞清楚发送给服务器的参数,在这里建议使用错误的账号和密码,进行一次失败登陆,这样会方便的找到响应的文件
这个链接使用的是post方式,是向服务器发送数据
这里就是发送的数据的详细情况,可以直观地看到我们填写的账号密码(当然我这的是错误的),不过还有其他的数据,也就是我之前说的加密啦,还是需要花时间搞一下的。
import requests
import json# https://passport.csdn.net/v1/login/wap/login/doLogin
# post的提交链接
url = 'https://passport.csdn.net/v1/register/pc/login/doLogin'
header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/88.0.4324.104 Mobile Safari/537.36','accept': 'application/json,text/plain,*/*','connection': 'keep-alive','Content-Type': 'application/json;charset=UTF-8','refer': 'https://blog.csdn.net/m0_46104664',
}
data = {"pwdOrVerifyCode": 你的密码,"userIdentification": 你的账号,
}session = requests.session()
jsondata = json.dumps(data)
html = session.post(url, headers=header, data=jsondata)get_url = 'https://blog.csdn.net/m0_46104664'
get_header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/88.0.4324.104 Mobile Safari/537.36',
}
response = session.get(get_url, headers=get_header)
if response.status_code == 200:print(response.text)
但是我发现 ‘https://blog.csdn.net/m0_46104664’ 这个链接直接打开是可以的,也就是下面的代码可以直接运行且会成功
import requests
get_url = 'https://blog.csdn.net/m0_46104664'
get_header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0;WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/88.0.4324.104 Mobile Safari/537.36',
}
response = requsets.get(get_url, headers=get_header)
if response.status_code == 200:print(response.text)
而登录那部分的代码直接运行则会显示
然后我就懵了,我这算是个什么情况???
python爬虫之模拟登陆(CSDN篇)相关推荐
- python项目实战:模拟登陆CSDN
2019独角兽企业重金招聘Python工程师标准>>> 前言 今天为大家介绍一个利用Python模拟登陆CSDN的案例,虽然看起来很鸡肋,有时候确会有大用处,在这里就当做是一个案例练 ...
- Python爬虫之模拟登陆
女神找我倾诉,实验室实验选不上,刚出来就被秒了,让我帮她选实验,我想我这万年单身的手速估计还是抢不过我这些师兄们,干脆写一个脚本吧,这样以后女神就找我选实验了,废话少说,切入主题,看这篇教程首先得保证 ...
- python爬虫(一):模拟登陆微博
最近花了不少时间来学python爬虫,觉得还是有很多问题的,比如说requests.get获得Pixiv的网页源代码,一直获取不到,不过我猜测大概是headers的问题,准备之后处理. 废话少说我们先 ...
- 模拟登陆CSDN -- Python爬虫练习之正则表达式和cookie
这周学习的主题是正则表达式和cookie,原本是计划每天晚上11点下班到家,练上一两个钟就把这部分过了,结果这周各种事情和不再状态,所以没整完,直至今天才把相关问题过掉.其实这部分也挺不错的,也并没有 ...
- 湖南工业大学教务系统爬虫(模拟登陆篇)
湖南工业大学教务系统爬虫(模拟登陆篇) 之前写了一个教务系统的爬虫程序,可以根据用户要求爬取任何一部分的数据,也可以模拟提交数据,可能这也是部分工大计算机学生比较感兴趣的,所以今天就在这分享一下整个的 ...
- Python爬虫——Cookie模拟登录
文章目录 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 2.Handler处理器 Python爬虫--Cookie模拟登录 1.Cookie模拟登录 现在很多网站需要用户成功登录 ...
- 模拟登陆CSDN——就是这么简单
工具介绍 本篇文章主要是讲解如何模拟登陆CSDN,使用的工具是HttpClient+Jsoup 其中HttpClient主要是负责发送请求,而Jsoup主要是解析HTML 你可能对HttpClient ...
- python爬虫之爬取多篇含有关键词的文章标题和内容
python爬虫之爬取多篇含有关键词的文章标题和内容 实现的功能 需要用到的库 需要对html一些标签有一定的了解 代码设计思想 源代码 功能优化 Java版本 实现的功能 输入想要搜索的关键字和输入 ...
- Python网络爬虫之模拟登陆
为什么要模拟登陆 Python网络爬虫应用十分广泛,但是有些网页需要用户登陆后才能获取到信息,所以我们的爬虫需要模拟用户的登陆行为,在登陆以后保存登陆信息,以便浏览该页面下的其他页面. 保存用户信息 ...
- python爬虫怎么登录_Python爬虫基础-模拟登陆
为什么我们要让爬虫模拟登陆呢?有些内容只有登陆才能进行爬取,如知乎,不登录的主页只能看到注册和登陆 : 你想爬取自己的个人信息 有什么方法呢?cookie 在互联网发展的早期,由于大家的服务器都不是太 ...
最新文章
- FATE 集群部署 step1
- python如何让用户输入文件名并打开文件_(Python)如何让用户打开文本文件然后更改整数/数字...
- 人生第一次手术:0817
- win10中cmd拒绝访问授权
- Linux文件系统与文本处理常用命令总结
- 关于 XHTML 1.0 Transitional//EN 下的Relative问题
- 关于DButil的使用几点思考
- C++ 返回值优化(RVO,Return Value Optimization)
- Firefly加入OPEN AI LAB生态计划,推出AI开源主板
- SSM集成activiti6.0错误集锦(二)
- Unity 游戏框架之GameFramework和ET对比
- SN65HVD888DR应用 TPS61170DRVR中文资料_1.2A 转换器
- php网站源码木马查杀检测工具
- QQ 正在尝试读取你的浏览记录?这是“火绒拦截腾讯产品,腾讯道歉”的历史重现吗?
- 自定义气泡效果(BubbleView)
- win10关机后cpu风扇还在转_win10关机后风扇一直转,长按电源键才关闭怎么办
- dpdk-16.04 扩展新网卡驱动过程
- Python语言课程设计名片管理系统
- 重装win10系统后不能关机,最终解决方案
- k8s集群唯独一个节点nodeport不通问题调查
热门文章
- MentoHUST讲解教程(锐捷破解)
- 锐捷显示认证服务器不可用,win10系统下锐捷客户端认证失败的解决方法
- VC2008编译 配置 PortAudio
- 【计算机】数据结构-严蔚敏/清华大学P4
- User-Agent 汇总
- 蚁群算法(Ant Colony Optimization,ACO)介绍及MATLAB代码(求解旅行商问题TSP)
- 04-新拟物单选按钮样式
- android+抓取直播源,直播rtmp源地址抓取软件
- linux rhce教程,RHCE之路_Linux教程_Linux公社-Linux系统门户网站
- 短信业务 ——HTTP接口文档