进入古诗文网站个人中心，绕过登录

古诗文网-古诗文经典传承

故意输错密码，点击登录，获取登录 url，以及登录所需要携带的参数

__VIEWSTATE: 5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc6X08+Op/yQUI/TYTDrCQsG2wjhuR1toG6DtR/X+VCCP9q/4hgbQhAn+4ZpfqNf3LdEo+Vd2BZLuo/EbUGrM=
__VIEWSTATEGENERATOR: C93BE1AE
from: http://so.gushiwen.cn/user/collect.aspx
email: 1378178205@qq.com
pwd: 4444444
code: LL1A
denglu: 登录

(1)解决反爬设置的隐藏域 __VIEWSTATE   __VIEWSTATEGENERATOR 一般看不到的数据都在页面的源码,在页面的源码中查找，找到了如下：

<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc6X08+Op/yQUI/TYTDrCQsG2wjhuR1toG6DtR/X+VCCP9q/4hgbQhAn+4ZpfqNf3LdEo+Vd2BZLuo/EbUGrM=" />
</div>
<div><input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="C93BE1AE" />
</div>

验证码 code

验证码是一张图片，可以把验证码图片下载到本地识别。此次就人工直接查看吧

源码：

from bs4 import BeautifulSoup
def Rgushiwen():#（1） 获取验证码、__VIEWSTATE、__VIEWSTATEGENERATORurl = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx'  # 登录接口headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}response = requests.post(url=url,headers=headers) # 获取页面源码content = response.textsoup = BeautifulSoup(content,'lxml')  # 解析页面源码viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value') # 获取 __VIEWSTATEviewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value') #获取 __VIEWSTATEGENERATOR# print(viewstate,viewstategenerator)code = soup.select('#imgCode')[0].attrs.get('src') # 获取验证码图片地址code_url = 'https://so.gushiwen.cn' + codesession = requests.session() # 通过session 的返回值使请求变成一个对象response_code =  session.get(code_url) # 验证码内容content_code = response_code.content  # 图片二进制获取with open('code.jpg','wb') as fp:fp.write(content_code)code_name = input('请输入验证码')# （2）登录url_post = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'data_post = {'__VIEWSTATE':viewstate,'__VIEWSTATEGENERATOR': viewstategenerator,'from':'http://so.gushiwen.cn/user/collect.aspx','email':'1378178205@qq.com','pwd': '123456oo','code': code_name,'denglu': '登录'}response_post = session.post(url=url,headers=headers,data=data_post)content_post = response_post.textwith open('gushiwen.html','w',encoding='utf-8') as fp:fp.write(content_post)

进入古诗文网站个人中心，绕过登录相关推荐

古诗文网站之网络爬虫
1. 下面是古诗文网站的网络爬虫代码 # encoding:utf-8 import requests import re import jsondef parse_page(url):# 1.请求网 ...
python爬取古诗文网站诗文一栏的所有诗词
写在前面曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...
用正则表达式爬取古诗文网站，边玩边学
用正则表达式爬取古诗文网站,边玩边学古诗文网站是一个充满了文化气息的网站,里面收录了大量的古代诗词和文章,对于喜欢文化和历史的人来说是一个非常不错的学习资源.但是如果需要大量下载或者获取古诗文网站上 ...
爬虫实战之爬取古诗文网站（详细）
爬取古诗文网站重点是练习正则表达式的使用链接变化 url_base = 'https://www.gushiwen.cn/default_{}.aspx' for i in range(1, 2) ...
python爬虫模拟登录古诗文网站
爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...
Python爬虫爬取古诗文网站项目分享
作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...
python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知下面包含了当前页面的所有信息,所以 ...
使用python解决验证码登录并爬取登录后的个人界面：本篇以古诗文网站为例
爬取总结记录:由于经验不足,个人尝试了很多方法,都失败了,查看了网站的上面别人的爬取经验,按照别人做的,但都没有成功. 几经波折最后终于解决了. 好了上代码: 其中有涉及到个人信息的,这里进行了模糊处 ...
超级鹰模拟登录古诗文网站
源码分享: 下面是超级鹰的源码,可以从他们的网站下载,我作了一点修改

进入古诗文网站个人中心，绕过登录

进入古诗文网站个人中心，绕过登录相关推荐

最新文章

热门文章