进入古诗文网站个人中心,绕过登录
古诗文网-古诗文经典传承
故意输错密码,点击登录,获取登录 url,以及登录所需要携带的参数
__VIEWSTATE: 5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc6X08+Op/yQUI/TYTDrCQsG2wjhuR1toG6DtR/X+VCCP9q/4hgbQhAn+4ZpfqNf3LdEo+Vd2BZLuo/EbUGrM=
__VIEWSTATEGENERATOR: C93BE1AE
from: http://so.gushiwen.cn/user/collect.aspx
email: 1378178205@qq.com
pwd: 4444444
code: LL1A
denglu: 登录
(1)解决反爬设置的隐藏域 __VIEWSTATE __VIEWSTATEGENERATOR 一般看不到的数据都在页面的源码,在页面的源码中查找,找到了如下:
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="5KweV6Al3Bxs3eTONplApnHlJpUFEExiebrmbhSc6X08+Op/yQUI/TYTDrCQsG2wjhuR1toG6DtR/X+VCCP9q/4hgbQhAn+4ZpfqNf3LdEo+Vd2BZLuo/EbUGrM=" />
</div>
<div><input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="C93BE1AE" />
</div>
验证码 code
验证码是一张图片,可以把验证码图片下载到本地识别。此次就人工直接查看吧
源码:
from bs4 import BeautifulSoup
def Rgushiwen():#(1) 获取验证码、__VIEWSTATE、__VIEWSTATEGENERATORurl = 'https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx' # 登录接口headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Safari/537.36 SE 2.X MetaSr 1.0'}response = requests.post(url=url,headers=headers) # 获取页面源码content = response.textsoup = BeautifulSoup(content,'lxml') # 解析页面源码viewstate = soup.select('#__VIEWSTATE')[0].attrs.get('value') # 获取 __VIEWSTATEviewstategenerator = soup.select('#__VIEWSTATEGENERATOR')[0].attrs.get('value') #获取 __VIEWSTATEGENERATOR# print(viewstate,viewstategenerator)code = soup.select('#imgCode')[0].attrs.get('src') # 获取验证码图片地址code_url = 'https://so.gushiwen.cn' + codesession = requests.session() # 通过session 的返回值使请求变成一个对象response_code = session.get(code_url) # 验证码内容content_code = response_code.content # 图片二进制获取with open('code.jpg','wb') as fp:fp.write(content_code)code_name = input('请输入验证码')# (2)登录url_post = 'https://so.gushiwen.cn/user/login.aspx?from=http%3a%2f%2fso.gushiwen.cn%2fuser%2fcollect.aspx'data_post = {'__VIEWSTATE':viewstate,'__VIEWSTATEGENERATOR': viewstategenerator,'from':'http://so.gushiwen.cn/user/collect.aspx','email':'1378178205@qq.com','pwd': '123456oo','code': code_name,'denglu': '登录'}response_post = session.post(url=url,headers=headers,data=data_post)content_post = response_post.textwith open('gushiwen.html','w',encoding='utf-8') as fp:fp.write(content_post)
进入古诗文网站个人中心,绕过登录相关推荐
- 古诗文网站之网络爬虫
1. 下面是古诗文网站的网络爬虫代码 # encoding:utf-8 import requests import re import jsondef parse_page(url):# 1.请求网 ...
- python爬取古诗文网站诗文一栏的所有诗词
写在前面 曾经,我们都有梦,关于文学,关于爱情,关于一场穿越世界的旅行,如今我们深夜饮酒,杯子碰在一起,都是梦破碎的声音 曾经,面对诗文如痴如醉,而如今,已漠眼阑珊,风起云涌不再,呜呼哀哉,索一首诗篇 ...
- 用正则表达式爬取古诗文网站,边玩边学
用正则表达式爬取古诗文网站,边玩边学 古诗文网站是一个充满了文化气息的网站,里面收录了大量的古代诗词和文章,对于喜欢文化和历史的人来说是一个非常不错的学习资源.但是如果需要大量下载或者获取古诗文网站上 ...
- 爬虫实战之爬取古诗文网站 (详细)
爬取古诗文网站 重点是练习正则表达式的使用 链接变化 url_base = 'https://www.gushiwen.cn/default_{}.aspx' for i in range(1, 2) ...
- python爬虫模拟登录古诗文网站
爬取目标网站https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx?type=s 工具: ...
- Python爬虫爬取古诗文网站项目分享
作为一个靠python自学入门的菜鸟,想和大家分享自己写的第一个也是目前为止唯一一个爬虫代码 写爬虫要具备的能力基础:python入门基础,html5基础知识,然后这边用的是scrapy框架,所以还要 ...
- python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...
- 使用python解决验证码登录并爬取登录后的个人界面:本篇以古诗文网站为例
爬取总结记录:由于经验不足,个人尝试了很多方法,都失败了,查看了网站的上面别人的爬取经验,按照别人做的,但都没有成功. 几经波折最后终于解决了. 好了上代码: 其中有涉及到个人信息的,这里进行了模糊处 ...
- 超级鹰模拟登录古诗文网站
源码分享: 下面是超级鹰的源码,可以从他们的网站下载,我作了一点修改
最新文章
- C#强化系列文章四:匿名方法的使用
- Javascript(JS)中的大括号{}和中括号[]详解
- 用例设计工具PICT — 输入组合覆盖
- 两款在线小游戏-e梦迷宫、恐龙跳一跳
- HDU-1087 Super Jumping! Jumping! Jumping!
- Mybatis参数Integer类型值为0 源码处理
- android弹出窗背景透明,Android Dialog 弹框之外的区域 默认透明背景色修改
- 进入浏览器下载文件,状态栏不显示下载图标
- 白噪声的matlab程序,matlab产生白噪声信号
- 锐捷交换机端口设置trunk模式并指定允许的vlan数据包通过
- 4chan php,4chan
- 基于zxing的彩色二维码生成与解析
- Kafka:分布式消息系统
- Java开发常用的在线工具
- laravel-excel导出并写入图片
- day 1 | 704. 二分查找、27. 移除元素
- MarkMind使用技巧
- 那些年,Android音视频开发那些事儿
- 第三十七章 Caché 命令大全 ZWRITE 命令
- stata F值缺失_计量经济学stata代码总结