python 自动登录网站_分析某网站,并利用python自动登陆该网站,下载网站内容...
本帖最后由 愤怒的小车 于 2019-5-8 09:41 编辑
一:本代码是我研究了好久才写出来,七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载!
首先,搬上我们的主角网址,http://lavteam.org/,进去一看,是一个俄罗斯人创建的网站,七内容让我们不亦乐乎。
二:登陆
要进行分析,首先要注册一个账号,账号各位自己注册。
抓包发现,他的登陆请求地址为http://www.lavteam.org/,其中表单:
QQ图片20190508090034.png (14.08 KB, 下载次数: 1)
2019-5-8 09:01 上传
我们构造表单,进行请求,其函数为:
def login():
print('正在登陆......')
req = session.get(first_url)
data = {
'login_name': '账号',
'login_password':'密码',
'login': 'submit',
'image.x': '43',
'image.y': '11',
}
req = session.post(first_url,data = data)
三:查询
登陆进去就需要查找自己想要的内容,比如我们输入ventsim,然后进行抓包,抓包得到:
Request URL:http://lavteam.org/
Request Method:POST
其表单为:
QQ图片20190508090733.png (11.58 KB, 下载次数: 1)
2019-5-8 09:08 上传
接着我们再构造其请求,请求返回的内容列表我把他整理成字典的格式,方便在于我只要输入软件编号,就可以对该内容进行深入操作,我对多页内容都进行了遍历,所有的内容链接都整理了出来,代码如下:
def reach(ventsim):
data = {
'do': 'search',
'subaction': 'search',
'story': ventsim,
'x': '42',
'y':'9' ,
}
req = session.post(first_url,data = data).text
html = etree.HTML(req)
url = html.xpath('//div[@class="text-left"]/a/@href')
name = html.xpath('//div[@class="text-left"]/a/text()')
num = html.xpath('//div[@class="navigation ignore-select"]/a/text()')[-2]
f = {}
for i in range(len(name)):
f= urlprint(i,name)
for k in range(int(num)-1):
search_start = 2 + k
result_from = 11 + 10*k
data = {
'do': 'search',
'subaction': 'search',
'search_start': str(search_start),
'full_search':'0' ,
'result_from': str(result_from),
'story': ventsim
}
req = session.post('http://www.lavteam.org/index.php?do=search', data=data).text
html = etree.HTML(req)
url = html.xpath('//div[@class="text-left"]/a/@href')
name = html.xpath('//div[@class="text-left"]/a/text()')
for j in range(len(name)):
f[(k+1)*10+j] = url[j]
print((k+1)*10+j,name[j])
return f
四:进入详情界面
我们从上一步查询的返回值中,找到软件详情页面的链接,然后进行请求,抓包得到的结果:
Request URL:http://lavteam.org/2018/04/02/howden-group-ventsim-visual-premium-v4869.html
Request Method:GETIDA Console, Courier New, monospace">然后再用python进行构造这个请求,代码如下:
def intopage(url):
page = session.get(url).text
html = etree.HTML(page)
url = html.xpath('//a[@target="_blank" and @Class = "medium blue awesome"or @class = "medium red awesome" or @class = "small blue awesome" or @class = "small red awesome" or @class = "large blue awesome" or @class = "large red awesome"]/@href')
return url五、下载页面
分析可知,其点击进入下载页面的链接在下载页面可以抓包抓到,他是一个get请求,其抓包得到的headers如下:
Request URL:http://files.lavteam.org/leech?cat=warez%2FPrograms%2FVentSim&file=Howden.Ventsim.Visual.Premium.v4.8.6.9.rar
Request Method:GET其构造的代码如下:
def dawnload(url,path,Referer):
headers = {
'Host': 'files.lavteam.org',
'Referer': Referer,
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
rep = session.get(url,headers = headers).text
pat = 'accesskey="p">'
session_html = re.compile(pat).findall(rep)[0][2:-2].split('=')
session_url = 'http://files.lavteam.org/download/'+session_html[1][:-4]+'/'+session_html[3]
name = session_html[3]
# print(session_url)
yanzheng(url,path,session_url,name)
六、验证
验证码的验证,我们需要请求获取验证码图片,然后我是介入百度的文字识别接口,自动识别验证码内容,然后作为请求验证的表单进行求求验证,如果验证码不正确,则再次进行验证,如果验证码正确,则等待5s,进行下载,代码如下:def yanzheng(url,path,session_url,name):
img_url = 'http://files.lavteam.org/img.php?size=3'
res = session.get(img_url)
with open('img.jpg', 'wb') as f:
f.write(res.content)
img = shibie('img.jpg')
data = {
'vImageCodP': img,
'checkimagecode': '(unable to decode value)',
}
header = {
'Host': 'files.lavteam.org',
'Origin': 'http://files.lavteam.org',
'Referer': url,
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
res = session.post(url, data=data, headers=header).text
html = etree.HTML(res)
l = html.xpath('//div/@id')
if "downloadhtml" in l:
print('验证码正确!')
print('请等待10s!')
time.sleep(10)
if not os.path.exists(path):
os.makedirs(path)
data = {
'download': '(unable to decode value)',
}
heade = {
'Connection': 'keep-alive',
'Host': 'files.lavteam.org',
'Origin': 'http://files.lavteam.org',
'Referer': url,
'Upgrade-Insecure-Requests': '1',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',
}
print('开始下载'+ name +',可能需要很长时间,请耐心等待...')
res = session.post(session_url, data=data, headers=heade)
with open(path + name, 'wb') as f:
f.write(res.content)
print('下载完成!')
else:
print('验证码错误,请重新输入验证码!!!')
yanzheng(url,path,session_url,name)七、百度识别接口
在用百度文字是别的时候,我还对图片当中的早点进行了去燥,位的是识别率更高,其整体代码如下:
def shibie(img):
# 下面3个变量请自行更改
APP_ID = '11620307'
API_KEY = 'Nl2oc5uuoPPkGMtoLGCUGgVj'
SECRET_KEY = 'bF48ggt4d891NFhDHPmfjzGR3DvY4XLO'
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)
filePaths = img
filePath = Image.open(filePaths)
filePath = filePath.convert('L')
threshold = 127
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(2)
filePath = filePath.point(table, '1')
filePath.save("imgage.png")
def get_file_content(filePath):
with open(filePath, 'rb') as fp:
return fp.read()
# 定义参数变量
options = {
'detect_direction': 'true',
'language_type': 'CHN_ENG',
}
# 调用通用文字识别接口
filePathss = "imgage.png"
result = aipOcr.basicAccurate(get_file_content(filePathss), options)
img = result['words_result'][0]['words']
imgs = img.replace(' ','')
print(imgs)
return imgs
lavteamshibie.rar
(2.26 KB, 下载次数: 78)
2019-5-8 09:33 上传
点击文件名下载附件
详细代码
下载积分: 吾爱币 -1 CB希望得到大家的热心于评分。
python 自动登录网站_分析某网站,并利用python自动登陆该网站,下载网站内容...相关推荐
- python canvas画弧度_编程作战丨如何利用python绘制可爱皮卡丘?
好莱坞真人电影<精灵宝可梦:大侦探皮卡丘>预告片已经发布了,正片将于今年5月10日上映. 如果要做一个「童年梦想排行榜」的话,相信「拥有一只皮卡丘」这个梦想一定会名列前茅! 毕竟,谁不想揉 ...
- python画圆形螺旋线_硬核教程,利用 Python 搞定精美网络图!
硬核教程, 利用 Python 搞定精美网络图! 一.NetworkX 概述 NetworkX 是一个用 Python 语言开发的图论与复杂网络建模工具,内置了常用的图与复杂网络分析算法,可以方便的进 ...
- 利用python 对比相似度_牛逼了,利用Python实现“天眼系统”,只要照片就能了解个人信息...
前言 在有一些电影里面,特别是科幻高科技电影里面经常出现的一幕,获得某人的照片然后进行各种数据对比,然后找出这个人的个人信息:姓名.年龄.性别.工作等等. 理论上:你可以建立一个你感兴趣的百万级的数据 ...
- python模拟按键包_今天玩点啥:利用python之PyUserInput实现模拟鼠标键盘操作,抢红包?聊天?自动下载?...
一.PyUserInput安装 python3.5的PyMouse和PyKeyboard模块都集成到了PyUserInput模块中.在python3.5中,直接安装PyUserInput模块即可 Py ...
- 实战python网络爬虫豆瓣_三分钟教会你利用Python爬虫实现豆瓣电影采集(实战篇)...
一.项目背景 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务.可以记录想看.在看和看过的电影电视剧 .顺便打分.写影评.极大地方便了人们的生活. 今天小编以电视剧(美剧)为例,批量爬 ...
- 异动分析(四)利用Python计算指标贡献度
异动分析(四)利用Python计算指标贡献度 小P:有些异动的原因是多方面的,我看网上说可以通过计算贡献度进行量化. 小H:是的,容我想想- 虽然不是必要的,但有时候异动的原因多个,通过计算每个原因的 ...
- python爬虫登录微博_【新手学Python爬虫】微博网页PC端抓包分析和模拟登录
本帖最后由 杀猪用牛刀 于 2020-4-2 23:59 编辑 首先我是一个python爬虫的新手,模拟登录也是我看b站模拟登录教学加自己琢磨完成的,其中很多分析很粗糙,还希望大家多多包涵:lol 话 ...
- python 建站需求_玩转Django2.0---Django笔记建站基础十一(一)(音乐网站开发)
第十一章 音乐网站开发 本章以音乐网站项目为例,介绍Django在实际项目开发中的应用,该网站共分为6个功能模块分别是:网站首页.歌曲排行榜.歌曲播放.歌曲点评.歌曲搜索和用户管理. 11.1 网站需 ...
- python自动登录校园网_免费自动登录国科大校园网python脚本
UCAS-Network-Login A python program that helps you log in UCAS network for free. 免费自动登录国科大校园网 声明:本软件 ...
- 艾宾浩斯计划表自动生成网站_施工进度计划表横道图,自动出图超方便,建议收藏...
横道图,是一种非常实用的图表类型.施工进度计划的制定在工程项目里是很重要的,这可以大大提高施工单位的管理水平,是项目施工必备.作为一个在工地摸爬滚打好几年的人来说,这些更是不可或缺的.几年下来,也整理 ...
最新文章
- cad连接不同线段的端点_CAD绘图中两条线段快速无缝平齐对接
- HttpUrlConnection使用详解--转
- STL库容器vector at函数
- 第三次学JAVA再学不好就吃翔(part11)--基础语法之switch语句
- 那些年,我们见过的Java服务端乱象
- php 实例化模型出错,实例化model出错了
- 08-08 性能测试--分布式
- 超大Sql文件_超大文件_mysql数据导入到mycat数据库_亲测好用---Linux运维工作笔记053
- python怎么把图片变成字符_用Python把图片变成字符画
- 判断拐点的条件_专业的交易者如何捕捉振荡区间的双向拐点。上篇
- 光纤测试之常见光纤端面问题
- 支付宝 java 签名_支付宝APP支付(Java后台生成签名具体步骤)
- 【趣题】几堆石子轮流捡,谁捡到最后的石子算输的游戏
- vue项目中实现汉字转拼音缩写
- matlab生成gif动图
- html5文本设置字体大小,HTML5 Canvas的文本设置字体和大小
- 建造者模式——画胖小人和瘦小人
- 微信公众号运营的七大问题,你遇到了吗?
- 微信公众号微信小程序申请出现的问题
- 线性代数行列式计算之元素拆分与凑项法
热门文章
- Bailian4109 公共朋友-Common Friends【关系】
- UVA11917 Do Your Own Homework【map】
- NUC1931 Problem D 区间素数【素数筛选】
- HDU1287 破译密码【密码】
- 动力系统 —— 液压与气压
- 标准模板库 STL 使用之 —— vector 使用 tricks
- numpy实用技巧(二)
- 电脑win7语音怎么测试软件,win7话筒怎么测试 win7话筒测试方法【图文】
- java布尔三目运算符_Java关系运算符,boolean运算符,三元运算符
- .sql文件如何执行_一条SQL查询语句是如何执行的?