python 爬取订单_【python实战】【持续更新】爬取某发卡网订单
添加必要的库,创建一个BUY类
import requests,re,xlwt
class Color:
def __init__(self):
'''添加请求头'''
self.headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',
}
#添加查询订单地址
self.port = 'http://xxxxxx.xxfaka.cn/?mod=query&data=xxxxxxxxxxx'
'''请求视频网页链接'''
def request_link(self):
self.response = requests.get(self.port, headers=self.headers)
self.html = self.response.text
print(self.html)
if __name__ == '__main__':
app= Color()
app.request_link()
直接运行发现拿到的数据是这样的(有点多就不全显示了)
var sec_defend_time……etCookie'sec_defend_time'…[][+!![]]+![]+[][+…
后来搜了点资料发现可能需要加cookie,然后又去网页找到cookie添加到请求头,然后headers就成这样了
self.headers = {
'Cookie':'mysid=bcd178f6a7784bdaf63c03e321cfb77a; PHPSESSID=gml9nd9psrik73840v6jem6mm4; sec_defend=baa2a7703f2f3326fa7a366428aef295ac40ff679f2fec0284578de88e87bcac; sec_defend_time=1',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
'(KHTML, like Gecko) Chrome/77.0.3560.141 Safari/537.36',
}
我们再次运行代码就可以拿到网页数据了
初步打算一次直接匹配一个订单全部消息,但是发现有对括号导致一直匹配内容为空
(2020-12-24 01:09:09)
…太长了…
我用俩个replace将括号替换为空
self.html = self.html.replace('(','')
self.html = self.html.replace(')', '')
re.findall(r'…(.*?)…(.*?)…',self.html)
就这样直接匹配了六七个(.?)内容,发现总是不能准确扣到具体内容,有可能好几条订单被扣到一个(.?)里面。于是就换了个思路,一条语句扣一个内容,之后在for循环将对应数据放到一个列表,然后整体再放入列表组成二维列表
#获取订单时间
self.order_time = re.findall(r'(.*?).*?
商品名称:(.*?)
联系方式:.*?总价(.*?)元.*?(.*?)
',self.html)
#获取商品名称
self.pur_info = re.findall(r'',self.html)
#获取订单联系方式
self.contact_info = re.findall(r'',self.html)
#获取订单总价
self.price_total = re.findall(r'总价(.*?)元',self.html)
#获取账号不完全信息
self.km_info = re.findall(r'(.*?)
',self.html)
#获取下单总数
self.num_total = re.findall(r'
共(.*?)条 ', self.html)
temp_info =[]
for i in range(0,len(self.order_time)):
for lie in range(0,6):#lie
temp_info.append(self.order_time[lie])
temp_info.append(self.pur_info[lie])
temp_info.append(self.contact_info[lie])
temp_info.append(self.price_total[lie])
temp_info.append(self.km_info[lie])
temp_info.append(self.num_total[0])
temp_info.append(''.join(temp_info))
self.account_info.append(list(temp_info))
print(self.account_info)
写出来基本就是上面这样,运行发现四五秒以后直接卡死,然后,,,,半小时没动断点重新开机了,代码没保存今天再运行append那就报错了,想了半天没想出来就打算放弃这种方法,重新回到之前的思路,把数据一次都提取出来,既然这单个的都准确提取了,没准放到一起就可以了呢。想到就做把每个放到一起连接起来运行,结果直接生成了二维数据,成了!!!
然后我们开始转二维列表
for i in range(0,len(self.info)):
self.info[i] = list(self.info[i])
#通过这里来判断订单的三种情况
km_info = re.findall(r'>账号信息:(.*?)
',self.info[i][5])
if km_info==[]:
km_info = re.findall(r'卡密可能漏发,请联系客服',self.info[i][5])
if km_info == []:
km_net = re.findall(r'
卡密操作:
km_net = self.port +(''.join(km_net))#多张卡密提取链接
#尚未完成一个单子多张卡密提取
self.info[i][5] = km_info
到这里就初步的提取工作就完成了
python 爬取订单_【python实战】【持续更新】爬取某发卡网订单相关推荐
- 《Autosar从入门到精通-实战篇》总目录_培训教程持续更新中...
目录 一.Autosar入门篇: 1.1 DBC专题(共9篇) 1.2 ARXML专题(共35篇) 1.2.1 CAN Matrix Arxml(共28篇) 1.2.2 ASWC Arxml(共7篇) ...
- Python 100个简单小例子(持续更新中)
Python 100个简单小例子(持续更新中) 1 编写一个计算平年还是闰年的小例子其核心是年份可以整除4和400,且不是100的倍数且2000年是特殊年份为闰年! year = int(input( ...
- 《Autosar_BSW高阶配置》总目录_培训教程持续更新中...
目录 0 基础"开胃菜"(共20+篇) 0.1 CANFD和Classic CAN介绍 0.2 UDS/OBD诊断网络层/传输层介绍 0.3 常用UDS诊断服务介绍 0.4 所有O ...
- 《Autosar_MCAL高阶配置》总目录_培训教程持续更新中...
欢迎大家订阅<Autosar_MCAL高阶配置>专栏(可以理解为是Autosar培训教程),献上常用的案例和配置方法.下方整理了相关博文的链接(单击蓝色字体即可跳转),方便大家获取. 本专 ...
- 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战—持续更新(第三节:鸿蒙的技术特征)
第三节:鸿蒙的技术特征 每篇内容都有视频讲解,可直接点击观看+关注,持续更新中 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战-持续更新(第二节:鸿蒙OS系统分布式操作) 硬件互助 ...
- 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战—持续更新(第二节:鸿蒙OS系统分布式操作)
老罗带你了解鸿蒙,专注于移动端领域技术的研发和推广,助力鸿蒙在国内技术推广和普及. 每篇内容都有视频讲解,可直接点击观看+关注,持续更新中 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程 ...
- python批量下载静态页面_爬虫实战之,爬取壁纸,批量下载
一.前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按 ...
- python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解
这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...
- python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧
Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...
- powerbi中python网站数据_Power BI应用实战:批量爬取网页数据
前面介绍PowerBI数据获取的时候,曾举了一个从网页中获取数据的例子,但当时只是爬取了其中一页数据,这篇文章来介绍如何用PowerBI批量采集多个网页的数据. 本文以智联招聘网站为例,采集工作地点在 ...
最新文章
- 收藏 | 服务器和存储技术知识
- tsconfig.json编译选项
- 企业壳的反调试及Hook检测分析
- 记一次 Python Web 接口优化
- s5-13 RIP 为什么会 衰败
- visual studio 2017 显示行号
- 鸿蒙微内核游戏,华为鸿蒙微内核
- ftp响应码以及解释说明是服务器返回,FTP命令字和响应码解释
- 草稿 listview动态绑定数据
- 数据库习题(填空题二)
- ptc转4-20mA热电阻变送器NI1000 NTC转0-10ma输出PWM
- Java求100000以内素数_100000以内的质数表
- python meizitu
- python --安装pylab
- AI热潮来袭||网友:AI会不会抢自己的饭碗啊~~~
- 小米android11适配计划,小米已推出安卓11的MIUI12稳定版,这32款手机在适配行列...
- 小歆记账 php,小歆记账WebApp项目(Web服务端)
- 数码数字字体_档案数字化技术规范
- PHP开发日志 ━━ php、javascript生成二维码的三种方法
- selenium基础知识大全(转)