添加必要的库,创建一个BUY类

import  requests,re,xlwt

class Color:

def __init__(self):

'''添加请求头'''

self.headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '

'(KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36',

}

#添加查询订单地址

self.port = 'http://xxxxxx.xxfaka.cn/?mod=query&data=xxxxxxxxxxx'

'''请求视频网页链接'''

def request_link(self):

self.response = requests.get(self.port, headers=self.headers)

self.html = self.response.text

print(self.html)

if __name__ == '__main__':

app= Color()

app.request_link()

直接运行发现拿到的数据是这样的(有点多就不全显示了)

var sec_defend_time……etCookie'sec_defend_time'…[][+!![]]+![]+[][+…

后来搜了点资料发现可能需要加cookie,然后又去网页找到cookie添加到请求头,然后headers就成这样了

self.headers = {

'Cookie':'mysid=bcd178f6a7784bdaf63c03e321cfb77a; PHPSESSID=gml9nd9psrik73840v6jem6mm4; sec_defend=baa2a7703f2f3326fa7a366428aef295ac40ff679f2fec0284578de88e87bcac; sec_defend_time=1',

'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '

'(KHTML, like Gecko) Chrome/77.0.3560.141 Safari/537.36',

}

我们再次运行代码就可以拿到网页数据了

初步打算一次直接匹配一个订单全部消息,但是发现有对括号导致一直匹配内容为空

(2020-12-24 01:09:09)
…太长了…


我用俩个replace将括号替换为空

self.html = self.html.replace('(','')

self.html = self.html.replace(')', '')

re.findall(r'…(.*?)…(.*?)…',self.html)

就这样直接匹配了六七个(.?)内容,发现总是不能准确扣到具体内容,有可能好几条订单被扣到一个(.?)里面。于是就换了个思路,一条语句扣一个内容,之后在for循环将对应数据放到一个列表,然后整体再放入列表组成二维列表

#获取订单时间

self.order_time = re.findall(r'(.*?).*?

商品名称:(.*?)

联系方式:.*?总价(.*?)元.*?(.*?)


',self.html)

#获取商品名称

self.pur_info = re.findall(r'',self.html)

#获取订单联系方式

self.contact_info = re.findall(r'',self.html)

#获取订单总价

self.price_total = re.findall(r'总价(.*?)元',self.html)

#获取账号不完全信息

self.km_info = re.findall(r'(.*?)


',self.html)

#获取下单总数

self.num_total = re.findall(r'

共(.*?)条 ', self.html)

temp_info =[]

for i in range(0,len(self.order_time)):

for lie in range(0,6):#lie

temp_info.append(self.order_time[lie])

temp_info.append(self.pur_info[lie])

temp_info.append(self.contact_info[lie])

temp_info.append(self.price_total[lie])

temp_info.append(self.km_info[lie])

temp_info.append(self.num_total[0])

temp_info.append(''.join(temp_info))

self.account_info.append(list(temp_info))

print(self.account_info)

写出来基本就是上面这样,运行发现四五秒以后直接卡死,然后,,,,半小时没动断点重新开机了,代码没保存今天再运行append那就报错了,想了半天没想出来就打算放弃这种方法,重新回到之前的思路,把数据一次都提取出来,既然这单个的都准确提取了,没准放到一起就可以了呢。想到就做把每个放到一起连接起来运行,结果直接生成了二维数据,成了!!!

然后我们开始转二维列表

for i in range(0,len(self.info)):

self.info[i] = list(self.info[i])

#通过这里来判断订单的三种情况

km_info = re.findall(r'>账号信息:(.*?)
',self.info[i][5])

if km_info==[]:

km_info = re.findall(r'卡密可能漏发,请联系客服',self.info[i][5])

if km_info == []:

km_net = re.findall(r'
卡密操作:

km_net = self.port +(''.join(km_net))#多张卡密提取链接

#尚未完成一个单子多张卡密提取

self.info[i][5] = km_info

到这里就初步的提取工作就完成了

python 爬取订单_【python实战】【持续更新】爬取某发卡网订单相关推荐

  1. 《Autosar从入门到精通-实战篇》总目录_培训教程持续更新中...

    目录 一.Autosar入门篇: 1.1 DBC专题(共9篇) 1.2 ARXML专题(共35篇) 1.2.1 CAN Matrix Arxml(共28篇) 1.2.2 ASWC Arxml(共7篇) ...

  2. Python 100个简单小例子(持续更新中)

    Python 100个简单小例子(持续更新中) 1 编写一个计算平年还是闰年的小例子其核心是年份可以整除4和400,且不是100的倍数且2000年是特殊年份为闰年! year = int(input( ...

  3. 《Autosar_BSW高阶配置》总目录_培训教程持续更新中...

    目录 0 基础"开胃菜"(共20+篇) 0.1 CANFD和Classic CAN介绍 0.2 UDS/OBD诊断网络层/传输层介绍 0.3 常用UDS诊断服务介绍 0.4 所有O ...

  4. 《Autosar_MCAL高阶配置》总目录_培训教程持续更新中...

    欢迎大家订阅<Autosar_MCAL高阶配置>专栏(可以理解为是Autosar培训教程),献上常用的案例和配置方法.下方整理了相关博文的链接(单击蓝色字体即可跳转),方便大家获取. 本专 ...

  5. 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战—持续更新(第三节:鸿蒙的技术特征)

    第三节:鸿蒙的技术特征 每篇内容都有视频讲解,可直接点击观看+关注,持续更新中 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战-持续更新(第二节:鸿蒙OS系统分布式操作) 硬件互助 ...

  6. 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程到实战—持续更新(第二节:鸿蒙OS系统分布式操作)

    老罗带你了解鸿蒙,专注于移动端领域技术的研发和推广,助力鸿蒙在国内技术推广和普及. 每篇内容都有视频讲解,可直接点击观看+关注,持续更新中 2021最新HarmonyOS鸿蒙系统应用开发之基础入门教程 ...

  7. python批量下载静态页面_爬虫实战之,爬取壁纸,批量下载

    一.前言 在开始写爬虫之前,我们先了解一下爬虫 首先,我们需要知道爬虫是什么,这里直接引用百度百科的定义 网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按 ...

  8. python爬取喜马拉雅_Python爬虫实战案例之爬取喜马拉雅音频数据详解

    这篇文章我们来讲一下在网站建设中,Python爬虫实战案例之爬取喜马拉雅音频数据详解.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 前言 喜马拉雅是专业的音频分享平台,汇集 ...

  9. python爬网易新闻_Python爬虫实战教程:爬取网易新闻;爬虫精选 高手技巧

    Python爬虫实战教程:爬取网易新闻:爬虫精选 高手技巧 发布时间:2020-02-21 17:42:43 前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有, ...

  10. powerbi中python网站数据_Power BI应用实战:批量爬取网页数据

    前面介绍PowerBI数据获取的时候,曾举了一个从网页中获取数据的例子,但当时只是爬取了其中一页数据,这篇文章来介绍如何用PowerBI批量采集多个网页的数据. 本文以智联招聘网站为例,采集工作地点在 ...

最新文章

  1. 收藏 | 服务器和存储技术知识
  2. tsconfig.json编译选项
  3. 企业壳的反调试及Hook检测分析
  4. 记一次 Python Web 接口优化
  5. s5-13 RIP 为什么会 衰败
  6. visual studio 2017 显示行号
  7. 鸿蒙微内核游戏,华为鸿蒙微内核
  8. ftp响应码以及解释说明是服务器返回,FTP命令字和响应码解释
  9. 草稿 listview动态绑定数据
  10. 数据库习题(填空题二)
  11. ptc转4-20mA热电阻变送器NI1000 NTC转0-10ma输出PWM
  12. Java求100000以内素数_100000以内的质数表
  13. python meizitu
  14. python --安装pylab
  15. AI热潮来袭||网友:AI会不会抢自己的饭碗啊~~~
  16. 小米android11适配计划,小米已推出安卓11的MIUI12稳定版,这32款手机在适配行列...
  17. 小歆记账 php,小歆记账WebApp项目(Web服务端)
  18. 数码数字字体_档案数字化技术规范
  19. PHP开发日志 ━━ php、javascript生成二维码的三种方法
  20. selenium基础知识大全(转)

热门文章

  1. C语言编程常用知识点概论——第一章基本数据类型、运算符
  2. android p 小米6,小米6 想升级 Android P,系统软件工程师发话:可适配
  3. 555 定时器的 3 种用法判断和解释
  4. B站小UP主抽奖简易解决方案
  5. Android Studio快速开发之道
  6. pandas Create,Read,Write
  7. 产品必备-用户故事模板
  8. 京东商城禁止一淘网蜘蛛抓取内容
  9. CentOS查找文件、文件夹、内容
  10. android 图片 灰色,Android实现制作灰色图片