基于Python 从mysql表读取千万数据实践

 

by:授客 QQ:1033553122

场景:

 

有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_bar_record表读取1000w条唯一的waybill_no,然后作为INSERT SQL语句的一部分,填充到ts_order_waybill的waybill_no字段中

tl_waybill_bar_record

ts_order_waybill

另外tl_waybill_bar_record表waybill_no有部分重复

实现思路

思路1、利用MySql的LIMIT offset, length分页功能+ORDER BY primary_key按主键排序,循环读取数据,然后解析读取的数据,直到满足条件停止

例子:按5000条记录进行分页,循环2000000,从第0条记录开始,按seq_id主键升序排序,每次从不同的分页读取5000条记录

for i in range(0, 2000000):

query =  "SELECT waybill_no, seq_id FROM ts_order_waybill ORDER BY seq_id LIMIT '%s', 5000" % str(i*5000)

result = test_platform_db.select_many_record(query)

……(后续处理)

说明:这种方式,有一定的局限性,分页数量似乎会受限制,似乎只能8000多页,另外当offset达一定值(55w)的样子,似乎会变得很卡,数据量较少的情况下,可以考虑这么做

注意:这里如果不适用ORDER BY语句,可能在不同分页取数据时,会取到重复的数据

思路2、先SELECT MIN(primary_key) 查询最小主键值key_min_value,然后每次查询时加WHERE primary_key>=key_min_value,并且加ORDER BY primary_key按主键升序排序,同时使用LIMIT length限制每次返回数据量大小

 

min_seq_id =  '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

for i in range(0, 2000000):

query =  SELECT waybill_no, seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_platform_db.select_many_record(query)

……(后续处理)

问题

跑程序的时候,经常会突然“卡死”,可能是Python 类库自身原因,也可能是数据库请求过于频繁,这样会导致获取的结果丢失,需要重头开始跑

解决方法:

一边跑,一边写入本地文件,同时输出上次读取的记录的位置(思路2来说,就是那个最小主键值),然后重新跑程序时,替换下初始值即可。

关键代码

test_db = MyDB('MYDB')

file_handler = open('./result/waybill_no.txt', 'r+', encoding='utf-8')

waybill_no_set = set() # 用于存储获取的waybill_no

 

# 读取上次获取的数据

line = file_handler.readline()

line = line.strip() # 去掉换行符

while line:

waybill_no_set.add(line)

line = file_handler.readline()

line = line.strip()

# 初始最小主键值

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

count = len(waybill_no_set) # 初始化以读取的waybill_no总数

for i in range(0, 2000000):

query =  "SELECT waybill_no,seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_db.select_many_record(query)

if result[0] and result[1]:

for item in result[1]:

waybill_no = item[0]

if waybill_no not in waybill_no_set:

waybill_no_set.add(waybill_no)

min_seq_id = item[1]

count += 1

print(count)

print(min_seq_id)  # 记录上次读取的“最后位置”

 

                file_handler.write(waybill_no)

file_handler.write('\n')

file_handler.flush()

 

 

    print('已获取waybill_no总数:',  count)

if count > 10000000:

break

# 插入数据

for waybill_no in waybill_no_set:

time.sleep(0.1)

insert_sql = "insert into `tl_waybill_bar_record` (`waybill_no`, `op_code`, `bar_Scan_Tm`, `ows_remark`, `stay_why_code`, `extend_attach1`, `extend_attach2`, `extend_attach3`, `extend_attach4`, `extend_attach5`, `op_name`, `dist_name`, `outside_name`, `old_waybill_no`, `courier_code`, `stay_why_name`, `create_time`) " \

"values('%s','31','2018-05-09 20:02:33','广州市',NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,'2018-05-05 15:56:09');" % waybill_no

test_db.execute_insert(insert_sql, '')

count = count + 1

print(waybill_no)

print(count)

转载于:https://www.cnblogs.com/shouke/p/10157502.html

Python 基于Python从mysql表读取千万数据实践相关推荐

  1. python读取千万级数据库数据类型_Python 基于Python从mysql表读取千万数据实践

    场景: 有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_bar_record表读取1000w条唯一的waybill_no,然后作为INSERT SQL语句的 ...

  2. sparksql加载mysql表中的数据

    sparksql加载mysql表中的数据 <dependency><groupId>mysql</groupId><artifactId>mysql-c ...

  3. 从MySQL中读取股票数据——从零到实盘10

    前文介绍了把股票数据写入MySQL的过程,本文记录从MySQL中读取股票数据的过程. 到目前为止,我们在访问股票代码列表时,每次需要通过BaoStock重新下载.本文将把下载的股票代码保存到MySQL ...

  4. Python 基于python+mysql浅谈redis缓存设计与数据库关联数据处理

    基于python+mysql浅谈redis缓存设计与数据库关联数据处理 by:授客  QQ:1033553122 测试环境 redis-3.0.7 CentOS 6.5-x86_64 python 3 ...

  5. python基于Python的资产管理系统毕业设计-附源码201117

    摘 要 现代企业管理越来越强调利用有形资产来提供优质服务的能力,即通过资产管理来确保有形资产物尽其用.安全运行,在希望的时间和地点提供需要的设备,同时尽可能地降低运行和维护成本.资产管理系统为企业提供 ...

  6. Python基于python实现的http+json协议接口自动化测试框架源码(实用改进版)

    转载地址:https://www.cnblogs.com/clarke/p/5752527.html 1.写在前面 抛转引玉,仅供参考 2.开发环境 win7 64位 JetBrains PyChar ...

  7. Python提取多张excel表上的数据,合并汇总到一张新表

    本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理 以下文章来源于财会学习联盟,作者:我是刀哥啊 私信回复"资料" ...

  8. 利用python脚本一键为MySQL插入万条数据

    运行环境:Windows 10 技术栈:python3,MySQL8.x 编写目的 MySQL是我们研究开发时最常用的关系型数据库.当需要向MySQL数据库中插入大量数据时,一次一条地插入显然不得劲. ...

  9. Python 基于python实现ADSL宽带帐号,密码的获取及宽带拨号

    基于python实现ADSL宽带帐号的获取及宽带拨号     基本思想: 1.研究上网方式(实验环境为电信网线接入式ADSL,拨号方式PPPOE) 2.研究宽带帐号和密码生成规律(实验环境,宽带帐号为 ...

最新文章

  1. Windows下Redis如何永久更改密码
  2. oracle有text字段吗,Oracle Text简介
  3. 人人网SDK Demo项目学习获取系统Log类
  4. 张高兴的 .NET Core IoT 入门指南:(二)GPIO 的使用
  5. idae 安装的插件怎么删掉_X7 IE阻止我安装插件怎么办
  6. js setTimeout和setInterval区别
  7. 计算机linux运维日记,计算机的运维系统情况
  8. 华为路由器命令手册_华为路由器+蒲公英路由器,如何做双层路由器映射?
  9. Dede 删除文档同时文章中的图片的方法
  10. datatable的数据进行组内排序_排序算法学习分享(四)希尔排序
  11. 阿里云 redis mysql_Redis 和 MySQL数据一致
  12. json yeid_如何控制Scrapy yield的顺序
  13. PHP-Java-Bridge使用笔记
  14. 个人开发者都可享受 无服务器计算颠覆收费
  15. eclipse启动进入工作空间出现cound not restore workbench layout
  16. OPTEE的进程间通信(Inter-Process Communication, IPC)
  17. Linux pthread详解
  18. 电商销量预测方法综述
  19. 错误代码:40029, 错误信息:code 无效,微信原始报文:{“errcode“:40029,“errmsg“:“invalid code, rid: 63a4082d-7a02e2ba-1fa5
  20. 解决麒麟系统安装mysql后登录错误:‘Access denied for user ‘root‘@‘localhost‘

热门文章

  1. 贪心算法(Greedy Algorithm)最小生成树 克鲁斯卡尔算法(Kruskal#39;s algorithm)
  2. 去掉ILDasm的SuppressIldasmAttribute限制
  3. HowTO: Create an Event Log Source in code, without the Permission errors
  4. c#_where关键字
  5. 修改title样式_css常见样式命名规则
  6. mysql 创建date,在MySQL中从DATE和TIME创建DATETIME?
  7. Angular 运行报错 RouterModule.forRoot() called twice.
  8. C#调用非托管C++DLL:直接调用法
  9. opencv中的Rodrigues()函数
  10. python 简单数据库_Python打造一个简单的本地数据库