场景:

有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_bar_record表读取1000w条唯一的waybill_no,然后作为INSERT SQL语句的一部分,填充到ts_order_waybill的waybill_no字段中

tl_waybill_bar_record

ts_order_waybill

另外tl_waybill_bar_record表waybill_no有部分重复

实现思路

思路1、利用MySql的LIMIT offset, length分页功能+ORDER BY primary_key按主键排序,循环读取数据,然后解析读取的数据,直到满足条件停止

例子:按5000条记录进行分页,循环2000000,从第0条记录开始,按seq_id主键升序排序,每次从不同的分页读取5000条记录

for i in range(0, 2000000):

query = "SELECT waybill_no, seq_id FROM ts_order_waybill ORDER BY seq_id LIMIT '%s', 5000" % str(i*5000)

result = test_platform_db.select_many_record(query)

……(后续处理)

说明:这种方式,有一定的局限性,分页数量似乎会受限制,似乎只能8000多页,另外当offset达一定值(55w)的样子,似乎会变得很卡,数据量较少的情况下,可以考虑这么做

注意:这里如果不适用ORDER BY语句,可能在不同分页取数据时,会取到重复的数据

思路2、先SELECT MIN(primary_key) 查询最小主键值key_min_value,然后每次查询时加WHERE primary_key>=key_min_value,并且加ORDER BY primary_key按主键升序排序,同时使用LIMIT length限制每次返回数据量大小

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

for i in range(0, 2000000):

query = SELECT waybill_no, seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_platform_db.select_many_record(query)

……(后续处理)

问题

跑程序的时候,经常会突然“卡死”,可能是Python 类库自身原因,也可能是数据库请求过于频繁,这样会导致获取的结果丢失,需要重头开始跑

解决方法:

一边跑,一边写入本地文件,同时输出上次读取的记录的位置(思路2来说,就是那个最小主键值),然后重新跑程序时,替换下初始值即可。

关键代码

test_db = MyDB('MYDB')

file_handler = open('./result/waybill_no.txt', 'r+', encoding='utf-8')

waybill_no_set = set() # 用于存储获取的waybill_no

# 读取上次获取的数据

line = file_handler.readline()

line = line.strip() # 去掉换行符

while line:

waybill_no_set.add(line)

line = file_handler.readline()

line = line.strip()

# 初始最小主键值

min_seq_id = '18e23705987643f9b84cd8c4c3efc47868944d88cb71480ea4b7659d2c9c6cba'

count = len(waybill_no_set) # 初始化以读取的waybill_no总数

for i in range(0, 2000000):

query = "SELECT waybill_no,seq_id FROM ts_order_waybill WHERE seq_id>='%s' ORDER BY seq_id LIMIT 5000" % min_seq_id

result = test_db.select_many_record(query)

if result[0] and result[1]:

for item in result[1]:

waybill_no = item[0]

if waybill_no not in waybill_no_set:

waybill_no_set.add(waybill_no)

min_seq_id = item[1]

count += 1

print(count)

print(min_seq_id) # 记录上次读取的“最后位置”

file_handler.write(waybill_no)

file_handler.write('\n')

file_handler.flush()

print('已获取waybill_no总数:', count)

if count > 10000000:

break

# 插入数据

for waybill_no in waybill_no_set:

time.sleep(0.1)

insert_sql = "insert into `tl_waybill_bar_record` (`waybill_no`, `op_code`, `bar_Scan_Tm`, `ows_remark`, `stay_why_code`, `extend_attach1`, `extend_attach2`, `extend_attach3`, `extend_attach4`, `extend_attach5`, `op_name`, `dist_name`, `outside_name`, `old_waybill_no`, `courier_code`, `stay_why_name`, `create_time`) " \

"values('%s','31','2018-05-09 20:02:33','广州市',NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,NULL,'2018-05-05 15:56:09');" % waybill_no

test_db.execute_insert(insert_sql, '')

count = count + 1

print(waybill_no)

print(count)

python读取千万级数据库数据类型_Python 基于Python从mysql表读取千万数据实践相关推荐

  1. python读取千万级数据库数据类型_解决python读取几千万行的大表内存问题

    Python导数据的时候,需要在一个大表上读取很大的结果集. 如果用传统的方法,Python的内存会爆掉,传统的读取方式默认在内存里缓存下所有行然后再处理,内存容易溢出 解决的方法: 1)使用SSCu ...

  2. Python 基于Python从mysql表读取千万数据实践

    基于Python 从mysql表读取千万数据实践   by:授客 QQ:1033553122 场景:   有以下两个表,两者都有一个表字段,名为waybill_no,我们需要从tl_waybill_b ...

  3. mysql数据库加载太慢_mysql千万级数据库插入速度和读取速度的调整记录

    一般情况下mysql上百万数据读取和插入更新是没什么问题了,但到了上千万级就会出现很慢,下面我们来看mysql千万级数据库插入速度和读取速度的调整记录吧. (1)提高数据库插入性能中心思想:尽量将数据 ...

  4. 如何实现mysql千万级数据库插入速度和读取速度

    mysql千万级数据库插入速度和读取速度的调整记录 2018.11.1 Mysql version 5.7.23 一般情况下mysql上百万数据读取和插入更新是没什么问题了,但到了上千万级就会出现很慢 ...

  5. 【优秀课设】武汉光迅科技22校招笔试Python题改进(增加GUI)——基于Python的125温度传感器模块数据处理

    武汉光迅科技22校招笔试Python题改进(增加GUI) 基于Python的125温度传感器模块数据处理 原本的基础代码: blog.csdn.net/weixin_53403301/article/ ...

  6. python论坛系统源码_十个基于Python的BBS论坛类开源web框架汇总(附源码地址

    1.LBForum LBForum是用django开发的论坛系统,LBForum主要注重部署的方便性和易用性,功能方面目前还比较简单. LBForum的开发尽量遵照Django可复用app原则,因此即 ...

  7. python识别ppt文件格式 ——(专栏:基于python编写简单office阅卷程序③)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  8. python识别excel文件格式 ——(专栏:基于python编写简单office阅卷程序②)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

  9. python识别word文件格式 ——(专栏:基于python编写简单office阅卷程序①)

    ● 研二在读学生,非工科非计算机专业,故代码简陋初级勿喷,本文仅为记录和快乐分享. ○ 感谢肯定,感谢点赞收藏分享,转载请注明本页出处即可. ____Ⓙ即刻@王昭没有君 本文仅为笔者摸索总结-欢迎订正 ...

最新文章

  1. 基于Python分析深圳程序员工资有多高?
  2. mysql5.6之key_buffer_size优化设置
  3. 利用OpenSSH实现基于秘钥的认证
  4. Android程序反编译
  5. ThreadPoolExecutor(上篇)
  6. Windows 平台编译 WebRTC
  7. 前端工程师后端转型实录
  8. Android官方开发文档Training系列课程中文版:后台加载数据之使用CursorLoader进行查询
  9. ACM基础与精选2018
  10. Unity 烘焙材质到单一贴图的脚本
  11. VSCode git工具
  12. YYLabel使用笔记
  13. python-pptx---插入表格
  14. 用代码实现通过人人网的登录
  15. 联通光猫后面串接路由器的问题
  16. iPhone 和iPad的Icon大小和设置
  17. 香蕉派BPI-M2 Berry 全志V40 Mali400 MP2 GPU使用
  18. web应用漏洞扫描工具实践——wmap
  19. HTML中详述jQuery事件绑定方式
  20. python示波器 波形数据_python - 将示波器的VISA波形导入Python - 堆栈内存溢出

热门文章

  1. 程序员年近三十,如何抉择,我打个样!
  2. 评《设计模式之禅》一书
  3. 【方向盘】程序人生 | 春风得意马蹄疾,一日看尽长安花
  4. [坑]微信支付首次支付成功,第二次调用失败
  5. 中国电信无线网服务器,如何使用路由器共享电信天翼无线网络?
  6. django 静态 html页面,Django模板:HTML静态模板的继承
  7. 学习笔记21.07.09:绘制色块图
  8. appnode怎么样_Linux面板AppNode免费开放使用,你还在用宝塔吗? - 立金哥
  9. 爱普生CH-TW5700T和爱普生CH-TW5800T好不好?配置怎么样?
  10. C#窗体应用程序之设置窗体名称和程序图标