应用场景:工作中经常遇到大量的数据需要整合、去重、按照特定格式导出等情况。如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢?

本文以17个 txt 文本,3万多条数据为例,使用 Python 连接 MySQL 数据库,实现快速操作。

别人加班干的活,我的 Python 小助手几秒钟就搞定了!

本文主要包括以下三方面内容:

  • 数据写入
  • 数据去重
  • 数据导出

将数据写入 MySQL 数据库

下图所示文件是本文的数据源:

我们的设想是:编写一个小程序,扔在这个文件夹里,双击后就可以自动读取每个 txt 文档中的数据,并写入数据库。

代码如下:

import pymysql
import os
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
cur = conn.cursor()
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY  (id));")
conn.commit()
path = os.getcwd()
files = os.listdir(path)
i = 0
for file in files:f = open(file,'r',encoding = 'UTF-8')next(f)for line in f:i += 1#print(line)sql = "insert into qq(qq) values(%s);"cur.execute(sql,line)print("插入第", i, "条数据!")conn.commit()f.close()
cur.close()
conn.close()

运行效果:

重点代码解释:

这段代码用到了 pymysql 和 os 两个库。

  • pymysql:用来操作 MySQL 数据库;
  • os:用来遍历所在文件夹下的所有文件。

现将主要代码解释如下:

1、遍历任意文件夹下所有文件名称

程序写好后,使用 pyinstaller 打包成 exe 程序,并放在要操作的文件夹下面。

通过 path = os.getcwd()命令,获取该 exe 文件所在目录。

通过 files = os.listdir(path)命令,获取 exe 文件所在目录下的所有文件名称,并存入 files 列表中。

这样我们就获得了所有的 txt 文件名称,你可以任意命名你的 txt 文件名,程序都能读出来。

2、将数据写入数据库

(1)连接数据库,并在数据库中创建新表

A. 连接到我的 qq 数据库

conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')

B. 创建新表 qq

在 qq 数据库中创建新表,表名称为 qq ,包含 2 个字段:id 字段为主键、自动递增;qq 字段为字符型,用于存储数据。

cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id))")

(2)将数据写入数据库

这里使用了两层循环:

for file in files:f = open(file,'r',encoding = 'UTF-8')next(f)for line in f:i += 1#print(line)sql = "insert into qq(qq) values(%s);"cur.execute(sql,line)print("插入第", i, "条数据!")conn.commit()f.close()

第一层循环是用来依次打开上述 17 个 txt 文件。

第二层循环是依次读取每个 txt 文件的每一行,并将改行数据插入数据库表 qq 的 qq字段。

至此就完成了数据的导入,总共32073条数据。

数据清洗

这里以去除重复值为例,简单介绍一下数据清洗。

1、创建一个新表,用来存储清洗后的数据

可以在 cmd 窗口下登陆 MySQL,打开 qq 数据库,执行下列操作:

CREATE TABLE qq_dist ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));

这样就创建了新表 qq_dist ,用来存储清洗后的数据,便于后期调用。

2、清洗数据

登陆 MySQL 后,执行下列操作:

insert into qq_dis(qq) select distinct qq from qq;

将从 qq 表中查找出的不重复的 qq 字段内容,插入到 qq_dist 表中的 qq 字段。

将数据按照特定格式导出

案例:将清洗后的数据的第101-200行导出到新的 txt 文本中。

代码如下:

import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', db='wxid', charset='utf8')
print("写入中,请等待……")
cur = conn.cursor()
sql = "select wxid from wd_dis limit 100,100;"
cur.execute(sql)
conn.commit()
alldata = cur.fetchall()
f = open('data101-200.txt','a')
i = 0
for data in alldata:i += 1f.write(data[0])f.flush()
f.close
cur.close()
conn.close()
print("写入完成,共写入{}条数据!".format(i))

重点代码解释:

1、 limit

MySQL 中 limit m,n 函数的含义是:从第 m+1 行开始读取 n 行。

所以,本案例中读取第101-200行,就是 limit 100,100

2、flush()

flush()函数一定要加上,它可以将缓冲区的数据写入文件中。否则就会出现生成的 txt 文档为空白的错误。

winform生成exe俩秒钟就退出_Python有多牛逼?三万多条数据,几秒钟全部搞定~相关推荐

  1. winform生成exe俩秒钟就退出_《一秒钟》是给电影的情书,也是给普通人的情书...

    文章来源于芭莎电影,作者Timmy 大欢腾,当属张艺谋执导电影<一秒钟>的上映. <一秒钟>海报 设计/有点意思 从2019年2月入围第69届柏林电影节主竞赛单元因为" ...

  2. 处理100万条数据 python_使用 Python 处理3万多条数据只要几秒钟

    应用场景:工作中经常遇到大量的数据需要整合.去重.按照特定格式导出等情况.如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢? 本文以17个 txt 文本,3万多条数据为例,使 ...

  3. 我用 Python 处理3万多条数据,只要几秒钟……

    应用场景:工作中经常遇到大量的数据需要整合.去重.按照特定格式导出等情况.如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢? 本文以17个 txt 文本,3万多条数据为例,使 ...

  4. python 写数据库几万条_使用 Python 处理3万多条数据只要几秒钟

    应用场景:工作中经常遇到大量的数据需要整合.去重.按照特定格式导出等情况.如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢? 本文以17个 txt 文本,3万多条数据为例,使 ...

  5. mysql 1100_mysql数据库选择,有1100个用户,每个用户每月生成一张表,使用中该表内每秒上传一条数据,数据量很大...

    mysql数据库,有1100个用户,每个用户每月生成一张表,用户登录在该表内每秒上传一条数据,预计每张表一个月共86W条数据,现在我搭建了mysql-cluster环境2个NDBD节点配置为8核CPU ...

  6. python识别pdf文字_Python 神工具包!翻译、文字识别、语音转文字统统搞定

    今天给大家介绍一款 Python 制作的实用工具包,包含多种功能: 音频转文字 文字转语音 截图 OCR文字识别 复制翻译 举个例子,比如截图 OCR 文字识别就有很多实用场景. 常会遇到有些 PDF ...

  7. [NET] 如何从 Winform 移植到 Webform [自己搞定HTTP协议]

    Winform 如何移植到 WebForm. 这个问题其实也就是要找一个好的方案,最大程度的复用现有的资源. 同时,WebForm的话,不一定要走ASPNET这条路,可以自己搞定HTTP协议的. 下图 ...

  8. Python图像处理之十行代码搞定圆型头像生成

    1 引言 最近有小伙伴咨询怎么用python来制作一个好看的圆形头像,如下所示的效果:左侧为原图,右侧为我们圆形头像生成图. 自从学了python来做图像处理,这种简单图像处理使用10行代码即可搞定. ...

  9. 【VS2019 C# Winform如何生成exe安装包】

    VS2019 C# Winform如何生成exe安装包 一. 安装扩展程序 二.新建安装程序 三.安装程序的生成 四.安装程序的测试 如果帮到了你,请点个赞再走!谢谢! 一. 安装扩展程序 检查是否有 ...

最新文章

  1. DV录像带导出一定要用1394
  2. 爷青回!16年前“打球AI”意外走红,程序员留下了自己的ICQ和MSN
  3. r语言三维柱状图_R语言三维图的绘制
  4. 吴恩达深度学习 —— 2.13 逻辑回归的向量化
  5. 适用于stuido one的虚拟贝斯手插件:UJAM Virtual Bassist ROYAL for Mac
  6. Python自动化中的元素定位xpath(二)
  7. 《电脑音乐制作实战指南:伴奏、录歌、MTV全攻略》——2.3 提取VCD、DVD视频中的音频...
  8. WEB前端工具推荐丨分享6个热门颜色选择器组件
  9. MATLAB中odeset的用法
  10. Google今日涂鸦:纪念居里夫人诞辰144周年
  11. 2020年中国干旱灾害受灾面积、饮水困难人口数量及造成经济作物损失分析[图]
  12. 12 张图看懂 CPU 缓存一致性与 MESI 协议,真的一致吗?
  13. ppt复现CVPR顶会流程图
  14. mysql只有32位的吗_#金鸡奖##星辰大海演员计划#32位青年演员曝光,并非只有周冬雨斩获过金马奖...
  15. 浪涌抑制专题-半导体放电管tss介绍
  16. HTML骨架和基本语法
  17. 研究生专业课计算机科学基础,计算机学科专业基础综合科目408综合教程及历年真题详解(最新版全国硕士研究生招生考试计算机科学与技术学科联考)...
  18. 北邮信通导论第三单元数字温度计
  19. 组播——IGMP协议讲解
  20. github开源代码gpl协议和lgpl协议的区别

热门文章

  1. SparkSQL实践
  2. 为什么要搭建数据平台
  3. openstack在xiandian界面登录提示无效证书_原产地证书自助打印来啦!
  4. 埋石图根点lisp代码_GPS测量作业流程.doc
  5. AcWing 285. 没有上司的舞会(树形DP)
  6. linux的文件与目录,linux-文件与目录
  7. elmentui的短信验证界面_[javascript] elementui下login登录页界面和js验证逻辑
  8. 光耦驱动单向可控硅_单向可控硅最筒单电路图大全
  9. 现代计算机网络发展为第几代,晶体管计算机是第几代_个人计算机使用的电子元器件_计算机网络最突出的(6)...
  10. c++ 结构体中不同类型的初始值_不同类型结构的厂房效果图大盘点