写在前面

博主工作长期需使用到数据库查询数据,因而接触到了数据库的一些皮毛知识。但是数据库和办公网不能互通,远端访问也没法实现,所以长期以来查询数据都相当麻烦。近期博主在自己的工作电脑上搭建了一个的MySQL数据库,并尝试导入一些数据进去,顺便自己查询,其中遇到了各种各样的问题,才深刻领悟到后端操作的艰难,写篇博客记录一下其中的艰难过程。

  • 编译环境:Python3.7
  • 编译器:pycharm
  • 数据库可视化软件:Navicat premium 15
  • 数据库:MySQL 8.0.20

注:以下内容,仅供用于学习交流,而且博主也对相关内容进行的打码处理,文件名和数据库名都是用的XXX来表示的。

数据库搭建

博主的数据库是用的MySQL,用的是CMD命令行方式安装和配置的,网上有很多教程,但是良莠不齐,有空了我专门写一篇博客记录安装过程,这边博客就不说了。不过在安装时,一定要牢记系统给你默认设置的连接密码,如果没记住的话,会让你崩溃,网上教程一堆,能实际解决问题的没两个,这个密码是关键,切记、切记。

数据库可视化软件

博主用的是Navicat premium 15,界面如下:

为什么需要这个软件呢,这个软件可以让你方便的连接你的数据库,也可以在里面写一些查询语句,甚至可以将数据导入到数据库,而且还支持批量导入,总之,非常方便,可以理解为数据库的前端操作软件。但实际使用过程却没有那么友好,比如我导入数据到我的数据库时,经常出现下面的问题:

finished with error
也不告诉你那里出了错,反正就是数据不全,大概只导入了1/4的数据。当然也不是所有的数据导入都会出现这个问题,但是确实头疼,博主网上搜了一堆教程没一个能解释明白的,所以才有了后面用Python导入数据库的尝试。不过用Navicat写查询语句确实方便,你的数据库需要这么个数据库可视化软件,不然你操作数据库,就永远像个黑客一样在CMD里写命令行来操作了。

批量合并数据文件

博主这边有很多txt文件,但都是同一批字段的数据,至于为什么会这样,博主也懒得解释。反正现在的工作是,把这些txt文件合并到一个文件里去,这样导入数据库也方便点不是吗?
当然你也可以自己在excel里面一个个的复制粘贴,但是感觉一是工作量太大,十来个文件还好,几百个文件你要这么操作,能让人抓狂,而且逼格也太低了,现在流行自动化办公。
直接上代码:

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 14 15:25:44 2020@author: HP
"""#合并一个文件夹下的多个txt文件
#coding=utf-8
import os
import pandas as pd
#获取目标文件夹的路径
filedir = r'C:\xxx\xxx'
#获取当前文件夹中的文件名称列表
filenames=os.listdir(filedir)
i=0
data = pd.read_csv(r'C:\xxx\xxx\xxx.txt',sep = '\t')
col = list(data)
data = pd.DataFrame(columns=col)#先遍历文件名
for filename in filenames:i+=1print(i)if i>0:filepath = filedir+'\\'+filenameprint(filepath)#遍历单个文件,读取行数# datai = pd.read_csv(filepath, sep='\t', dtype=str)datai = pd.read_csv(filepath, sep='\t', converters={'item': str})data = data.append(datai)'''for line in open(filepath, 'r', encoding='utf-8-sig', errors='ignore'):# print(str(line))f.writelines(line)# f.write('\n')'''
#关闭文件
# f.close()data.to_excel('XXX.xlsx', index=False)

来解释一下代码
filedir = r’C:\xxx\xxx’ 我把所有的文件放在这个文件夹里,注意是一个绝对的路径
filenames=os.listdir(filedir) 获取这个文件夹里面所有的文件列表

data = pd.read_csv(r'D:\xxx\xxx.txt',sep = '\t')
col = list(data)
data = pd.DataFrame(columns=col)

这里几行代码呢,目的是创建一个空的dataframe,这个空的dataframe的列就是上面那个文件夹里面某个文件的列名
后面就是写循环,往列表里面添加数据,然后将列表转换为excel文件了。

        '''for line in open(filepath, 'r', encoding='utf-8-sig', errors='ignore'):# print(str(line))f.writelines(line)# f.write('\n')'''

博主注释起来的这块代码,是写入txt的方式,看需求,当然,这里f没定义,可以在循环外面定义一下f,比如:

# f=open('result.txt','w')

将数据写入数据库

直接上代码了再解释吧

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 14 17:34:23 2020@author: HP
""""""
功能:将Excel数据导入到MySQL数据库
"""
import xlrd
import MySQLdb
import pandas as pdd = pd.read_csv('xxx.txt',sep = '\t')
col = list(d)
cols = ','.join(col)# Open the workbook and define the worksheet
book = xlrd.open_workbook("XXX.xlsx") # excel文件名
# book = xlrd.open_workbook("1.xlsx")
sheet = book.sheet_by_index(0) # excel文件中的sheet名# 建立一个MySQL连接
database = MySQLdb.connect(host="xxxxxxx", user="xxxx", passwd="xxxxxx", db="xxxxx", charset="utf8")# 获得游标对象, 用于逐行遍历数据库数据
cursor = database.cursor()# 创建插入SQL语句
# query = """INSERT INTO acd_file (%s) VALUES (%s)""" %(cols, ss)# 创建一个for循环迭代读取xls文件每行数据的, 从第二行开始是要跳过标题data_list = []
for r in range(1, sheet.nrows):row_list = []for t in range(len(col)):value_rt = sheet.cell(r,t).valuetype_rt = sheet.cell(r,t).ctypeif type_rt == 2:value_rt = str(int(value_rt))row_list.append(value_rt)data_list.append(row_list)# values = ','.join(data_list)# query = """INSERT INTO acd_file (%s) VALUES (%s)""" %(cols, s)# 执行sql语句# cursor.execute(query, values)val = ''
for i in range(0, len(col)):val = val + '%s,'result =cursor.executemany("insert into xxx (%s) values("  %(cols) + val[:-1] + ")", data_list)
print(result)# 关闭游标
cursor.close()# 提交
database.commit()# 关闭数据库连接
database.close()# 打印结果
print("")
print("Done! ")
print("")
columns = str(sheet.ncols)
rows = str(sheet.nrows)
print("我刚导入了 ", columns, " 列 and ", rows, " 行数据到MySQL!")

真的挺复杂,也不知道博主能不能讲明白,我挑一些自己认为比较晦涩的代码来解释吧

基础数据导入

d = pd.read_csv('xxx.txt',sep = '\t')
col = list(d)
cols = ','.join(col)

这里主要是把文件的列名变成一串字符串,join函数可以将列表转化为字符串,分割符号是’,'这个逗号

# Open the workbook and define the worksheet
book = xlrd.open_workbook("XXX.xlsx") # excel文件名
# book = xlrd.open_workbook("1.xlsx")
sheet = book.sheet_by_index(0) # excel文件中的sheet名

把上面合并的那个excel文件读进来,并且获取这个excel的sheet名,从上面批量合并数据文件这一步来看,博主其实只有一个sheet。

链接数据库

database = MySQLdb.connect(host="xxxxxxx", user="xxxx", passwd="xxxxxx", db="xxxxx", charset="utf8")

这行代码非常关键,关系到你能否把数据写到数据库里去,connect函数就是用来链接数据库的,里面的参数我来解释一下:

  • host:主机名,如果是访问本机数据库的话,一般是localhost,如果是访问网络数据库的话,就要写服务器的网络地址了
  • user:用户名,你数据库的用户名,这里就与自己当初搭建的数据库密切相关了
  • passwd:这个数据库用户名对应的密码,就是我前面提到的那个密码,很重要、很重要、很重要
  • db:你要讲数据写入的数据库名称
  • charset:这玩意儿很坑,字符格式,主要看你的数据库是什么样的,我的是utf-8,所以这里我写上了,但很多教程并没有这个,所以经常报错,没写上之前,我也是各种报错

数据处理

data_list = []
for r in range(1, sheet.nrows):row_list = []for t in range(len(col)):value_rt = sheet.cell(r,t).valuetype_rt = sheet.cell(r,t).ctypeif type_rt == 2:value_rt = str(int(value_rt))row_list.append(value_rt)data_list.append(row_list)

这段代码的目的是将表中所有的数据全部取出来,并写入到data_list这个列表中
type_rt = sheet.cell(r,t).ctype用于获取每个字符的类型

ctype : 0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error

我将所有数字型的数据全部转换为字符串,便于完整的写入数据,至于到哪里去把字符串修改回来,这个可以到Navicat里面去设置。当然,这不是最佳的数据处理方式,只是比较适合博主的数据而已

写入数据库

val = ''
for i in range(0, len(col)):val = val + '%s,'result =cursor.executemany("insert into xxx (%s) values("  %(cols) + val[:-1] + ")", data_list)

变量val用来生成一串’%s’这个玩意儿,val[:-1]用切片切掉最后一个逗号,其实这里有更简单的写法,像前面一样用join函数

s =['%s']*len(col)
ss = ','.join(s)

这里的ss和val[:-1]是等价的。
executemany是批量写入函数,“insert into xxx (%s) values(” %(cols) + val[:-1] + ")"中的xxx是数据表。还有另外一种写法,不用批量导入,而是用execute函数,每读一行,就写一行,写在循环里面,但是当时老是报错,我就没继续下去了。
后面就是常规的数据库操作了
当然,整个过程不断的报错,比如报错说我的字符串长度太长了,等等,要在数据库里面修改一些参数,可能每个人遇到的问题不一样,遇到了就去网上搜索教程,基本都能解决。
至此完成了数据的写入,接下来看看怎么在Python里查询数据

Python操作数据库查询数据

还是先上代码

# -*- coding: utf-8 -*-
"""
Created on Thu Jul 16 09:33:42 2020@author: HP
"""import MySQLdb
import pandas as pdconn = MySQLdb.connect(host="xxxx", user="xxxx", passwd="xxxxx", db="xxxxx", charset="utf8")cur = conn.cursor()
query = """ select x1, x2, x3, x4 from table1where x1 >= 1and x1 < 100 """cur.execute(query)
result = cur.fetchall()
df_result = pd.DataFrame(list(result), columns=['x1','x2','x3','x4'])

第一步,链接数据库并登陆
第二步,写查询语句,select from where基本查询语法
第三步,执行查询语句
顺利出结果
相对来说,要简单的多

写在后面

从博主决定搭建数据库到最后打通数据库,总体来说,感觉很费劲,也走了很多弯路,给我的感觉就是后端的东西要比前端复杂一点,当然,博主水平有限,也就目前的认知水平这样,前端的东西其实也很复杂,只是我个人接触的相对多一点而已。
不过还是很开心的,毕竟又get了个新技能。

Python批量操作文件写入数据库及从数据库取数据相关推荐

  1. Python批量操作文件写入数据库及从数据库取数据!

    写在前面 博主工作长期需使用到数据库查询数据,因而接触到了数据库的一些皮毛知识.但是数据库和办公网不能互通,远端访问也没法实现,所以长期以来查询数据都相当麻烦.近期博主在自己的工作电脑上搭建了一个的M ...

  2. python怎么把数据写入txt-如何将python中文件写入TXT

    这篇文章主要介绍了如何将python中文件写入TXT,小编觉得挺不错的,现在分享给大家,也给大家做个参考.一起跟随小编过来看看吧 1.自己写入txt 直接上核心代码:with open("d ...

  3. python writeline_Python文件写入函数 write()和writelines()

    注意:python中,文件对象写入函数只有 write() 和 writelines() 函数,而没有名为 writeline 的函数. write() 函数,可以向文件中写入指定内容.该函数的语法格 ...

  4. python循环遍历word,Python遍历文件写入word

    最近腾讯开放平台上架管理的比较严,需要软件著作权,申请软件著作权又需要五万行项目代码,想想就头大,正好最近在学习Python,好歹也是个程序员,这种重复性的工作,当然是要用程序解决咯,就写了一个遍历项 ...

  5. python:文件写入出现ASII编码

    查了很多资料. 如果我在json文件写入字符时,这样写 writer.write(json.dumps(res_uy) + "\n") 但是写入到文件就会出现 ascII字符. w ...

  6. php 爬数据库,php爬虫爬取数据并存储至数据库

    php爬虫爬取数据并存储至数据库 准备:php环境,phpspider请自行下载 下载地址:https://github.com/owner888/phpspider 文档:https://doc.p ...

  7. 关于H3 BPM数据库如何实现排序取数据的问题

    问题: 在打印模板中获取子表内容,可从数据库中取数据,而当前项目数据库里面数据按年度录入,但是只需要显示近3年的数据,插件如何实现排序取数据? 解决方法: 1.先直接写一个SQL语句,把近3年排序后的 ...

  8. python爬虫中文乱码_Python爬虫处理抓取数据中文乱码问题

    原博文 2013-12-17 17:15 − 乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在 ...

  9. PYTHON:json文件写小型的通讯录数据库

    目录 题目概述 关于json的几个函数 json 类型转换到 python 的类型: 首先定义菜单函数 定义显示信息的函数 定义查询的函数 定义插入新成员的函数 定义删除的函数 完整的代码 题目概述 ...

最新文章

  1. linux vnc 屏幕大小,Linux系统下vnc 的配置和使用方法
  2. 【Python】编程笔记10
  3. 计算机word基础知识菜单,Word试卷模板_电脑基础知识_IT/计算机_资料
  4. boost::mpl模块实现same_as相关的测试程序
  5. kafka 脚本发送_NWPC消息平台:在ecFlow系统中发送产品事件消息
  6. eclipse 查找
  7. HTML块,含样式的标签
  8. python for循环连续输入五个成绩判断等级_Python条件循环判断
  9. Linux 基本权限管理
  10. dell 服务器r410装系统,dell r410安装windows2003系统
  11. python 登陆微博 被删除 token_Python | 模拟微博登陆,亲测有效
  12. 站长紧急:新站要沉得住气
  13. 脱口而出的 “ 感谢的语言 ”
  14. Aandroid最简单最全面的热修复
  15. 魔兽私服Trinitycore架构设计分析之一
  16. net小区物业管理系统源码
  17. Pycharm使用小技巧 - 如何设置背景图片
  18. 小甲鱼python入门014课后题_小甲鱼零基础入门学习Python-014
  19. 【python】结巴分词案例(英文词组识别)
  20. android 反色 java_Android6.0状态栏图标原生反色操作

热门文章

  1. matplotlib绘制网格线、水平参考线及垂直参考区域(1)
  2. 泰坦钩长还是机器人钩长,LOL:下路4大钩子辅助,来评测一下,谁才是最强的那个?...
  3. windows应用商店进不去的原因
  4. php中tp_thinkphp中M()方法有什么用
  5. 教你用C++制作仿IE的网络浏览器,比其他浏览器好用多了?学到就是赚到!
  6. 关于陌陌签名验证机制的研究
  7. C语言switch case语句详解
  8. HDU 2602 骨头收集者
  9. 判定两棵树是否是同构树(C语言)
  10. android 关联mp3,Android开发本地及网络Mp3音乐播放器(四)实现音乐播放