Python办公之一：获取多组数据的每日平均值的近似值所对应的日期

一、需求

1、数据描述：1000个通道，每个通道每日不定时采集数据n份。

2、结果描述：每个通道每日取一组数据（日期，壁厚），要求壁厚是每日数据与平均值最接近的一个数。

3、原始数据图：

二、设计

1、读取原始数据

一共需要提取1000组、365天的数据，观察数据在excel表中的形式，结合后期处理方式，确定以字典包含列表的形式提取数据，方便后面对数据的操作

#获取excel需要操作的工作页
#参数：route：路径；sheet_name:工作页
def tab(route, sheet_name):data = xlrd.open_workbook(route)data.sheet_names()table = data.sheet_by_name(sheet_name)return table

#导入井口摄像头数据（数据形式以两列，同间隔格式）
'''
route:路径
sheet_name:工作页
number_lie:第几列开始取值
numbel_hang：第几行开始取值
n:探头个数
interval：相同数据的间隔（不同探头数据的日期行间隔）
返回值：返回一个列表，形式：list = [{'lie_1':['44078.7','44079.64', ...]},{'dlie_1':['21.17', '21.18', ...]}]
'''
def imp(route, sheet_name, number_lie, numbel_hang, interval, n):table = tools.MyLibrary.tab(route, sheet_name)lis = []dic01 = {}dic02 = {}num = 0for j in range(1, n+1):#1,2,3,4...12dic01['lie_' + str(j)] = [str(table.cell_value(i, numbel_hang-1+interval*num)) for i in range(number_lie-1, table.nrows)]dic02['dlie_' + str(j)] = [str(table.cell_value(i, numbel_hang+interval*num)) for i in range(number_lie-1, table.nrows)]num += 1lis.append(dic01)lis.append(dic02)return lis

2、筛选数据需要的工具

1、需要筛选数据，首先需要把数据卡在每天内，然后取每天对应壁厚值的平均值，读取的数据与指定日期对比，先生成一个指定日期列表来作为对比列表使用

#创建日期列表，参数date：最小日期；参数n：日期总数
'''
date:最小日期
n:需要计算的日期个数
'''
def riqi(date, n):li = []for i in range(n):li.append(date+i)return li

2、从excel中提取的数据是字符串形式，如果需要进行数学运算必须要转换数据类型，所以，还需要一个转换数据类型的函数

#转换提取数据类型
'''
li:接收一个需要转换成float类型的列表
'''
def zhuanhuan(li):l1 = []for i in li:l1.append(float(i))return l1

3、现在前期工作基本准备完毕了，我们需要开始对导入数据的字典进行处理，一次处理1000组数据显然很复杂，所以为了化繁为简，我们就处理一组数据，使每天所测量的日期和壁厚存在一个字典里，形成对应关系

#获取每组数据字的典形式
'''
date_li:日期列表
lis:需要处理的一套数据列表,[['44078.7','44079.64', ...],['21.17', '21.18', ...]]
n:第n套数据
返回值：[{1.2: 1, 1.1: 2, 1.8: 2.2}, {2.5: 2, 2.6: 3, 2.8: 4}, {3.1: 3, 3.4: 4}, {7.7: 1}, {8.3: 5}]
'''
def lie_dic(date_li, lis, n):li = []lie01 = lis[0]['lie_' + str(n)]#获取日期列表lie02 = lis[1]['dlie_' + str(n)]#获取壁厚列表lie01 = [i for i in lie01 if i != '']#去除列表中的空值，不去除无法进行比较运算lie02 = [i for i in lie02 if i != '']lie01 = zhuanhuan(lie01)#字符串类型转换为浮点类型lie02 = zhuanhuan(lie02)for i in date_li:dic = {}for j in range(len(lie01)):if lie01[j] > i and lie01[j] < (i+1):dic[lie01[j]] = lie02[j]li.append(dic)li1 = []for i in range(len(li)):#去除空的列表if bool(li[i]):li1.append(li[i])li = li1return li

4、现在我们已经将每日数据分开了，接下来就是计算出每日壁厚的平均值，与原平局值做差对比，选择一个最接近的值，利用角标关系对应出选出壁厚对应的日期，最后把它存在一个嵌套列表里面，方便后面的输出

#数据分组整理：
'''
m:每组数据字典形式，[{1.2: 1, 1.1: 2, 1.8: 2.2}, {2.5: 2, 2.6: 3, 2.8: 4}, {3.1: 3, 3.4: 4}, {7.7: 1}, {8.3: 5}]
re_list:每组数据列表形式，[[1.1, 2.6, 3.1, 7.7, 8.3], [2, 3, 3, 1, 5]]
'''
def group(m):res = []re_lie01 = []re_lie02 = []for i in range(len(m)):#循环大列表，得出每个字典c = []a = list(m[i].keys())b = list(m[i].values())c.append(a)c.append(b)res.append(c)for i in range(len(res)):avg = sum(res[i][1]) / len(res[i][1])chaji = []for j in res[i][1]:x = abs(avg - j)chaji.append(x)min_index = chaji.index(min(chaji))re_lie01.append(res[i][0][min_index])re_lie02.append(res[i][1][min_index])re_list = []re_list.append(re_lie01)re_list.append(re_lie02)return re_list

5、现在待输出的数据已经获得，接下来就需要输出到新的excel中了，在此之前，我们需要对输出到excel的格式进行设置：

#设置输出单元格格式
'''
name:字体样式名称
height：字体高度
bold：字体是否加粗
'''
def set_style(name, height, bold=False):style = xlwt.XFStyle()#初始化样式font = xlwt.Font()#创建字体样式font.name = namefont.bold = boldfont.color_index = 4font.height = heightstyle.font = fontreturn style

#写入excel
'''
re_list:每组数据列表形式，[[1.1, 2.6, 3.1, 7.7, 8.3], [2, 3, 3, 1, 5]]
n：写入excel的列号
path：写入路径
'''
def write_excel(re_list, n, path):r_xls = xlrd.open_workbook(path)  # 读取excel文件  r'H:\目标文件\最终数据.xls'# row = r_xls.sheets()[0].nrows  # 获取已有的行数excel = copy(r_xls)  # 将xlrd的对象转化为xlwt的对象table = excel.get_sheet(0)  # 获取要操作的sheetstyle = tools.MyLibrary.set_style('Times New Roman', 20 * 11)for i in range(len(re_list[0])):table.write(i, n, re_list[0][i], style)table.write(i, n+1, re_list[1][i], style)excel.save(path)

6、最后就是将数据逻辑输出：

#main，逻辑输出
#读取需要操作的数据
daoRuList = imp(r'H:\目标文件\02 BZ3-1X壁厚数据更新至2020.11.12.xls', '左侧101-112', 5, 3, 4, 12)
#生产日期范围列表
dateList = riqi(44078, 69)x = 0
for i in range(1000):#获取每天所测量的日期和壁厚对应的字典meiZuDic = lie_dic(dateList, daoRuList, i+1)#获取最终得出数据的列表meiZuList = group(meiZuDic)#循环1000组数据，并输出write_excel(meiZuList, x, r'H:\目标文件\最终数据.xls')x = x + 3

此方法来自一个正在学习python3全栈的小白~

欢迎大家评论、指正！