1.通过搜索知道asammdf库可以把mdf文件直接转成csv,也可以直接把读取的内容转成DataFrame

2.pandas有个to_sql方法可以把DataFrame直接存入数据库,用法如下

df.to_sql(name='battery_2022_07_08', con=engine, chunksize=1000, if_exists='replace', index=None)

有了这两个方法后,分析数据就非常方便了,之前我还要自己手动建个模型,然后写数据导入的代码,现在完全不用了,只能说我们想要的大多数功能都已经写好了,只需要找到他们,然后看看怎么使用。

3.看全部数据格式是否一致

3.1获取一个目录的全部mdf文件,读取mdf并转成DataFrame,用pd.columns.difference()函数去判断列是否一致,不一致则打印不一样的列和文件名,探索后发现,有的多三列。

import os
file_dir = 'C:\\Users\\gw00305123\\Desktop\\下载\data'  #你的文件路径
all_mdf_naijiu = []
all_mdf_putong = []
def getFlist(path):for root, dirs, files in os.walk(file_dir):#print('root_dir:', root)  #当前路径#print('sub_dirs:', dirs)   #子文件夹#print('files:', files)     #文件名称,返回list类型for f in files:if f.endswith('.MDF'):if 'A样' in f:all_mdf_naijiu.append(root +"\\"+ f)else:all_mdf_putong.append(root +"\\" +f)getFlist(file_dir)

3.2 不同的列怎么处理

暂时按多列的数据建表

4.mdf数据里没有时间列,如果不加时间列,之后读取时不方便按日期筛选数据

考虑自己生成时间,搜了一下用pd.date_range生成,用法如下

 pd.date_range(start='1/1/2017', periods=10,freq='100L') #表示每隔100ms生成一个时间,一共生成10个

5.同一个日期文件夹内有多个mdf文件,文件命名也不规范,不知道这些文件是否都有用,且是否有重复数据,如果没有重复数据就好说。

6.想把所有excel文件转成pkl文件以加快读取速度,但是读取excel文件突然报错,

File is not a zip file

百度了一下,原来时读取excel引擎引起的,我之前用的openpyxl,这个引擎主要读取比较新的excel格式,比如xlsx,而比较老的excel格式比如xls就不行,而xlrd读xls就可以,读xlsx就不行,

总的来说就是,读xlsx用openpyxl,读xls用xlrd.

7.看了一会成为数据分析师的书

定量分析的3个阶段,6个步骤

阶段一 构建问题

步骤一 识别问题

步骤二 回顾之前的发现

阶段二 解决问题

步骤三 建模或选择变量

步骤四 收集数据

步骤五 分析数据

阶段三 传达分析结果并根据结果采取行动

步骤六 传达结果并采取行动

2022-07-12相关推荐

  1. 2022.07.12 第九小组 高小涵 学习笔记

    JS: 1.for循环: 1.let i = 0;初始化条件,当i=0时,循环开始 2. i < 10;判断条件,会和初始化条件配合循环的执行,决定了循环什么时候停止 3. 循环体:循环在重复做 ...

  2. 2022/07/12

    今天 时间安排基本没变 就是本来该跑步了早上下雨没跑步就爬了楼梯, 今天学的iframe,换行,横线,target属性,行寄标签,块级标签 图片显示,音频显示,视频显示,段落与标题,列表,然后做了对应 ...

  3. 【Vegas原创】导出Excel时,如何将数字格式转为文本格式?(07.12.13 Update)

    DataGrid: Asp.Net WebForm中DataGrid导出的时候,在ItemDataBound内  if(e.Item.ItemType == ListItemType.Item ||  ...

  4. win10每次开机都会自检系统盘(非硬件故障)——解决方案2019.07.12

    win10每次开机都会自检系统盘(非硬件故障)--解决方案2019.07.12 参考文章: (1)win10每次开机都会自检系统盘(非硬件故障)--解决方案2019.07.12 (2)https:// ...

  5. 【跃迁之路】【522天】程序员高效学习方法论探索系列(实验阶段279-2018.07.12)...

    @(跃迁之路)专栏 [跃迁之路]奖励金计划正式开始 从2018.7.1起,[跃迁之路]奖励金计划正式起航,从今以后,每月1日,我会将自己个人上月收入的1%计入[跃迁之路]奖励金池,积累到足够金额后,将 ...

  6. 【记录】ChatGPT|注册流程、使用技巧与应用推荐(更新至2022年12月14日)

      昨天,2022年12月13日,在下午和晚上,ChatGPT 就开始因为请求过多而写到一半就崩溃,出现network error,可见它的关注度确实是越来越可观了.   正好最近世界杯,有博客活动, ...

  7. 汇总2022年12月托福toefl考试/解析答案为你助力

    我喜欢车,2022年12月托福toefl考试/解析答案3069519625[汇总]就因为车的漂亮与先进.车的颜色多种多样,开得又快,所以我从小便喜欢车12月3日托福.12月4日托福.12月5日托福.1 ...

  8. HCIE-Routing Switching实验考试延期至2022年12月31日

    尊敬的考生: 由于受新冠疫情不可控因素影响,2022年上半年HCIE-Routing & Switching实验考试所在城市出现出行受控等情况,造成部分考生无法在2022年6月30日之前前往考 ...

  9. 阿尔茨海默最新研究进展(2022年12月)

    阿尔茨海默病(Alzheimer's disease, AD),俗称"老年痴呆症",是一种严重的神经退行性疾病,患者通常会出现以记忆力衰退.学习能力减弱为主的症状,并伴有情绪调节障 ...

  10. 信奥学习规划 信息学竞赛之路(2022.07.31)

    信奥(CSP-J/S初赛)公益讲座精选系列之考试形式介绍 信奥(CSP-J/S初赛)公益讲座精选系列之考试形式介绍_哔哩哔哩_bilibili 2022年信息学奥赛学习规划讲座 2022年信息学奥赛学 ...

最新文章

  1. java nio原理 epoll_多路复用 Select Poll Epoll 的实现原理(BIO与NIO)
  2. python怎么打开shell界面-使用IDLE的Python shell窗口实例详解
  3. [Win] 利用Memory DC抽取EXE的图标并保存为BMP文件
  4. Swift中的集合类之数组
  5. 为什么要把CV_8UC3(Vec3b)无符号整型转换成CV_32F(Vec3F)32位浮点数据类型?(在高精度下处理)
  6. 查看关于yum的配置
  7. Cookie和Session-学习笔记03【Session快速入门、Session细节】
  8. 51nod1836-战忽局的手段【期望dp,矩阵乘法】
  9. 转:权限管理——用户认证和用户授权
  10. python with关键字_完全理解Python关键字with与上下文管理器
  11. 【转载】Katalon Studio 基本用法--录制脚本并查看测试报告
  12. Pantera Capital CEO:比特币有望在今年夏天达到11.5万美元
  13. visreg:带你玩遍模型可视化
  14. windows打流工具IxChariot使用教程
  15. studioone机架效果模板_studioone3机架效果包
  16. 分享39个大数据可视化工具(数据分析必备)
  17. c语言自定义sum函数,c语言自定义函数
  18. Navicat Premium 15 注册出现 No All Pattern Found! File Already Patched?
  19. 怎么用wps将pdf转换成html,如何将PDF格式的文件转换成HTML格式
  20. Java技术实验三 货物进销管理系统

热门文章

  1. 电子罗盘在终端的应用
  2. 实时IP语音通信流程简介
  3. 没想到你是这样的“知了课堂”
  4. ffmpeg转码保留时间戳
  5. 微信公众号前端html,微信公众号开发(前端)
  6. 学生信息管理系统总结
  7. 魅族 刷机android 6.0,魅族mx6 flyme6
  8. Informatica批量导入、导出xml文件
  9. “保姆级教程“c语言开根号函数:sqrt()//文末附有详细c语言数学函数
  10. go语言 liteIDE 错误: 进程无法启动.