2022-07-12
1.通过搜索知道asammdf库可以把mdf文件直接转成csv,也可以直接把读取的内容转成DataFrame
2.pandas有个to_sql方法可以把DataFrame直接存入数据库,用法如下
df.to_sql(name='battery_2022_07_08', con=engine, chunksize=1000, if_exists='replace', index=None)
有了这两个方法后,分析数据就非常方便了,之前我还要自己手动建个模型,然后写数据导入的代码,现在完全不用了,只能说我们想要的大多数功能都已经写好了,只需要找到他们,然后看看怎么使用。
3.看全部数据格式是否一致
3.1获取一个目录的全部mdf文件,读取mdf并转成DataFrame,用pd.columns.difference()函数去判断列是否一致,不一致则打印不一样的列和文件名,探索后发现,有的多三列。
import os
file_dir = 'C:\\Users\\gw00305123\\Desktop\\下载\data' #你的文件路径
all_mdf_naijiu = []
all_mdf_putong = []
def getFlist(path):for root, dirs, files in os.walk(file_dir):#print('root_dir:', root) #当前路径#print('sub_dirs:', dirs) #子文件夹#print('files:', files) #文件名称,返回list类型for f in files:if f.endswith('.MDF'):if 'A样' in f:all_mdf_naijiu.append(root +"\\"+ f)else:all_mdf_putong.append(root +"\\" +f)getFlist(file_dir)
3.2 不同的列怎么处理
暂时按多列的数据建表
4.mdf数据里没有时间列,如果不加时间列,之后读取时不方便按日期筛选数据
考虑自己生成时间,搜了一下用pd.date_range生成,用法如下
pd.date_range(start='1/1/2017', periods=10,freq='100L') #表示每隔100ms生成一个时间,一共生成10个
5.同一个日期文件夹内有多个mdf文件,文件命名也不规范,不知道这些文件是否都有用,且是否有重复数据,如果没有重复数据就好说。
6.想把所有excel文件转成pkl文件以加快读取速度,但是读取excel文件突然报错,
File is not a zip file
百度了一下,原来时读取excel引擎引起的,我之前用的openpyxl,这个引擎主要读取比较新的excel格式,比如xlsx,而比较老的excel格式比如xls就不行,而xlrd读xls就可以,读xlsx就不行,
总的来说就是,读xlsx用openpyxl,读xls用xlrd.
7.看了一会成为数据分析师的书
定量分析的3个阶段,6个步骤
阶段一 构建问题
步骤一 识别问题
步骤二 回顾之前的发现
阶段二 解决问题
步骤三 建模或选择变量
步骤四 收集数据
步骤五 分析数据
阶段三 传达分析结果并根据结果采取行动
步骤六 传达结果并采取行动
2022-07-12相关推荐
- 2022.07.12 第九小组 高小涵 学习笔记
JS: 1.for循环: 1.let i = 0;初始化条件,当i=0时,循环开始 2. i < 10;判断条件,会和初始化条件配合循环的执行,决定了循环什么时候停止 3. 循环体:循环在重复做 ...
- 2022/07/12
今天 时间安排基本没变 就是本来该跑步了早上下雨没跑步就爬了楼梯, 今天学的iframe,换行,横线,target属性,行寄标签,块级标签 图片显示,音频显示,视频显示,段落与标题,列表,然后做了对应 ...
- 【Vegas原创】导出Excel时,如何将数字格式转为文本格式?(07.12.13 Update)
DataGrid: Asp.Net WebForm中DataGrid导出的时候,在ItemDataBound内 if(e.Item.ItemType == ListItemType.Item || ...
- win10每次开机都会自检系统盘(非硬件故障)——解决方案2019.07.12
win10每次开机都会自检系统盘(非硬件故障)--解决方案2019.07.12 参考文章: (1)win10每次开机都会自检系统盘(非硬件故障)--解决方案2019.07.12 (2)https:// ...
- 【跃迁之路】【522天】程序员高效学习方法论探索系列(实验阶段279-2018.07.12)...
@(跃迁之路)专栏 [跃迁之路]奖励金计划正式开始 从2018.7.1起,[跃迁之路]奖励金计划正式起航,从今以后,每月1日,我会将自己个人上月收入的1%计入[跃迁之路]奖励金池,积累到足够金额后,将 ...
- 【记录】ChatGPT|注册流程、使用技巧与应用推荐(更新至2022年12月14日)
昨天,2022年12月13日,在下午和晚上,ChatGPT 就开始因为请求过多而写到一半就崩溃,出现network error,可见它的关注度确实是越来越可观了. 正好最近世界杯,有博客活动, ...
- 汇总2022年12月托福toefl考试/解析答案为你助力
我喜欢车,2022年12月托福toefl考试/解析答案3069519625[汇总]就因为车的漂亮与先进.车的颜色多种多样,开得又快,所以我从小便喜欢车12月3日托福.12月4日托福.12月5日托福.1 ...
- HCIE-Routing Switching实验考试延期至2022年12月31日
尊敬的考生: 由于受新冠疫情不可控因素影响,2022年上半年HCIE-Routing & Switching实验考试所在城市出现出行受控等情况,造成部分考生无法在2022年6月30日之前前往考 ...
- 阿尔茨海默最新研究进展(2022年12月)
阿尔茨海默病(Alzheimer's disease, AD),俗称"老年痴呆症",是一种严重的神经退行性疾病,患者通常会出现以记忆力衰退.学习能力减弱为主的症状,并伴有情绪调节障 ...
- 信奥学习规划 信息学竞赛之路(2022.07.31)
信奥(CSP-J/S初赛)公益讲座精选系列之考试形式介绍 信奥(CSP-J/S初赛)公益讲座精选系列之考试形式介绍_哔哩哔哩_bilibili 2022年信息学奥赛学习规划讲座 2022年信息学奥赛学 ...
最新文章
- java nio原理 epoll_多路复用 Select Poll Epoll 的实现原理(BIO与NIO)
- python怎么打开shell界面-使用IDLE的Python shell窗口实例详解
- [Win] 利用Memory DC抽取EXE的图标并保存为BMP文件
- Swift中的集合类之数组
- 为什么要把CV_8UC3(Vec3b)无符号整型转换成CV_32F(Vec3F)32位浮点数据类型?(在高精度下处理)
- 查看关于yum的配置
- Cookie和Session-学习笔记03【Session快速入门、Session细节】
- 51nod1836-战忽局的手段【期望dp,矩阵乘法】
- 转:权限管理——用户认证和用户授权
- python with关键字_完全理解Python关键字with与上下文管理器
- 【转载】Katalon Studio 基本用法--录制脚本并查看测试报告
- Pantera Capital CEO:比特币有望在今年夏天达到11.5万美元
- visreg:带你玩遍模型可视化
- windows打流工具IxChariot使用教程
- studioone机架效果模板_studioone3机架效果包
- 分享39个大数据可视化工具(数据分析必备)
- c语言自定义sum函数,c语言自定义函数
- Navicat Premium 15 注册出现 No All Pattern Found! File Already Patched?
- 怎么用wps将pdf转换成html,如何将PDF格式的文件转换成HTML格式
- Java技术实验三 货物进销管理系统
热门文章
- 电子罗盘在终端的应用
- 实时IP语音通信流程简介
- 没想到你是这样的“知了课堂”
- ffmpeg转码保留时间戳
- 微信公众号前端html,微信公众号开发(前端)
- 学生信息管理系统总结
- 魅族 刷机android 6.0,魅族mx6 flyme6
- Informatica批量导入、导出xml文件
- “保姆级教程“c语言开根号函数:sqrt()//文末附有详细c语言数学函数
- go语言 liteIDE 错误: 进程无法启动.