做个存档

实验数据集目录下是某高校学生修读课程的成绩情况,需要对数据库相关(注:表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课)课程成绩进行分析。请编写程序完成以下内容:

1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括:

  • 实体消歧:如《数据库系统技术及应用》和《数据库课程设计》是同一门课,课程名称要统一
  • 数据脱敏:如学号、姓名等敏感信息,按照某种规则进行数据变形改造
  • 预处理:有重修的同学,只要原始成绩(删除重修的记录行)

import pandas as pd
from string import ascii_letters, digits
from random import choices
file_path=r'数据库课程成绩.xls'
#读文件
df=pd.read_excel(file_path,sheet_name="原表")
p=pd.read_excel(file_path,sheet_name="原表")
writer = pd.ExcelWriter(file_path,engine='openpyxl')#用于写入多个sheet
#替换行名
# row_list=[]
for i in range(0,26):# row_list.append(str(df.iat[1,i]))df.rename(columns={'Unnamed: %s'%str(i):str(df.iat[1,i])},inplace=True)
df.drop(df.head(1).index,inplace=True) #删除第一二行
df.drop(df.head(2).index,inplace=True)

替换行名这一块折腾了很久,最后发现用iat可以找到具体行列的元素值

附iat官方文档

网友iat,at,iloc,loc分析

#删除重修
flags=df.重修标记
index0=3
for flag in flags:if flag==1:df.drop(df.head(index0).index,inplace=True)index0+=1#更改课程名
courses=df.课程名称
course_mapping={}
for course in courses:if course=="数据库课程设计Course Design of Data":course="数据库系统技术及应用"course_mapping[course]=course#数据脱敏
ids = df.学号
names = df.姓名
id_mapping = {si: ''.join(choices(digits, k=10)) for si in ids}
df.学号 = df.学号.map(id_mapping)
name_mapping = {name: ''.join(choices(ascii_letters, k=4)) for name in names}
df.姓名 = df.姓名.map(name_mapping)
df.课程名称 = df.课程名称.map(course_mapping)
#保存sheet
p.to_excel(writer,sheet_name="原表",index=False)
df.to_excel(writer, sheet_name="预处理",index=False)
writer.save()
writer.close()

sheet这边踩了很多坑,比如原sheet一直被覆盖,找到一个解决方法

用python进行表格合并

但可能是因为没有导包就一直报错,嫌麻烦写了另一种,把原sheet也重新写入,然后保存

Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet相关推荐

  1. pandas玩转excel-> (1)如何利用pandas创建excel数据文件

    pandas玩转excel-> (1)如何利用pandas创建excel数据文件 #在Anaconda3 的Spyder中 #定义pandas模块为pd import pandas as pd ...

  2. python在excel中的应用-Python利用pandas处理Excel数据的应用详解

    最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...

  3. python与excel的应用-Python利用pandas处理Excel数据的应用

    最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...

  4. python处理excel表格-Python利用pandas处理Excel数据的应用

    最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...

  5. [转载] Python利用pandas处理Excel数据的应用

    参考链接: Python | Pandas数据比较与选择 最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...

  6. python pandas处理excel 统计数据_python使用pandas处理excel数据

    使用Python Pandas库读取excel文件(.xlsx, .xls). 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个s ...

  7. python使用pandas处理excel数据

    使用Python Pandas库读取excel文件(.xlsx, .xls). 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个s ...

  8. python pandas excel数据处理_Python利用pandas处理Excel数据的应用

    python如何将列表导出为csv文件 import pandas as pd list=[[1,2,3],[4,5,6],[7,8,9]] column=['column1','column2',' ...

  9. pandas玩转excel-> (2)如何利用pandas读取excel数据文件

    pandas玩转excel-> (2)如何利用pandas读取excel数据文件 import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为peopl ...

最新文章

  1. python【洛谷算法题单-搜索】P1605 迷宫
  2. OEM status|start|stop
  3. 基于RSA的WEB前端密码加密方案
  4. ORA-01925:maximum of 80 enabled roles exceeded
  5. Vue刷新页面有哪几种方式
  6. Hibernate:More than one row with the given identifier was found解决办法
  7. 十年 IT 老兵告诉你如何快速构建可直接落地、基于开源的低成本架构! | 技术头条...
  8. 高级工计算机操作试题及答案,计算机系统操作高级工试题和答案[1]
  9. elementUI开始时间和结束时间验证
  10. 麒麟服务器操作系统V10虚拟机安装
  11. 爬取飞卢小说网的小说
  12. Hybrid eye center localization using cascaded regression and hand-crafted model fitting
  13. 用matlab处理表格,matlab删除excel表格数据-如何用matlab处理多个excel表格中的数据...
  14. mac book 合上盖子继续下载或在听歌
  15. secureCRT是什么
  16. element中下拉框select在长页面滚动时,下拉弹框没有跟随下拉框跑路
  17. JS逆向:猿人学爬虫比赛第五题详细题解(下)
  18. 基于Paddle的截图OCR文字识别的实现
  19. PAT练习 客似云来
  20. 2022.12.5最新省市区json字符串

热门文章

  1. 协作翻译平台 调研 version 0.5
  2. Unity Animator
  3. 史上最全vscode配置使用教程
  4. 单点登录,同域名下有和非同域名下的登录
  5. 中美知识产权谈判纪实
  6. 【GNN】GAT:Attention 在 GNN 中的应用
  7. 文因互联鲍捷:深度解析知识图谱发展关键阶段及技术脉络 | 干货推荐
  8. text-indent 的特殊性?
  9. 【WAF】雷池安装及使用体验
  10. FastAPI 学习之路(三十三)操作数据库