Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet
做个存档
实验数据集目录下是某高校学生修读课程的成绩情况,需要对数据库相关(注:表格中《数据库系统技术及应用》和《数据库课程设计》是同一门课)课程成绩进行分析。请编写程序完成以下内容:
1. 将所有数据预处理后写到新的sheet页面"预处理"。预处理操作包括:
- 实体消歧:如《数据库系统技术及应用》和《数据库课程设计》是同一门课,课程名称要统一
- 数据脱敏:如学号、姓名等敏感信息,按照某种规则进行数据变形改造
- 预处理:有重修的同学,只要原始成绩(删除重修的记录行)
import pandas as pd
from string import ascii_letters, digits
from random import choices
file_path=r'数据库课程成绩.xls'
#读文件
df=pd.read_excel(file_path,sheet_name="原表")
p=pd.read_excel(file_path,sheet_name="原表")
writer = pd.ExcelWriter(file_path,engine='openpyxl')#用于写入多个sheet
#替换行名
# row_list=[]
for i in range(0,26):# row_list.append(str(df.iat[1,i]))df.rename(columns={'Unnamed: %s'%str(i):str(df.iat[1,i])},inplace=True)
df.drop(df.head(1).index,inplace=True) #删除第一二行
df.drop(df.head(2).index,inplace=True)
替换行名这一块折腾了很久,最后发现用iat可以找到具体行列的元素值
附iat官方文档
网友iat,at,iloc,loc分析
#删除重修
flags=df.重修标记
index0=3
for flag in flags:if flag==1:df.drop(df.head(index0).index,inplace=True)index0+=1#更改课程名
courses=df.课程名称
course_mapping={}
for course in courses:if course=="数据库课程设计Course Design of Data":course="数据库系统技术及应用"course_mapping[course]=course#数据脱敏
ids = df.学号
names = df.姓名
id_mapping = {si: ''.join(choices(digits, k=10)) for si in ids}
df.学号 = df.学号.map(id_mapping)
name_mapping = {name: ''.join(choices(ascii_letters, k=4)) for name in names}
df.姓名 = df.姓名.map(name_mapping)
df.课程名称 = df.课程名称.map(course_mapping)
#保存sheet
p.to_excel(writer,sheet_name="原表",index=False)
df.to_excel(writer, sheet_name="预处理",index=False)
writer.save()
writer.close()
sheet这边踩了很多坑,比如原sheet一直被覆盖,找到一个解决方法
用python进行表格合并
但可能是因为没有导包就一直报错,嫌麻烦写了另一种,把原sheet也重新写入,然后保存
Pandas解决excel数据脱敏和导入新sheet不覆盖原sheet相关推荐
- pandas玩转excel-> (1)如何利用pandas创建excel数据文件
pandas玩转excel-> (1)如何利用pandas创建excel数据文件 #在Anaconda3 的Spyder中 #定义pandas模块为pd import pandas as pd ...
- python在excel中的应用-Python利用pandas处理Excel数据的应用详解
最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...
- python与excel的应用-Python利用pandas处理Excel数据的应用
最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...
- python处理excel表格-Python利用pandas处理Excel数据的应用
最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做自动化测试的时候,如果涉及到数据的读取和存储,那么而利用p ...
- [转载] Python利用pandas处理Excel数据的应用
参考链接: Python | Pandas数据比较与选择 最近迷上了高效处理数据的pandas,其实这个是用来做数据分析的,如果你是做大数据分析和测试的,那么这个是非常的有用的!!但是其实我们平时在做 ...
- python pandas处理excel 统计数据_python使用pandas处理excel数据
使用Python Pandas库读取excel文件(.xlsx, .xls). 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个s ...
- python使用pandas处理excel数据
使用Python Pandas库读取excel文件(.xlsx, .xls). 使用pandas的 read_excel()方法来读取excel数据,可以读取第一个sheet,指定的sheet,多个s ...
- python pandas excel数据处理_Python利用pandas处理Excel数据的应用
python如何将列表导出为csv文件 import pandas as pd list=[[1,2,3],[4,5,6],[7,8,9]] column=['column1','column2',' ...
- pandas玩转excel-> (2)如何利用pandas读取excel数据文件
pandas玩转excel-> (2)如何利用pandas读取excel数据文件 import pandas as pd #将excel文件读到内存中,形成dataframe,并命名为peopl ...
最新文章
- python【洛谷算法题单-搜索】P1605 迷宫
- OEM status|start|stop
- 基于RSA的WEB前端密码加密方案
- ORA-01925:maximum of 80 enabled roles exceeded
- Vue刷新页面有哪几种方式
- Hibernate:More than one row with the given identifier was found解决办法
- 十年 IT 老兵告诉你如何快速构建可直接落地、基于开源的低成本架构! | 技术头条...
- 高级工计算机操作试题及答案,计算机系统操作高级工试题和答案[1]
- elementUI开始时间和结束时间验证
- 麒麟服务器操作系统V10虚拟机安装
- 爬取飞卢小说网的小说
- Hybrid eye center localization using cascaded regression and hand-crafted model fitting
- 用matlab处理表格,matlab删除excel表格数据-如何用matlab处理多个excel表格中的数据...
- mac book 合上盖子继续下载或在听歌
- secureCRT是什么
- element中下拉框select在长页面滚动时,下拉弹框没有跟随下拉框跑路
- JS逆向:猿人学爬虫比赛第五题详细题解(下)
- 基于Paddle的截图OCR文字识别的实现
- PAT练习 客似云来
- 2022.12.5最新省市区json字符串