『R语言Python』 Excel文件的读取以及DataFrame的相关操作 (1)
文中使用到的数据:
time = [1,2,3,4,5,6,7,8,9 ]
x = [19.47, 27.41, 27.92, 33.79, 38.00, 40.36, 51.70, 62.15, 78.58]
result = [0.759, 0.844, 0.868, 0.992, 1.092, 1.074, 1.099, 1.243, 1.342]
Python部分:
一、读取Excel
提到读取数据,就不得不说 pandaspandaspandas 这个库了,它可以读取的文件格式如图;对 ExcelExcelExcel 表格进行数据分析时,常使用 read_csv
或者 read_excel
首先把 C:\Users\acer\Desktop\data analysis\Playing.xlsx 文件地址赋值给 filepath,然后使用 pd.read_excel( )
方法读取该文件,注意参数 sheet_name=1 意味着读取文件中的第二个表格 Sheet2Sheet2Sheet2
import pandas as pd
filepath = r'C:\Users\acer\Desktop\data analysis\Playing.xlsx'
df = pd.read_excel(filepath,sheet_name=1)
读取出来的 dfdfdf 是一个数据框(即类型为 DataFrameDataFrameDataFrame )
二、删除df中不需要的列
注意到进行数据分析或者建模时,可能不需要用到 “time”“time”“time” 这一列数据,所以利用 dropdropdrop 方法(注意参数添加 axis=1axis=1axis=1 ,表示对列进行操作)删除 dfdfdf 中的 “time”“time”“time” 列
df = df.drop(['time'], axis = 1)
print(df)
若要同时删除多列,往中括号内继续添加要删除的列即可
# 举例:若df中有a、b、c列,删除df中的a、b、c列
df = df.drop(['a','b','c'], axis = 1)
三、列的重命名
除此之外,强迫症患者还可以把列名 “result”“result”“result” 改成 “y”“y”“y” 便于建模时对变量的识别。
df['y'] = df['result'] #先把result列的值赋值给要新建的列备份
df = df.drop(['result'], axis = 1) #然后删除result列
print(df)
四、数据的使用
然后可以按照自己的建模需要,把相应的列提取出来转成 npnpnp 对象,用于建模。注意“0”代表第1列、以此类推
import numpy as np
x = df.iloc[:,0] #第一列命名为x
x = x.to_numpy()
y = df.iloc[:,1] #第二列命名为y
y = y.to_numpy()
RRR
一、读取ExcelExcelExcel
R语言一般使用 xlsxxlsxxlsx 包 读取 ExcelExcelExcel,但是参数的设置与 pythonpythonpython 相比有所不同,如指定读取表格的参数
> library(xlsx)
> data = read.xlsx("C:/Users/acer/Desktop/data analysis/Playing.xlsx",2)
> print(data)
二、删除df中不需要的列
将"time""time""time" 这一列删去,注意与 pythonpythonpython 的区别——这里-1指的是删去第一列
删除多列:
data = data[, -1]
print(data)
####
data = data[,c(-1,-2)]
print(data)
删除指定(多)列:
注意:方式一、三删除列后若只剩余1列,类型仍为 data.framedata.framedata.frame,而方式二类型发生改变
方式一:使用 subset(数据框名字,select = -c(要删除的列1,... ))
方法。推荐使用
> data = subset(data, select = -c(time, result))
> data
方式二:构造一个布尔向量,结合 %in% 和这个向量来删除不需要的列。
首先要介绍下 names()
方法,用于 dataframedataframedataframe 时的作用与 colnames()
方法一致;
然后 %in% 可以判断向量 aaa 内元素是否在 bbb 中,是则返回 truetruetrue,否则 falsefalsefalse
这时我们加上一个 ! ,就能使我们想删除的列在向量中对应的位置变成 FalseFalseFalse,把该向量命名为 deldeldel。
最后把这个向量放入 datadatadata 中,实现删除指定多列:
注意这时 datadatadata 从 data.framedata.framedata.frame 类型变成了 numericnumericnumeric 类型
> names(data)
> names(data) %in% c('time','result')
> colnames(data) %in% c('time', 'result')
> del = !names(data) %in% c('time', 'result')
> print(del)
> data = data[, del]
> print(data)
> class(data)
方式三:使用 dplyr
包中的 select(数据框名字, -c(要删除的列1, ...))
方法进行删除
> install.packages('dplyr')
> library(dplyr)
> data = dplyr::select(data, -c(time, result))
> print(data)
三、列的重命名
重命名前,先使用方法 colnames()colnames()colnames() 查看目前 dfdfdf 中的所有列名
方式一:直接把向量赋值给 colnames()colnames()colnames() 方法实现重命名
方式二:安装 plyr
包,使用它的 rename
方法实现重命名。较为便利(推荐),当列名总数量多且要重命名的列也多时,该方式比方式一快很多
print(colnames(data))
# 方式一
colnames(data) = c('x','y')
print(data)
# 方式二
install.packages('plyr')
data = plyr::rename(data, c('result'='y'))
四、数据的使用
该步骤中 RRR 相对于 pythonpythonpython 会简单些,不需要转化成 numpynumpynumpy 数组,直接在 dfdfdf中使用 $
引用即可
————————————————————————————————————————————————————
感谢观看,不足之处敬请指教
『R语言Python』 Excel文件的读取以及DataFrame的相关操作 (1)相关推荐
- 『Python』Excel文件的读取以及DataFrame的相关操作 (2)
最近经常使用 p y t h o n python python 对 E x c e l Excel Excel 文件进行 E T L ETL ETL 操作,其中 p a n d a s pandas ...
- 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量
在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量.下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示 Python: ...
- 『R语言Python』使用logging、log4r写日志
在开发的过程中,我们常会碰到又长又臭的脚本代码,当脚本出现bug需要进行排查时,总会使我们焦头烂额,而日志能很好的帮助我们记录脚本运行过程中所产生的信息,还能帮助我们定位异常,下面总结下我在R和pyt ...
- 『R语言Python』针对多分类离散型变量的特征工程
在训练模型之前,我们常常需要根据不同变量的基本情况进行相应且合理的特征工程,通过阅读文献和自行尝试,我针对多分类变量的特征工程做出了一些总结 数据来源(adult数据集):https://archiv ...
- R语言将大型Excel文件转为dta格式
作者:Economicoder 微信公众号:数据学徒 本文以2000年度工业企业数据库为例,该Excel表格包含约16万条记录,文件有88M这么大.如果尝试用Stata直接打开,则会出现如下提示. 不 ...
- R语言开发之EXCEL文件的读写操作了解下
Microsoft Excel是使用最广泛的电子表格程序,它是以.xls或.xlsx格式存储数据. R可以使用某些excel特定的包直接读取这些文件的内容,一些常用的软件包有 - XLConnect, ...
- R语言批量导入Excel文件并按表分类汇总
需求:有n个Excel文件,每个文件包含表的数量不等,但全部表都有表名,并是根据同一的规范命名,比如与悟空有关的数据,存放在<悟空>表中,现在需要按表名对所有数据分类汇总 library( ...
- R语言批量提取excel当中的数据
使用R语言批量提取excel文件 前言 步骤 总结 前言 在工作当中,为了方便统计单项数据,经常会遇上同一格式的几百份数据项需要提取到同一个表格的情况,博主非计算机专业,R语言代码不一定规范,但是经验 ...
- Python之Excel文件读取
今天研究了一下Python对Excel文件的读取,在此分享一下. 1.模块安装 想通过python对Excel文件进行处理,需要安装以下几个模块: pip install xlrd pip insta ...
最新文章
- python一级考试题目_全国青少年软件编程(Python)等级考试试卷(一级)br测试卷-20191114123907422...
- 化整为零,一步一步教你搭建Prometheus监控报警系统
- 多分类问题中每一类的Precision-Recall Curve曲线以及ROC的Matlab画法
- servlet面试常考 (转载)
- 开源的shell工具finalShell
- 第二讲:高性能计算关键技术和趋势分析
- oracle ovm配置使用
- android获取汉字拼音首字母,ios/android获取汉字拼音首字母
- html在线调查,HTML5 调查问卷表单
- ARVR | AR技术发展简史(上)
- AT32 MCU低功耗模式--AT_SURF案例19
- java导入导出excel文件
- Post请求body为list,校验里面的对象
- 安装cnpm后运行报cnpm :无法加载文件 C:\Users\29038\AppData\Roaming\npm\cnpm.ps1,因为在此系统上禁止运行脚本。
- jmh气象传真图网站_接收日本JMH气象传真
- 高峰期在线人数以及高峰期的持续时间
- SAP FI 系列 (023) - 使用工作清单维护汇率
- ios大神班学习大纲
- 单链表的头插法尾插法及删除节点操作
- v-if与perssimion结合实现权限控制