文中使用到的数据:

time = [1,2,3,4,5,6,7,8,9 ]
x = [19.47, 27.41, 27.92, 33.79, 38.00, 40.36, 51.70, 62.15, 78.58]
result = [0.759, 0.844, 0.868, 0.992, 1.092, 1.074, 1.099, 1.243, 1.342]

Python部分

一、读取Excel

提到读取数据,就不得不说 pandaspandaspandas 这个库了,它可以读取的文件格式如图;对 ExcelExcelExcel 表格进行数据分析时,常使用 read_csv 或者 read_excel

首先把 C:\Users\acer\Desktop\data analysis\Playing.xlsx 文件地址赋值给 filepath,然后使用 pd.read_excel( ) 方法读取该文件,注意参数 sheet_name=1 意味着读取文件中的第二个表格 Sheet2Sheet2Sheet2

import pandas as pd
filepath = r'C:\Users\acer\Desktop\data analysis\Playing.xlsx'
df = pd.read_excel(filepath,sheet_name=1)

读取出来的 dfdfdf 是一个数据框(即类型为 DataFrameDataFrameDataFrame )

二、删除df中不需要的列

注意到进行数据分析或者建模时,可能不需要用到 “time”“time”“time” 这一列数据,所以利用 dropdropdrop 方法(注意参数添加 axis=1axis=1axis=1 ,表示对列进行操作)删除 dfdfdf 中的 “time”“time”“time” 列

df = df.drop(['time'], axis = 1)
print(df)

若要同时删除多列,往中括号内继续添加要删除的列即可

# 举例:若df中有a、b、c列,删除df中的a、b、c列
df = df.drop(['a','b','c'], axis = 1)

三、列的重命名

除此之外,强迫症患者还可以把列名 “result”“result”“result” 改成 “y”“y”“y” 便于建模时对变量的识别。

df['y'] = df['result']  #先把result列的值赋值给要新建的列备份
df = df.drop(['result'], axis = 1)   #然后删除result列
print(df)

四、数据的使用

然后可以按照自己的建模需要,把相应的列提取出来转成 npnpnp 对象,用于建模。注意“0”代表第1列、以此类推

import numpy as np
x = df.iloc[:,0]   #第一列命名为x
x = x.to_numpy()
y = df.iloc[:,1]   #第二列命名为y
y = y.to_numpy()

RRR

一、读取ExcelExcelExcel

R语言一般使用 xlsxxlsxxlsx 包 读取 ExcelExcelExcel,但是参数的设置与 pythonpythonpython 相比有所不同,如指定读取表格的参数

> library(xlsx)
> data = read.xlsx("C:/Users/acer/Desktop/data analysis/Playing.xlsx",2)
> print(data)

二、删除df中不需要的列

将"time""time""time" 这一列删去,注意与 pythonpythonpython 的区别——这里-1指的是删去第一列

删除多列:

data = data[, -1]
print(data)
####
data = data[,c(-1,-2)]
print(data)

删除指定(多)列:

注意:方式一、三删除列后若只剩余1列,类型仍为 data.framedata.framedata.frame,而方式二类型发生改变

方式一:使用 subset(数据框名字,select = -c(要删除的列1,... )) 方法。推荐使用

> data = subset(data, select = -c(time, result))
> data

方式二:构造一个布尔向量,结合 %in% 和这个向量来删除不需要的列。
首先要介绍下 names() 方法,用于 dataframedataframedataframe 时的作用与 colnames() 方法一致;

然后 %in% 可以判断向量 aaa 内元素是否在 bbb 中,是则返回 truetruetrue,否则 falsefalsefalse

这时我们加上一个 ! ,就能使我们想删除的列在向量中对应的位置变成 FalseFalseFalse,把该向量命名为 deldeldel。

最后把这个向量放入 datadatadata 中,实现删除指定多列:

注意这时 datadatadata 从 data.framedata.framedata.frame 类型变成了 numericnumericnumeric 类型

> names(data)
> names(data) %in% c('time','result')
> colnames(data) %in% c('time', 'result')
> del = !names(data) %in% c('time', 'result')
> print(del)
> data = data[, del]
> print(data)
> class(data)

方式三:使用 dplyr 包中的 select(数据框名字, -c(要删除的列1, ...)) 方法进行删除

> install.packages('dplyr')
> library(dplyr)
> data = dplyr::select(data, -c(time, result))
> print(data)

三、列的重命名

重命名前,先使用方法 colnames()colnames()colnames() 查看目前 dfdfdf 中的所有列名

方式一:直接把向量赋值给 colnames()colnames()colnames() 方法实现重命名

方式二:安装 plyr 包,使用它的 rename 方法实现重命名。较为便利(推荐),当列名总数量多且要重命名的列也多时,该方式比方式一快很多

print(colnames(data))
# 方式一
colnames(data) = c('x','y')
print(data)
# 方式二
install.packages('plyr')
data = plyr::rename(data, c('result'='y'))

四、数据的使用

该步骤中 RRR 相对于 pythonpythonpython 会简单些,不需要转化成 numpynumpynumpy 数组,直接在 dfdfdf中使用 $ 引用即可

————————————————————————————————————————————————————
感谢观看,不足之处敬请指教

『R语言Python』 Excel文件的读取以及DataFrame的相关操作 (1)相关推荐

  1. 『Python』Excel文件的读取以及DataFrame的相关操作 (2)

    最近经常使用 p y t h o n python python 对 E x c e l Excel Excel 文件进行 E T L ETL ETL 操作,其中 p a n d a s pandas ...

  2. 『R语言Python』建模前的准备:连续型与离散型变量探索,离散型变量转为虚拟变量

    在建立模型之前,我们常要先对数据的类型作出判断,连续型数据可以不做处理,而离散型数据则可能需要转为虚拟变量.下文使用R语言中的经典数据集 mtcarsmtcarsmtcars 进行演示 Python: ...

  3. 『R语言Python』使用logging、log4r写日志

    在开发的过程中,我们常会碰到又长又臭的脚本代码,当脚本出现bug需要进行排查时,总会使我们焦头烂额,而日志能很好的帮助我们记录脚本运行过程中所产生的信息,还能帮助我们定位异常,下面总结下我在R和pyt ...

  4. 『R语言Python』针对多分类离散型变量的特征工程

    在训练模型之前,我们常常需要根据不同变量的基本情况进行相应且合理的特征工程,通过阅读文献和自行尝试,我针对多分类变量的特征工程做出了一些总结 数据来源(adult数据集):https://archiv ...

  5. R语言将大型Excel文件转为dta格式

    作者:Economicoder 微信公众号:数据学徒 本文以2000年度工业企业数据库为例,该Excel表格包含约16万条记录,文件有88M这么大.如果尝试用Stata直接打开,则会出现如下提示. 不 ...

  6. R语言开发之EXCEL文件的读写操作了解下

    Microsoft Excel是使用最广泛的电子表格程序,它是以.xls或.xlsx格式存储数据. R可以使用某些excel特定的包直接读取这些文件的内容,一些常用的软件包有 - XLConnect, ...

  7. R语言批量导入Excel文件并按表分类汇总

    需求:有n个Excel文件,每个文件包含表的数量不等,但全部表都有表名,并是根据同一的规范命名,比如与悟空有关的数据,存放在<悟空>表中,现在需要按表名对所有数据分类汇总 library( ...

  8. R语言批量提取excel当中的数据

    使用R语言批量提取excel文件 前言 步骤 总结 前言 在工作当中,为了方便统计单项数据,经常会遇上同一格式的几百份数据项需要提取到同一个表格的情况,博主非计算机专业,R语言代码不一定规范,但是经验 ...

  9. Python之Excel文件读取

    今天研究了一下Python对Excel文件的读取,在此分享一下. 1.模块安装 想通过python对Excel文件进行处理,需要安装以下几个模块: pip install xlrd pip insta ...

最新文章

  1. python一级考试题目_全国青少年软件编程(Python)等级考试试卷(一级)br测试卷-20191114123907422...
  2. 化整为零,一步一步教你搭建Prometheus监控报警系统
  3. 多分类问题中每一类的Precision-Recall Curve曲线以及ROC的Matlab画法
  4. servlet面试常考 (转载)
  5. 开源的shell工具finalShell
  6. 第二讲:高性能计算关键技术和趋势分析
  7. oracle ovm配置使用
  8. android获取汉字拼音首字母,ios/android获取汉字拼音首字母
  9. html在线调查,HTML5 调查问卷表单
  10. ARVR | AR技术发展简史(上)
  11. AT32 MCU低功耗模式--AT_SURF案例19
  12. java导入导出excel文件
  13. Post请求body为list,校验里面的对象
  14. 安装cnpm后运行报cnpm :无法加载文件 C:\Users\29038\AppData\Roaming\npm\cnpm.ps1,因为在此系统上禁止运行脚本。
  15. jmh气象传真图网站_接收日本JMH气象传真
  16. 高峰期在线人数以及高峰期的持续时间
  17. SAP FI 系列 (023) - 使用工作清单维护汇率
  18. ios大神班学习大纲
  19. 单链表的头插法尾插法及删除节点操作
  20. v-if与perssimion结合实现权限控制

热门文章

  1. 【数论】 排列组合中的隔板问题
  2. TCP、UDP、TCP三次握手与四次挥手、TCP如何保证可靠传输、TCP异常分析、拆包和粘包等
  3. 郁闷的出纳员(splay, 树状数组可做)
  4. python-爬取糗事百科段子
  5. 最新全世界水系、水域矢量数据免费下载--关于地理数据收集与处理的基本工具推荐(4)
  6. 2018 形势、影响与心态
  7. OA系统开发--springAOP理解
  8. eclipse设置中文
  9. 计算机考研302分调剂,2011考研,中科大软件学院调剂,总分302
  10. 逆向破解思路和获取app的代码,脱壳操作(四)