原始数据可以从本地文件,本地数据库和网络上获取。本地文件主要包括:txt文件,csv文件,excel文件,RData文件,xml文件。本地数据库类型包括SQL Server,Access,MySQL,SQLite等常见数据库。网络数据则包括直接存放在网络上的文件数据(csv,excel,txt等)和需要进行爬取的网页数据。
由于大部分的数据都是本地文件和网上的文件,因此这里着重讲解一下本地文件和网上文件的加载方式。有需要加载数据库文件,或诸如SPASS数据,SAS数据,Stata数据,XML数据等特殊数据的,可以留言给我。

1.从键盘中读取数据

#1.设置要读入数据的列名和数据类型
data=data.frame(name=character(0),age=numeric(0))
#2.edit()函数会自动弹出一个表格填写想要输入的数据
data=edit(data)

2.读取txt数据和csv数据,网络数据

data=read.table(file/url, header=TRUE, sep="", row.names=c(), col.names=c(),encoding="", colClasses=c(), stringsAsFactors=TRUE)

read.table()函数可以读取txt和csv两种数据类型。
常用的参数也就是以下几个:
file/url: 可以是本地文件,如"mydic/xxx.csv",也可是指定具体网址的网络文件。
header: TRUE表示数据含有列名,FALSE表示原始数据不含列名,只有数据。
sep: 指定数据之间的分隔符,默认为空。若是空格,则需要打一个空格键。
row.names: 若原始数据没有列名,可以通过该参数指定列名。如:row.names=c(“name”,“age”,“height”).
col.names: 为数据指定行名称。
encoding: 指定读取数据时的编码方式。有时候读取中文数据时,会出现乱码,这时候encoding="UTF-8"就可以解决问题。记住里面UTF是大写,不能小写。
colClasses: 为每列指定数据类型。有时候读取的数据类型不是我们想要的,可以在读取时指定数据类型,如colClasses=c(“character”,“numeric”,“factor”).
stringAsFactors: 由于读取数据时,函数会自动将字符串数据转化成因子类型。将该值设置为FALSE后,就不会自动转化了。
其他参数不是很常用,如需要,可自行查资料。

3.读取excel数据

R读取excel数据前需要安装并加载xlsx包,实质是调用该包进行数据读写的。
部分参数和上面的参数一致,这里不再赘述,来看几个特别的参数

#这个xlsx包一定要加载,否则无法读取数据
liabrary(xlsx)
read.xlsx(file, sheetName="",sheetIndex=1,colIndex=c(), rowIndex=c())

sheetName: 由于一个excel文件可能包含多个表,因此需要指定读取哪个表。sheetName指定目标表的名称。
**sheetIndex:**指定目标表的索引。(注意R中所有的索引都是从1开始的,这与Python是不一样的)
colIndex: 指定需要读取的列,如colIndex=c(1,3,4)。仅读取第1,3,4 列。
rowIndex: 指定要读取的行。

另外还有一个read.xlsx2()的函数,该函数用于处理大型的excle表格(超过10万行),这个函数内部调用了java函数,因此用之前需要安装java.

4.读取csv数据

参数同read.table(), 不再赘述。

read.csv(file,...)

5.读取RData数据

由于RData数据加载后并不显示内部包含哪些数据集,因此可以通过str()函数查看内部数据情况。

#load()函数加载数据,但返回的data并不是最终的数据集,而是数据集的一个容器。
data=load("xxx.RData")
#str()函数查看容器内部数据集
str(data)

6.导入SPSS,SAS,Stata数据

#需要加载Hmisc包
library(Hmisc)
#加载spss数据
data=spss.get("mydata.sav", use.value.labels=TRUE)
#加载SAS数据,需要提前安装SAS软件。
data=sas.get(datadir, member="clients",sasprog="c:/xx/xx/sas.exe")
#加载Stata数据
library(foreign)
data=read.dta("xxx.dta")

补充:

有其他数据类型加载需求或有任何疑问,可留言给我。转载请标明出处,感谢。
欢迎关注公众号:moisiets

R-数据加载(csv,excel,txt,rdata,spss,stata)相关推荐

  1. 中yeti不能加载_将 PQ 查询加载到 Excel 中进行分析的三种常用的方式

    点击上方蓝字 关注星标★不迷路 岁月本长,忙者自促 虽然大部分时候经过PQ清洗的数据都是加载到Excel工作表中,但是PQ中还有另外两种将数据返回Excel中进行分析的方法. 三种不同的数据加载方式: ...

  2. R语言广义加性模型(GAMs:Generalized Additive Model)建模:数据加载、划分数据、并分别构建线性回归模型和广义线性加性模型GAMs、并比较线性模型和GAMs模型的性能

    R语言广义加性模型(GAMs:Generalized Additive Model)建模:数据加载.划分数据.并分别构建线性回归模型和广义线性加性模型GAMs.并比较线性模型和GAMs模型的性能 目录

  3. R包库安装及数据加载:一次安装多个R包、一次加载多个R包

    R包库安装及数据加载:一次安装多个R包.一次加载多个R包 目录 R包库安装及数据加载 R包安装 一次安装多个R包 加载需要的R包

  4. 将CSV和SQL数据加载到Pandas中

    目录 介绍 从CSV加载数据 从SQLite加载数据 基本数据分析 总结 任何数据分析过程的第一步都是摄取数据集,评估数据集的清洁程度,并决定我们需要采取哪些措施来解决继承的问题. 下载CSV和数据库 ...

  5. R语言时间序列(time series)分析实战:时序数据加载、绘制时间序列图

    R语言时间序列(time series)分析实战:时序数据加载.绘制时间序列图 目录

  6. [转载]使用 Apache 的 POI 和 HSSF 将 Excel 电子表格数据加载到 DB2

    使用 Apache 的 POI 和 HSSF 将 Excel 电子表格数据加载到 DB2 在本文中,您将学习如何使用 Apache 的 POI 和 HSSF 构建能将 Microsoft Excel ...

  7. 《利用Python进行数据分析·第2版》第6章 数据加载、存储与文件格式

    第1章 准备工作 第2章 Python语法基础,IPython和Jupyter 第3章 Python的数据结构.函数和文件 第4章 NumPy基础:数组和矢量计算 第5章 pandas入门 第6章 数 ...

  8. python调用r语言加载包错误_Python调用R语言

    网络上经常看到有人问数据分析是学习Python好还是R语言好,还有一些争论Python好还是R好的文章.每次看到这样的文章我都会想到李舰和肖凯的<数据科学中的R语言>,书中一直强调,工具不 ...

  9. pandas入门(6)——数据加载、存储与文件格式

    pandas入门(6)--数据加载.存储与文件格式 输入输出通常可以划分为几个大类:读取文本文件和其他更高效的磁盘存储格式,加载数据库中的数据,利用Web API操作网络资源 一.读取文本格式数据 函 ...

最新文章

  1. 大文件上传服务器:支持超大文件HTTP断点续传的实现办法
  2. 一堆让人惊喜的实用工具,也许你还不知道
  3. 宏基因组合种树第290期—油松
  4. 关于REID的mAP指标
  5. 神策数据荣膺 2017 企业创新典范、最佳青年榜样双殊荣
  6. 如何解决管理工具MSC拒绝访问?
  7. php获取表单内的值,PHP获取表单里各项值总结
  8. Erlang 二十年,如何在编程语言中占据一席之地?
  9. 最长上升子序列o(nlogn)复杂度一种简单易懂的理解
  10. python源码包的安装和卸载
  11. Revit 和 ArchiCAD 在软件设计理念方面的对比
  12. 巧用CSS,愚人节极客式恶搞
  13. 分布式 Git - 为项目做贡献
  14. 普通话测试软件推荐,练普通话的软件哪个好 专门练普通话的软件推荐
  15. 个人微信公众号申请步骤
  16. Unity3D Shader 新手教程(5/6) —— Bumped Diffuse Shader
  17. git ------git stash(储藏到缓存中) 暂时保存未被提交的数据至堆栈中
  18. 3d打印英语文献_多材料的增材制造(3D打印)
  19. Ceph OSD Down
  20. 08-微服务版单点登陆系统(SSO)实践

热门文章

  1. 少儿艺术培训,如何用社群做到月吸1000+精准粉?
  2. 交通标志的检测、分类的方法整理(自己的方法)
  3. mysql存储过程语法错误1064_mysql,dos下执行SQL语句创建存储过程出错ERROR 1064 (42000):...
  4. 在GCP上创建GCE的三种方式(Console,gcloud,Terraform)
  5. Tornado 与文件上传
  6. 树莓派Odroid等卡片式电脑上搭建NAS教程系列1-Ubuntu系统安装
  7. 史上最全网络端口号大全,网络工程师必备!
  8. 如何学习java游戏服务器开发?
  9. DOS分区表(Boot Sector引导扇区)
  10. 废旧锂电湿法回收提钴