学R主要在于5点三阶段:

第一阶段有一点:

基础的文件操作(read.*, write.*)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包括which, []等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, *, / , %%, %/%等)、转换(as.*)、修改(edit, fix等)数据(包括单个数、行、列、表、变量),安装包、调用包以及session的保存。完成这一阶段,你就大致能像excel里处理数据一样了。

第二阶段有三点:

1、学习统计。这是贯穿整个R学习的最重要的一部,很多时候你并不是不知道在哪里找,怎么使用某个函数的参数,更多的时候你是不知道某个统计方法的原理,所代表的意义甚至不知道该用什么方法。所以学习统计学知识往往才是学习R的关键,之后找函数、怎么用其实都是傻瓜式的,并不需要你从头编写算法。这部分内容页要结合每个人要做的事做

2、批量处理。由于R和matlab一样,注重的是批量处理,而且R之中的循环往往效率极低,所以在R之中如果你发现你要使用双层循环的时候,就要想想了,有没有批量处理的方法。

a、首先,几乎所有的R里的运算符和自带的函数都是可以批量处理的。比如向量a+向量b是指每个元素按照index相加,所以就没必要for一下了;

b、其次,R自带有的apply族函数(因为是一系列以apply结尾的函数,所以称为apply族),split,以及aggregate函数。这三类就是R自带的批量处理的利器,学好这三类函数,基本就可以完成绝大部分的数据批量处理了。

c、然后就是reshape2包以及plyr包了,这是批量处理的两个利器,reshape主要是整形,plyr包基本提供了一套整理数据的理念,学好这两个包,批量处理将事半功倍。

d、在实际过程中,一些for还是无法避免的。这时候就要考虑用别的语言来处理这部分事情了。比较常用的方法就是用别的语言批量生成R的代码,还有就是直接用R调用别的语言处理的结果或者用别的语言调用R的处理结果。

3、绘图系统。总结而言,我们可以把R的绘图系统分成四个:Graphics, lattice,ggplot2以及grid。最好学习顺序也是按照这个来。

a、自带的绘图系统。这套系统可以完成最基本的事情,其操作也类似于matlab,可以看做是分步骤命令参数式绘图,基本就是将一系列作图看做一步步的命令,每一句都干一件事,然后通过参数调整其中的某个元素的大小、位置、颜色。

b、lattice。绘图逻辑也同上。只是加了分组绘图、facet的功能,这些都很实用,其目的就是讲自带函数中需要大量预处理以及多步绘图的命令用一行命令代替。上手也非常简单。

c、ggplot2.这是经典的R绘图包,绘图哲学是图层式的,理解成一个一个图层的覆盖。这个绘图系统能做很多事,而且其自带主题也相当漂亮。有一定的学习难度。以下就是我用ggplot画的图

d、grid。grid绘图系统算是最基元的绘图命令,很多指令都是从画圆、直线、矩形开始的,这算是R里最好理解但也是最复杂的绘图系统。适合想入深坑的人士学习,如果要自由创造一些新的图形,或者编写绘图包,这是必学的绘图系统。另一个值得说的就是grid中也有专门用来整理拼图的指令,这个对于有一些论文拼图需求的人来说还是学学比较好。

如果你完成了以上两个阶段,你已经可以在工作学习中完成绝大部分的工作。但如果你是知识的创造者,或者是个程序员,或者是要实践自己的算法、理论、统计方法、绘图方法,或者亦或是你只是脑抽了,那就要进入第三阶段的学习。这部分包括,C语言掌握与精通、R语言调试、改进、编写包、写一个地道的帮助文档、推销自己的想法。这一阶段完成了,你也就是一个R语言的大牛了。少年到处是你可以施展拳脚的地方。

由以上内容,可以基本上把学习路径总结为下图:

最后是学习资源的问题,总结如下:

1、课程类。 @uhuruqingcheng已经介绍的coursera上的课程的确很适合入门。

2、书籍类。建议入门用R语言实战 (豆瓣),然后想要快速指南式的了解R语言的统计应用也可以看复杂数据统计方法 (豆瓣) 。统计学的内容按照自己的需要自行补充,在这里就补推荐了,推荐了也是和R没啥关系的。绘图系统推荐两本书就够用了:ggplot2 (豆瓣) 和 R Graphics Cookbook (豆瓣)这两本也都有中文版可以买到。如果这部分都已经学得不错了,其实你就不需要书了,直接看R的帮助文档吧,help()或者? XXX 都可以。在此建议用RStudio,可以帮助你很快的查看帮助,编写script、断点调试等等。

需要补充的是springer出了一系列叫Use R! – Springer 的书,一直有更新,也是免费获取的,大家可以自己下载。

3、网站类。

一个是博客,以上已有推荐。

二是问答类的网站。Stack Overflow 和 SegmentFault 都可以尝试一下。

三是R的journal。题主可以自行在google里搜索 R journal 第一个就是。

四是包和函数的搜索网站Search all R packages and function manuals 。 这个网站提供R里所有包和函数的搜索系统。其贴心之处还有(1)提供分类功能;(2)提供下载的排名,每个包的下载时间线。

此外,其实R语言是一门轻编程重统计的语言,所以题主完全不需要担心自己的编程基础。直接做几个小项目,你会很快上手,千万不要从教材第一页读到最后一页,那种效率极低,且容易半途而废。

关于批处理的解答

有几位同僚在回复里面询问批处理的问题,这里做个简单的解释。

批处理类似于向量运算,但也有很大差距,简单的说,是一个函数可以快速的套用到多维变量的每一维值中。

1. 自带函数的批处理

譬如:

这就是一个最简单的批处理的例子,结果是

这是一个简单的向量标量积结果,而所谓的批处理也就是类似于这种处理方式。而在R之中,数据的最小单元其实就是向量,因此,几乎所有R的函数,都是批处理的。(注意,与matlab不同,matlab最小单元是矩阵,因此,其基本的运算都是基于举证运算的)。我们可以用以下方式定义批处理函数:如果一个函数F,满足,

且函数F的实现不基于任何显式循环(诸如for,while, until),则函数F可以称之为批处理函数。

譬如:plot(将两个向量的对应的数逐个地画到图中),paste(将字符串向量的每个字符串都做连接)等等。。。

这里比较一下会更加清楚,譬如如果在python里实现以上功能(不实用pandas和numpy包),就得采用显式的循环(for,while等):

因此,我们可以看出采用批处理最大的优点在于减少的代码量,并且更加简洁明了,易于维护。

2. 批处理是否更加高效

其实批处理的另一个好处就是使得运行更加高效,因为批处理函数往往经过处理(使用更好的算法或者更底层的实现方式)得到某种程度的提速。我们在这里测试实现将向量每个元素都自乘2这一功能,分别采用按键替换,按数字索引替换以及直接批量处理的方式,来测试不同方式速度是如何的。

结果如下:

明显看出,批处理并且避免显式循环的方式的确有助于提高速度,代码量也少的多。因此,何乐而不为呢?

但是经过测试,并不是每个批处理函数的效果并不是都是那么明显,譬如:strsplit。甚至研究码源之后,你也会发现,很多批处理常用的函数的实现其实都是for,因此,有一派观点认为避免显式循环(特别是指采用apply函数、plyr包的方法避免显式循环),其实具有一定的误导性,其是否能提高效率也是要视情况而定。

3. apply族函数和aggregate函数

这是R基础包自带的两类用于批量处理的函数包,在此,只做简单地介绍:

apply函数族共有五个,分别是:apply,lapply,sapply,tapply,vapply。其总用其实就是将某个函数逐个套用到向量(矩阵)中每个元素之中,其实具体的作用,读帮助文档就可以了。

aggregate这个函数比较有意思,常用的带入方式是:

作用就是基于by指定的变量做分组,计算FUN分别统计每个组的结果。

4. 几个常用的批处理用的包

主要有:

reshape(最好用的是melt)

plyr(__ply族函数是最好用的,有一个很巧妙地逻辑,对于开发软件包的人来说学习这个包很有启发性;其次用ts比较多的人最好学一下round_any函数):此包入门有点难,有些人也吐槽效率;round_any+gglot2画时间序列实在是太佳了。

data.table:这是一个网友的推荐,听说很好用,效率也提高不少。

如何高效率学习R?[转自微信:R语言中文社区]相关推荐

  1. 如何高效率学习R?[转自R语言中文社区]

    学R主要在于5点三阶段: 第一阶段有一点: 基础的文件操作(read., write.).数据结构知识,认识什么是数据框(data.frame).列表(list).矩阵(matrix).向量(vect ...

  2. R语言中文社区2018年终文章整理(作者篇)

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答.求职一站式搞定! 对商业智能BI.大数据分析挖掘.机器学习,python,R等数据领域感兴趣的同学 ...

  3. 精心整理 | R语言中文社区历史文章整理(类型篇)

    2018年过去一半了~又到了盘点的时间~感谢长时间来各位好友的关注,我们的成长与你们的爱护是分不开的.更感谢各位老师的投稿,支撑起了我们的这个社区,让更多R语言的爱好者和从业者获得最棒的知识!本文选取 ...

  4. android studio编译找不到程序包,AndroidStudio编译提示“程序包R不存在”可能的解决方案,希望你用不到。。。-Go语言中文社区...

    由于工作需要,临时接手一个用AndroidStudio开发的项目,还要求两天内开发一个功能.没怎么用过AndroidStudio,临时抱佛脚,项目导入后,各种错误,终于项目能跑起来了,能开发了,然后添 ...

  5. python社区微信群_Python 打造微信群聊天机器人(带操作界面)-Go语言中文社区...

    前言 这几天我的一个小伙伴问我能不能给 Ta 做一个配置灵活的微信群聊天机器人,之前了解过 itchat 库的使用,我就爽快的答应了,花了一个晚上,终于做出了雏形. 电脑上运行程序如下: 手机上的信息 ...

  6. python 图灵 微信 菜谱_python——wxpy模块实现微信尬聊(基于图灵机器人)-Go语言中文社区...

    wxpy(微信机器人)是在itchat基础上开发的微信个人功能服务API,基本可以实现微信各种拓展功能, 支持pip安装,适用2.7以及3.4-3.6的python版本 通过# 导入模块 from w ...

  7. linux内核字符驱动设备,Linux学习笔记——linux内核字符设备驱动-Go语言中文社区...

    尝试在树莓派安装的raspbian系统上进行linux字符设备驱动 1.更新安装kernel header源码 sudo apt-get update sudo apt-get install ras ...

  8. python三国演义人物出场统计ppt_Python学习之四大名著人物出场次数Python代码-Go语言中文社区...

    <三国演义>,<水浒传>,<西游记>的人物出场次数Python代码: 经过代码运行的结果可以看出三国作者对曹操和孔明比较喜爱:水浒作者对宋江和武松比较喜爱:西游作者 ...

  9. vue 调用共众url_vue单页面,在微信公众号支付中遇到的URL未注册BUG解决方法-Go语言中文社区...

    今天在做微信公众号支付的时候,遇到一个bug,在当前支付页面点击支付,就会报错,提示当前页面的URL未注册.如下图: 但是,这个URL我们是在后台微信公众号配置了的,所以说不会出错. 但是我们刷新一次 ...

最新文章

  1. ajax提交相对路径报错,ajax提交请求为啥url要用这个函数encodeURI
  2. perl开发环境配置(Database,SOCKET,CISCO)j(ReShip)
  3. PMSM的FOC 矢量控制算法调试流程,新手上手流程
  4. You don't have permission to access
  5. 常考数据结构与算法:两数之和
  6. 安全系列------web环境搭建组合
  7. 自然语言处理期末复习(7)平行文本与机器翻译
  8. Nat. Commun.|北京大学吴华君,基因组3D结构调控胚胎干细胞分化
  9. C语言 动态开辟内存管理
  10. C++ 函数重载、隐藏与覆盖的区别
  11. sql语句查看MySQL数据库大小
  12. Java多线程(五)——多线程的多线程池
  13. 现在更新鸿蒙会成为小白鼠吗,安卓11.0被停用,鸿蒙OS即将登上,花粉:宁愿当小白鼠...
  14. 【TSP】基于matlab遗传和模拟退火算法求解旅行商问题【含Matlab源码 696期】
  15. IFeatureManager Interface
  16. 433MHz遥控器loop天线方案 CA-S01 CrossAir贴片天线
  17. 在任意文件夹下以管理员的身份运行powershell
  18. LeetCode,无它,唯手熟尔(五)
  19. 财务自由到底是啥感觉啊...
  20. ⚓写写5G网速及页面提速中的延迟加载Lazyloading

热门文章

  1. L3/L4级自动驾驶拐点已至,谁在抢跑线控底盘千亿级风口?
  2. 计算机组成三态门有哪些,组成第六讲--运算器
  3. jQuery Mobile 按钮、图标
  4. webpack 生产环境打包后 浏览器自动刷新
  5. 10 知识问答(下)
  6. 香港银行开户哪家门槛低
  7. 2020年AI竞赛获奖方案复盘系列(一) 目标检测竞赛trick-华录杯违法广告检测比赛
  8. 物联网系统在农业的应用有哪些
  9. 机器人液化越狱!中国团队实现终结者幻想,灵感竟来自海参
  10. 一种串口两线的 TTL 转 485的电路