对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来。当然,这不是最好的学习方式,最好的方式是——看书。目前,市面上介绍R语言的书籍很多,中文英文都有。那么,众多书籍中,一个生手应该从哪一本着手呢?入门之后如何才能把自己练就成某个方面的高手呢?相信这是很多人心中的疑问。有这种疑问的人有福了,因为笔者将根据自己的经历总结一下R语言书籍的学习路线图以使Ruser少走些弯路。

本文分为6个部分,分别介绍初级入门,高级入门,绘图与可视化,计量经济学,时间序列分析,金融等。

1、初级入门

《R语言实战》,这是高涛、肖楠等翻译的一本书详细全面介绍了入门、图形、统计、回归、方差、功效分析、广义线性模型、主成分、因子分析、缺失值处理等。除此之外,还可以去读刘思喆的《153分钟学会R》。这本书收集了R初学者提问频率最高的153个问题。为什么叫153分钟呢?因为最初作者写了153个问题,阅读一个问题花费1分钟时间,全局下来也就是153分钟了

2、高级入门

读了上述书籍之后,你就可以去高级入门阶段了。这时候要读的书有两本很经典的。《Statistics with R》和《The R book》。之所以说这两本书高级,是因为这两本书已经不再限于R基础了,而是结合了数据分析的各种常见方法来写就的,比较系统的介绍了R在线性回归、方差分析、多元统计、R绘图、时间序列分析、数据挖掘等各方面的内容,看完之后你会发现,哇,原来R能做的事情这么多,而且做起来是那么简洁。读到这里已经差不多了,剩下的估计就是你要专门攻读的某个方面内容了。下面大致说一说。

3、绘图与可视化

亚里斯多德说,“较其他感觉而言,人类更喜欢观看”。因此,绘图和可视化得到很多人的关注和重视。那么,如何学习R画图和数据可视化呢?再简单些,如何画直方图?如何往直方图上添加密度曲线呢?我想读完下面这几本书你就大致会明白了。

首先,画图入门可以读《R Graphics》,个人认为这本是比较经典的,全面介绍了R中绘图系统。该书对应的有一个网站,google之就可以了。更深入的可以读《Lattice:Multivariate Data Visualization with R》。上面这些都是比较普通的。当然,有比较文艺和优雅的——ggplot2系统,看《ggplot2:Elegant Graphics for Data Analysis》。还有数据挖掘方面的书:《Data Mining with Rattle and R》,主要是用Rattle软件,个人比较喜欢Rattle!当然,Rattle不是最好的,Rweka也很棒!再有就是交互图形的书了,著名的交互系统是ggobi,这个我已经喜欢两年多了,关于ggobi的书有《Interactive and Dynamic Graphics for Data Analysis With R and GGobi》,不过,也只是适宜入门,更多更全面的还是去ggobi的主页吧,上面有各种资料以及包的更新信息!

4、计量经济学

关于计量经济学,首先推荐一本很薄的小册子:《Econometrics In R》,做入门用。然后,是《Applied Econometrics with R》,该书对应的R包是AER,可以安装之后配合使用,效果甚佳。计量经济学中很大一部分是关于时间序列分析的,这一块内容在下面的地方说。

5、时间序列分析

时间序列书籍的书籍分两类,一种是比较普适的书籍,典型的代表是:《Time Series Analysis and Its Applications :with R examples》。该书介绍了各种时间序列分析的经典方法及实现各种经典方法的R代码,该书有中文版。如果不想买的话,建议去作者主页直接下载,英文版其实读起来很简单。时间序列分析中有一大块儿是关于金融时间序列分析的。这方面比较流行的书有两本《Analysis of financial time series》,这本书的最初是用的S-plus代码,不过新版已经以R代码为主了。这本书适合有时间序列分析基础和金融基础的人来看,因为书中关于时间序列分析的理论以及各种金融知识讲解的不是特别清楚,将极值理论计算VaR的部分就比较难看懂。另外一个比较有意思的是Rmetrics推出的《TimeSeriesFAQ》,这本书是金融时间序列入门的东西,讲的很基础,但是很难懂。对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。经济领域的时间序列有一种特殊的情况叫协整,很多人很关注这方面的理论,关心这个的可以看《Analysis of Integrated and Cointegrated Time Series with R》。最后,比较高级的一本书是关于小波分析的,看《Wavelet Methods in Statistics with R》。附加一点,关于时间序列聚类的书籍目前比较少见,是一个处女地,有志之士可以开垦之!

6、金融

金融的领域很广泛,如果是大金融的话,保险也要被纳入此间。用R做金融更多地需要掌握的是金融知识,只会数据分析技术意义寥寥。我觉得这些书对于懂金融、不同数据分析技术的人比较有用,只懂数据分析技术而不动金融知识的人看起来肯定如雾里看花,甚至有人会觉得金融分析比较低级。这方面比较经典的书籍有:《Advanced Topics in Analysis of Economic and Financial Data Using R》以及《Modelling Financial Time Series With S-plus》。金融产品定价之类的常常要用到随机微分方程,有一本叫《Simulation Inference Stochastic Differential Equations:with R examples》的书是关于这方面的内容的,有实例,内容还算详实!此外,是风险度量与管理类。比较经典的有《Simulation Techniques in Financial Risk Management》、《Modern Actuarial Risk Theory Using R》和《Quantitative Risk Management:Concepts, Techniques and Tools》。投资组合分析类和期权定价类可以分别看《Portfolio Optimization with R》和《Option Pricing and Estimation of Financial Models with R》。

7、数据挖掘

现在相关的书籍已经比较多了,可见一文中推荐的几本书。

在此我向大家推荐一个大数据开发交流圈:658558542    (☛点击即可加入群聊)里面整理了一大份学习资料,全都是些干货,包括大数据技术入门,大数据离线处理、数据实时处理、Hadoop 、Spark、Flink、推荐系统算法以及源码解析等,送给每一位大数据小伙伴,让自学更轻松。这里不止是小白聚集地,还有大牛在线解答!欢迎初学和进阶中的小伙伴一起进群学习交流,共同进步!

与数据挖掘有关或者有帮助的R包和函数的集合

1、聚类

常用的包: fpc、cluster、pvclust、mclust

基于划分的方法:kmeans、pam、pamk、clara

基于层次的方法:hclust、pvclust、agnes、diana

基于模型的方法:mclust

基于密度的方法:dbscan

基于画图的方法:plotcluster、plot.hclust

基于验证的方法:cluster.stats

2、分类

常用的包:

rpart、party、randomForest、rpartOrdinal、tree、marginTree、maptre、survival

决策树:rpart、ctree

随机森林:cforest、randomForest

回归、 Logistic回归、 Poisson回归:glm、predict、residuals

生存分析:survfit, survdiff, coxph

3、关联规则与频繁项集

常用的包:

arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

DRM:回归和分类数据的重复关联模型

APRIORI算法,广度RST算法:apriori、drm

ECLAT算法: 采用等价类,RST深度搜索和集合的交集: eclat

4、序列模式

常用的包: arulesSequences

SPADE算法: cSPADE

5、时间序列

常用的包:timsac

时间序列构建函数: ts

成分分解:decomp、decompose、stl、tsr

6、统计

常用的包: Base R、nlme

方差分析:aov、anova

密度分析:density

假设检验:t.test、prop.test、anova、aov

线性混合模型:lme

主成分分析和因子分析:princomp

7、图表

条形图:barplot

饼图:pie

散点图:dotchart

直方图:hist

密度图:densityplot

蜡烛图, 箱形图 boxplot

QQ (quantile-quantile) 图:qqnorm、qqplot、qqline

Bi-variate plot:coplot

树:rpart

Parallel coordinates:parallel、 paracoor、parcoord

热图, contour:contour、filled.contour

其他图:stripplot, sunflowerplot, interaction.plot, matplot, fourfoldplot,assocplot, mosaicplot

保存的图表格式:pdf、postscript、win.metafile、jpeg、bmp、png

8、数据操作

缺失值:na.omit

变量标准化:scale

变量转置:t

抽样:sample

堆栈:stack、unstack

其他:aggregate、merge、reshape

9、与数据挖掘软件Weka做接口

RWeka:通过这个接口,可以在R中使用Weka的所有算法。

感谢您的观看,如有不足之处,欢迎批评指正。最后祝福所有遇到瓶颈的大数据程序员们突破自己,祝福大家在往后的工作与面试中一切顺利。

R语言最佳学习路线和常用数据挖掘包相关推荐

  1. R语言学习路线和常用数据挖掘包

    对于初学R语言的人,最常见的方式是:遇到不会的地方,就跑到论坛上吼一嗓子,然后欣然or悲伤的离去,一直到遇到下一个问题再回来.当然,这不是最好的学习方式,最好的方式是--看书.目前,市面上介绍R语言的 ...

  2. 【万字长文】R语言入门学习路线与资源汇总

    本篇推文就不介绍为什么需要学R了,你能打开这篇文章,说明你有学习R的想法或者正在学习R的路上. 今天简单介绍下R语言的学习路线以及R学习资源汇总. 下面涉及到的R语言书籍我打包了PDF文件,有需要的在 ...

  3. R语言可视化学习笔记之相关矩阵可视化包ggcorrplot

    本文转载自"R语言中文社区",己获授权. 作者简介Introduction taoyan:伪码农,R语言爱好者,爱开源. 个人博客: https://ytlogos.github. ...

  4. python学习路线-Python最佳学习路线

    Python最佳学习路线 如何学习Python 最近开始整理python的资料,会陆续放到博客中存档.找了几个qq群,其中有一个群78486745(点击进群).后面就没怎么加群了,还是需要看官方文档为 ...

  5. 针对新人的:Python最佳学习路线

    原文作者:佛山小程序员 原文链接:https://blog.csdn.net/weixin_44192923/article/details/86515020 Python最佳学习路线 最近开始整理p ...

  6. python469教程_从入门到精通真不难:Python最佳学习路线(视频学习教程)分享

    随着人工智能时代的来临, Python开始崭露头角并迅速吸引了人们的广泛关注.很多人想要从事Python开发,但需要学什么内容.怎么快速学习呢?接下来就给大家分享 Python最佳学习路线.帮你快速找 ...

  7. PHP工程师最佳学习路线!【重磅推出】

    PHP究竟是不是最好的语言,一直以来是程序员最大的"争议",但毋庸置疑的是,PHP绝对是最有前途和力量的变成语言,也是你入门最值得学习的语言,因为作为老牌后端编程语言,PHP在全球 ...

  8. R语言小白学习笔记13—基本统计

    R语言小白学习笔记13-基本统计 笔记链接 学习笔记13-基本统计 13.1 概括性统计量 13.2 相关系数和协方差 13.3 t-检验 13.3.1 单样本t检验 13.3.2 两样本t检验 13 ...

  9. R语言小白学习笔记3—R语言读取数据

    R语言小白学习笔记3-R语言读取数据 笔记链接 想说的话 学习笔记3-R语言读取数据 3.1 读取CSV文件 3.1.1 read_delim函数 3.1.2 fread函数 3.2 读取Excel数 ...

最新文章

  1. 学习python需要什么基础-学习python需要什么基础吗?老男孩Python
  2. 【控制】《多无人机协同控制技术》周伟老师-第10章-多无人机协同目标跟踪飞行控制策略
  3. java程序结构_Java 程序结构说明(学习 Java 编程语言 004)
  4. 用 Flink 取代 Spark Streaming,知乎实时数仓架构演进【推荐】
  5. java中的HashSet内部是如何工作的
  6. 安卓系统dicom阅读器_用户分享:电子书阅读器Note Pro,一座贴心的移动图书馆...
  7. char * 转LPCTSTR若干方法
  8. oracle flashback 深入研究,oracle 之flashback 深入研究。
  9. 前端布局总结--居中
  10. 【JAVA SE】第四章 变量和方法
  11. Java基础学习总结(39)——Log4j 1使用教程
  12. arch Linux添加源,在Arch Linux系统中使用Archlinuxcn源(清华源)的方法
  13. 远程对象工厂设计模式
  14. 利用Vailyn识别路径遍历和文件包含漏洞
  15. css3径向渐变详解-遁地龙卷风
  16. 使用IIS 共享文件
  17. 计算机属性资源管理器已停止工作,经常出现“资源管理器已停止工作”怎么办的完美解决办法...
  18. html5 css3 入门教程
  19. ACM Southwestern European Regional Programming Contest (SWERC) 2017 J 智商题(模m同余)
  20. 数字图像处理(入门篇)十四 透视变换

热门文章

  1. python验证单个概率_Python | 拥有选择权 ,才拥有概率 。
  2. 2011年暖宝宝品牌推荐
  3. 华纬科技冲刺A股上市:毛利率下降幅度较大,金雷为实控人
  4. Ubuntu Postgresql安装配置
  5. 自助行业三大平台公司战略重组成立趣互联,共享经济独角兽诞生
  6. 【开源系列】三国演义LBS (三)源码:基础库
  7. 计算机frequency函数,第二章 FREQUENCY函数按条件统计给定区间内的数据个数
  8. 单次自动对焦(ONE SHOT)、人工智能自动对焦(AI FOCUS)、人工智能伺服自动对焦(AI SERVO)的区别
  9. Python中数字和字符串之间的转换
  10. Ultraedit配置字数统计工具栏