原文:https://www.cnblogs.com/MarsMercury/p/4935858.html

1.提高程序效率,保证执行速度

(1)尽量使用向量化运算

(2)尽量使用矩阵,必要时才使用数据框

(3)使用read.table时,尽量显式设定colClasses和nrows,设定comment.char="",把不需要的列设置为NULL

(4)将外部数据导入矩阵时,使用scan函数

(5)删除临时对象和不再用的对象

(6)用ls.objects()列出工作区对象占用的内存大小

2.把数据存在外部

(1)ff包:将数据保存在硬盘,操作起来跟在内存中一样

(2)bigmemory包:支持大规模矩阵的创建

(3)filehash:keyvalue数据库,value在硬盘中

(4)ncdf,ncdf4:读取cndf格式

(5)RODBC,RMySQL,ROracle,RPostgreSQL,RSQLite

3.使用大规模数据专门的统计方法包

(1)biglm和speedglm包可以针对大数据集有效地拟合线性和广义线性模型

(2)biganalytics提供了k-means,column statistics和一个对biglm的封装

(3)bigtabulate提供了table,split和tapply

(4)bigalgebra提供了高等线性代数函数

(5)biglars提供了最小角回归,lasso回归以及针对大数据集的逐步回归

(6)brobdingnag包处理大数字

4.大型文本文档常用包

(1)fread:data.table包,大型文本文档读放

(2)read.table.ffdf,read.csv.ffdf:ff包

(3)read.big.matrix:bigmemory,无法在windows下

(4)read.csv.sql:sqldf包

(5)read.table

【转】R语言处理大规模数据集的编程要点相关推荐

  1. R语言关联规则挖掘数据集预览、分析、筛选:项目数的分布形态(分位数、密度图)、itemFrequency函数统计每一项目在所有事务中出现的次数、最常发生的项目、数据筛选(交易的集合项目大于1)

    R语言关联规则挖掘数据集预览.分析.筛选:项目数的分布形态(分位数.密度图).itemFrequency函数统计每一项目在所有事务中出现的次数.最常发生的项目.数据筛选(交易的集合项目大于1) 目录

  2. R语言鸢尾花iris数据集的层次聚类分析

    介绍 本文在数据集上展示了如何使用dendextend R软件包来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析).最近我们被客户要求撰写关于鸢尾花iris的 ...

  3. R语言基于R6的面向对象编程

    R的极客理想系列文章,涵盖了R的思想,使用,工具,创新等的一系列要点,以我个人的学习和体验去诠释R的强大. R语言作为统计学一门语言,一直在小众领域闪耀着光芒.直到大数据的爆发,R语言变成了一门炙手可 ...

  4. R语言编程 第一讲 变量与赋值

    R语言编程 第一讲 变量与赋值 R语言的变量名 赋值符号 <- 与 = 的区别 赋值符号 <- 的更多细节 Copy-on-Modify与Modify-in-Place 函数调用 列表 数 ...

  5. R语言入门之创建数据集——向量、矩阵、数组、数据框和列表

    码字不易,转发请注明出处:http://blog.csdn.net/qq_28945021/article/details/52100765 摘要 随着大数据的火爆发展,适合数据分析及生成图表的R语言 ...

  6. 自学 R 语言的十条干货技巧分享

    统计和科学编程已迅速成为科学中的一项必要技能,而这一般都需要用到--R语言. R语言以其简单易学.免费开源的特性,正在各个领域发挥着越来越重要的作用. 由于其强大的统计计算和数据可视化两大功能,可以说 ...

  7. FigDraw 2. SCI 文章绘图必备 R 语言基础

    点击关注,桓峰基因 桓峰基因 生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你 70篇原创内容 公众号 关注公众号,桓峰基 ...

  8. 推荐几本关于R语言的书

    R语言是一种严谨且对字符敏感的解释性语言,这意味着我们在控制台和命令行界面输入的指令要符合特定的语法规则.只有这样,软件才能够解释并执行代码,最后返回结果. R语言的前身是S语言,S语言是John M ...

  9. r语言 聚类求和_R语言聚类分析,如何导出将分类结果?

    泻药,本文在数据集上展示了如何来增强Hierarchical Cluster Analysis(更好的可视化和灵敏度分析). 原文链接:R语言鸢尾花iris数据集的层次聚类分析​tecdat.cn 介 ...

最新文章

  1. css grid 自动高度_2020年你不应该错过的CSS新特性(二)
  2. SpringBoot 快速开启事务(附常见坑点)
  3. 把linux插足到域
  4. [信息安全] 1.密码工具箱
  5. Android:手把手教你打造可缩放移动的ImageView(下)
  6. python 计算机程序设计-计算机二级教程python第一章 程序设计语言
  7. HDOJ-2091 空心三角形 C语言
  8. j2ee建立在线聊天室详细教程(第一天登陆页面)
  9. 软件测试初学者学习资料汇总大全(校招、工作进阶通用)
  10. php与sap系统,sap系统是什么系统
  11. 期货市场对农业的影响
  12. 超越竞争对手的秘密武器-技术重用
  13. python调用gpu amd_TensorFlow通过AMD GPU加速(ROCm/Ubuntu 18.04)
  14. 花3150本钱拉一车菠萝,在马路边摆摊卖水果,卖7天收入4170
  15. 佰落暑期java自学记录-11
  16. HBGGP的工程建立过程
  17. 创业公司股权分配较好方案推荐
  18. 量子计算机游戏,第3章 量子计算机中的游戏
  19. 香港理工大学,新设“元宇宙科技”专业
  20. VMware vSphere 介绍、安装 服务器虚拟化部署完整配置

热门文章

  1. 转:基于AOP实现Ibatis的缓存配置过期策略
  2. 华为机试HJ57:高精度整数加法
  3. 华为机试HJ15:求int型正整数在内存中存储时1的个数
  4. AI会“偷走”软件测试员的工作吗?只有技术强,才是硬道理!
  5. python论坛签到_Python实现某论坛自动签到功能
  6. loadrunner——参数化
  7. Mysql事务控制语言
  8. jpushinterface.setalias的几个参数都是啥意思_很多电工老师傅都不知道,低压断路器基本参数,你懂几个?...
  9. 资深面试官解答:大厂月薪过20K的测试工程师,都需要满足哪些要求?
  10. deletefile失败 代码5怎么办_Go语言高级窍门与技巧,看完你也能写出高质量代码...