一般我喜欢把文件储存成csv格式,然后用read.csv读取文件。

也有的人习惯储存数据为txt格式,然后用read.table读取文件。

但是当数据太大的时候,read.csv和read.table似乎就不适用了。

首先读取慢,而且读到最后会读一个寂寞。

比如下面这个文件:

有三个多G,用read.csv读取的时候,会发生什么状况呢?

setwd("D:\\")
dir()
data <- read.table("GSE149614_HCC.scRNAseq.S71915.count.txt",header = T,sep="\t")
##########
##########   我等了十几分钟,还没读进去    ################

我等了十几分钟,还没读进去。

当然也有可能是电脑的原因,如果是苹果电脑,可能会好点。

但是读到最后会发现,报错了。因为文件太大了,这里我就不向大家展示了,直接点击stop,结束运行:

我们再换一种方式读取:

library(readr)
read_table()

使用readr这个软件包里面的read_table,这个据说读取数据比read.table要快很多。

但是,面对三个多G的数据,还是慢,这里我就不展示了,大家可以自己去体验一下。

那么,面对这么大的数据,我们如何读取呢?

这里向大家推荐一个好用的函数fread。

fread,可以理解为:fast read (自创的)。

下面开始运行代码:

install.packages("data.table")
library(data.table)
dir()
data <- fread("GSE149614_HCC.scRNAseq.S71915.count.txt",sep = "\t",header = F)

fread这个函数再data.table中,如果要运行它,先下载一个data.table软件包。

可以看到,在读取的过程中能够看到进度条。

能看到进度条,就有盼头。

读取完数据以后我们查看一下文件:

dim(data)
class(data)###############> dim(data)
[1] 25712 71916
> class(data)
[1] "data.table" "data.frame"

可以看到数据有25712行,71916列,这比TCGA任何一个数据库的文件都大。

文件的类型既属于table,也属于数据框。

查看一下数据:

data[1:10,1:110]> data[1:10,1:110]V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 V13 V14 V15 V16 V17 V18 V19 V201:  RP11-34P13.7  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   02:    FO538757.2  0  0  0  0  0  0  0  0   0   0   0   0   1   0   0   0   0   0   03:    AP006222.2  1  1  0  0  0  0  0  0   0   0   0   0   1   0   0   0   0   1   14: RP4-669L17.10  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   05:  RP5-857K21.4  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   06: RP11-206L10.9  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   07:        FAM87B  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   08:     LINC00115  0  0  0  0  0  0  0  0   0   1   0   0   1   0   0   0   0   0   09:        FAM41C  0  0  0  0  0  0  0  0   0   0   0   0   0   0   0   0   0   0   0

用fread读取出来的数据,也是可以使用美元符提取列的,当然也可以进行数据匹配。

那么什么情况下会用到大样本的数据呢?

比如我们要用GTEx数据库进行分析正常人的组织样本测序数据。

又比如我们要分析单细胞的测序数据等。

数据太大的时候,R语言如何读取?相关推荐

  1. 2017WOT全球软件开发技术峰会:面向数据的思维模式和R语言编程

    跨界知识聚会系列文章,"知识是用来分享和传承的",各种会议.论坛.沙龙都是分享知识的绝佳场所.我也有幸作为演讲嘉宾参加了一些国内的大型会议,向大家展示我所做的一些成果.从听众到演讲 ...

  2. excel连接mysql速度太慢,excel表格数据太大-excel太大,运行缓慢该怎么办

    EXCEL表格为什么内容不多,但占用的空间特别大 原因:表格的空白行太多,占用表格容量. 解决方法: 1.打开excel,先选择其中一张表格. 2.下滑鼠标到表格内容结束的空白行处. 3.选中空白行整 ...

  3. 数据太大,记事本打不开怎么办?

    当文本文件中保存的数据太大时,会出现文件太大,记事本等无法打开的现象,如下图: 此时我们可以采用超大文本文件打开工具LogViewPro 首先下载该工具,下载地址如下: http://download ...

  4. R与数据分析学习总结之一:R语言基本操作

    最近开始学习R语言,把学习笔记和小伙伴们分享一下吧,欢迎一起交流 R 起源: R是S语言的一种实现.S语言是由 AT&T贝尔实验室开发的一种用来进行数据探索.统计分析.作图的解释型语言.最初S ...

  5. R语言中读取excel数据的常用方式有哪些?

    R语言中读取excel数据的常用方式有哪些? 目录 R语言中读取excel数据的常用方式有哪些? R语言是解决什么问题的? R语言中读取excel数据的常用方式有哪些? R语言是解决什么问题的? R ...

  6. ps保存切片遇到存储数据太大的问题和常用快捷键

    为什么80%的码农都做不了架构师?>>>    ps保存切片遇到存储数据太大的问题和常用快捷键 保存多个切片,选定多个切片快捷键Shift+单击 切片复制快捷键Ctrl+Alt+单击 ...

  7. R语言批量读取txt文件并合并

    气象数据处理-R语言批量读取txt数据并合并 处理地面气候资料日值数据集v3.0 数据集以月为单位存储,每个月是一个单独的文件,上图. 在处理数据过程中,我们往往会将单独的数据合并到一起做进一步分析, ...

  8. 掌握R语言文件读取方法

    目标 掌握 R语言文件读取方法 学习笔记 utils包内Date Input用法 base包内readLines用法 stringi包内stri_read_lines xlsx包内Date Input ...

  9. R语言中读取xlsx文件的方法

    R语言中读取xlsx文件的方法 安装包 install.packages("openxlsx") library(openxlsx) 文件名+sheet的序号 data<- ...

  10. R语言之读取图片的方式总结

    R语言之读取图片的方式总结 读取png格式的图片 读取jpg格式图片 最近遇到的,加上之前使用的一些技巧,觉得还是有必要记录一下,便于后续查找~ 读取png格式的图片 通过png包中的readPNG( ...

最新文章

  1. javascript移动端 电子书 翻页效果
  2. 微软研究员在ImageNet计算机视觉识别挑战中实现里程碑式突破
  3. hibernate------java-delete-insert-update
  4. 最简单易懂的对拍讲解
  5. vue路由-router
  6. USACO(含training section)水题合集[5/未完待续]
  7. jeecgboot配置文件_Jeecg-Boot 技术文档
  8. qiankun 传统项目配置_微前端 qiankun 项目实践
  9. TCP/IP模型及OSI七层参考模型各层的功能和主要协议
  10. 关于eclipse中maven项目的问题
  11. Python3 色情图片识别
  12. 最容易月薪过万城市排名出炉!
  13. 找老域名有没有什么好方法?
  14. tdr 定位公式_时域反射计TDR原理详细解析
  15. iOS获取设备IP地址(WiFi,蜂窝数据两种情况)
  16. 普通马甲包app上架App Store5.2.1或3.21被拒原因解析
  17. 说说JavaScript的原型链
  18. ARCGIS中如何把线图层和面图层叠加呢?
  19. php gd库 缩小图片_【源码分享】PHP中GD库实现图片等比例缩放
  20. 计算机文化基础多选,计算机文化基础多选题..pdf

热门文章

  1. Java并发编程实战_《Java并发编程实战》PDF版本下载
  2. Linux中文输入法安装
  3. kali linux 安装中文输入法
  4. 飞鱼科技2019笔试题
  5. 中信所怎么查期刊影响因子_《2019年版中国科技期刊引证报告(核心版)自然科学卷》医学类期刊目录(附影响因子)...
  6. QT应用SQL数据库,简单全面的应用,增删改查。
  7. mysql手机号段地区库_最新全国手机号段归属地数据库下载(mysql+xlsx+txt格式)46万条...
  8. SQL语句基本用法格式
  9. 计算机代码编程知识,编程基础知识
  10. JAVA类型转换系列文章一