导读

查看文件、获取ID

读取数据表

读取数据表

一、查看文件、获取ID

关键参数:

list.files(pattern="条件") # 根据条件获取文件名

strsplit(向量, split="部件" # 切除每个向量值的部件

ascharacter() # list返回值转成character

dir() # 查看文件

[1] "bin.25.tsv" "bin.33.tsv" "bin.36.tsv" "bin.37.tsv" "bin.38.tsv"

[6] "bin.39.tsv" "bin.43.tsv" "bin.46.tsv" "bin.50.tsv" "bin.56.tsv"

[11] "bin.58.tsv" "bin.61.tsv" "bin.63.tsv" "bin.65.tsv" "bin.66.tsv"

[16] "bin.67.tsv" "bin.71.tsv" "bin.81.tsv" "bin.89.tsv" "bin.91.tsv"

[21] "bin.94.tsv"

files=list.files(pattern="bin.*.tsv") # 读取所有文件名

files

[1] "bin.25.tsv" "bin.33.tsv" "bin.36.tsv" "bin.37.tsv" "bin.38.tsv"

[6] "bin.39.tsv" "bin.43.tsv" "bin.46.tsv" "bin.50.tsv" "bin.56.tsv"

[11] "bin.58.tsv" "bin.61.tsv" "bin.63.tsv" "bin.65.tsv" "bin.66.tsv"

[16] "bin.67.tsv" "bin.71.tsv" "bin.81.tsv" "bin.89.tsv" "bin.91.tsv"

[21] "bin.94.tsv"

Bin_ID=vector()

for(i in 1:length(files))

{

Bin_ID[i]=as.character(strsplit(files[i], split=".tsv"))

# 提取所有文件名

}

Bin_ID

[1] "bin.25" "bin.33" "bin.36" "bin.37" "bin.38" "bin.39" "bin.43" "bin.46"

[9] "bin.50" "bin.56" "bin.58" "bin.61" "bin.63" "bin.65" "bin.66" "bin.67"

[17] "bin.71" "bin.81" "bin.89" "bin.91" "bin.94"

二、读取数据表

关键参数:

read.table()使用多参数

ml=list() # 定义列表

for(i in 1:length(files))

{

ml[[i]]=read.table(files[i], sep='\t', na.string="", stringsAsFactors=F, header=T, quote="", comment.char="")

# 读取所有数据框到列表ml

}

summary(ml) # ml列表信息

Length Class Mode

[1,] 7 data.frame list

[2,] 7 data.frame list

[3,] 7 data.frame list

[4,] 7 data.frame list

[5,] 7 data.frame list

[6,] 7 data.frame list

[7,] 7 data.frame list

[8,] 7 data.frame list

[9,] 7 data.frame list

[10,] 7 data.frame list

[11,] 7 data.frame list

[12,] 7 data.frame list

[13,] 7 data.frame list

[14,] 7 data.frame list

[15,] 7 data.frame list

[16,] 7 data.frame list

[17,] 7 data.frame list

[18,] 7 data.frame list

[19,] 7 data.frame list

[20,] 7 data.frame list

[21,] 7 data.frame list

head(ml[[1]]) # 打开1#列表,查看基本信息

locus_tag ftype length_bp gene EC_number COG

1 LBILEGMC_00001 CDS 324

2 LBILEGMC_00002 CDS 2589 tmoS_1 2.7.13.3

3 LBILEGMC_00003 CDS 852

4 LBILEGMC_00004 CDS 1164

5 LBILEGMC_00005 CDS 1356

6 LBILEGMC_00006 CDS 975 2.5.1.10 COG0142

product

1 hypothetical protein

2 Sensor histidine kinase TmoS

3 hypothetical protein

4 hypothetical protein

5 hypothetical protein

6 (2E,6E)-farnesyl diphosphate synthase

三、统计“ftype”的各值频数

CDS_num=vector()

rRNA_num=vector()

tRNA_num=vector()

tmRNA_num=vector()

# 新建向量,用来存储各值在各个数据框中的频数

# 预先已知ftype分类变量有四个值

for(i in 1:length(files))

{

CDS_num[i]=0

rRNA_num[i]=0

tRNA_num[i]=0

tmRNA_num[i]=0

# 给每个向量赋初值

for(j in 1:length(ml[[i]][,"ftype"]))

{

if(ml[[i]][j, "ftype"]=="CDS")

{

CDS_num[i]=CDS_num[i]+1

}

else if(ml[[i]][j, "ftype"]=="rRNA")

{

rRNA_num[i]=rRNA_num[i]+1

}

else if(ml[[i]][j, "ftype"]=="tRNA")

{

tRNA_num[i]=tRNA_num[i]+1

}

else if(ml[[i]][j, "ftype"]=="tmRNA")

{

tmRNA_num[i]=tmRNA_num[i]+1

}

}

}

prokka_result=data.frame(Bin_ID, CDS_num, tRNA_num, rRNA_num, tmRNA_num)

# 结果汇总成表

write.table(prokka_result, file="prokka_result.txt", sep="\t", quote=F, row.names=F)

# 结果保存

查看结果文件:

图片.png

r语言数据变量分段_R语言:统计多个数据框中分类变量各值的频数相关推荐

  1. r语言各形状编号_R语言入门第八讲:编码分类变量(factor)

    今天第八篇~~~~~~ 在第一讲中我给大家介绍了read.table函数的使用.最近我在处理一个一百万左右的数据,发现read.table函数出了问题.我不知道是在excel转成txt时出的问题还是因 ...

  2. R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色、连续值程度配色)实战

    R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色.连续值程度配色)实战 目录 R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色.连续值程 ...

  3. R语言epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(一维频率表、包含频数的百分比、累积的百分比、使用条形图可视化频数分布)、设置cum.percent参数即使存在缺失值也显示

    R语言使用epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(tab1函数计算数据的一维频率表.包含频数的百分比.累积的百分比.使用条形图可视化频数分布).设置cum.percen ...

  4. R语言epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(一维频率表、频数的百分比、累积的百分比、使用条形图可视化频数分布)、自定义设置cum.percent参数是否显示累积百分比

    R语言使用epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(tab1函数计算数据的一维频率表.包含频数的百分比.累积的百分比.使用条形图可视化频数分布).自定义设置cum.per ...

  5. r包调用legend函数_R语言实现基于朴素贝叶斯构造分类模型数据可视化

    本文内容原创,未经作者许可禁止转载! 目录 一.前言 二.摘要 三.关键词 四.算法原理 五.经典应用 六.R建模 1.载入相关包(内含彩蛋): 1.1 library包载入 1.2 pacman包载 ...

  6. r语言 四格画图_R语言画多组数据相关性分析图

    相关性表示两组数据之间的关系是否"相似"或"相近":但当遇到多组数据时,如何直观的比较各组数据之间的相关性是一个大家比较关注的问题,相关图可以通过对相关系数矩阵 ...

  7. r语言对mysql数据分析_R语言:抓取股票数据并存入数据库进行分析实例 MySQL

    R语言连接mySql 准备: RODBC R studio console下 > Install.packages(RODBC) 安装MySql https://dev.mysql.com/ge ...

  8. r语言summary函数使用_R语言--操纵数据--重要函数的使用

    1. lapplyeg:x=list(a=1:10,b=c(11,21,31,41,51)) lapply(x,mean) 或 sapply(x,mean) lapply与sapply均为返回x中元素 ...

  9. R语言中dim函数_R语言中的方差分析方法汇总

    方差分析,是统计中的基础分析方法,也是我们在分析数据时经常使用的方法.下面我总结一下R语言如何对常用的方差分析进行操作. 1. 方差分析的假定 上面这个思维导图,也可以看出,方差分析有三大假定:正态, ...

最新文章

  1. Docker虚拟化解析
  2. python定义全局变量
  3. 统计学习的三个招式:模型、策略和算法
  4. 1_1 FactoryMode 工厂模式
  5. 和lua的效率对比测试_Unity游戏开发Lua更新运行时代码!
  6. markdown html vue,vue项目引入markdown
  7. android 速度传感器,Android实战技巧之四十二:加速度传感器
  8. Access数据库问题锦集
  9. 关于NavigationView中不能直接findviewById的解决办法
  10. (IoT物联网)天线的设计步骤 - 完整收藏版
  11. RFC2544性能测试简介
  12. mcisendString制作播放器
  13. linux ftp 500误,Linux Vsftp报错500 OOPS如何修复
  14. 第二阶段:数据库设计与初始化
  15. jmap 和jstack使用
  16. 【研发管理】三手项目 接盘时 必须要做的四件事
  17. 国内移动应用数据安全发展现状
  18. 计算机毕业设计asp.net的高校科研项目管理系统(源码+系统+mysql数据库+Lw文档)
  19. 985毕业,半路出家28岁进军Java,坚持奋斗了三年现如今年薪36W+
  20. vpd安全策略的使用

热门文章

  1. 啥是对象的浅度克隆和深度克隆?
  2. php-fpm进程的用户组,一文看懂PHP进程管理器php-fpm
  3. 政府跟踪我们电话的3种方式
  4. airtest测试网页_Airtest之web自动化(一)
  5. 护眼新选择 雾以希雾化润眼仪 震撼来袭
  6. php动态倒计时,php实现倒计时效果
  7. python如何查询数据库_python如何访问数据库
  8. Java常用公共工具记录
  9. 【Date】日期格式转换 Thu Sep 07 2017 00:00:00 GMT+0800 (中国标准时间) 00:00:00
  10. python opencv车道线检测