r语言数据变量分段_R语言:统计多个数据框中分类变量各值的频数
导读
查看文件、获取ID
读取数据表
读取数据表
一、查看文件、获取ID
关键参数:
list.files(pattern="条件") # 根据条件获取文件名
strsplit(向量, split="部件" # 切除每个向量值的部件
ascharacter() # list返回值转成character
dir() # 查看文件
[1] "bin.25.tsv" "bin.33.tsv" "bin.36.tsv" "bin.37.tsv" "bin.38.tsv"
[6] "bin.39.tsv" "bin.43.tsv" "bin.46.tsv" "bin.50.tsv" "bin.56.tsv"
[11] "bin.58.tsv" "bin.61.tsv" "bin.63.tsv" "bin.65.tsv" "bin.66.tsv"
[16] "bin.67.tsv" "bin.71.tsv" "bin.81.tsv" "bin.89.tsv" "bin.91.tsv"
[21] "bin.94.tsv"
files=list.files(pattern="bin.*.tsv") # 读取所有文件名
files
[1] "bin.25.tsv" "bin.33.tsv" "bin.36.tsv" "bin.37.tsv" "bin.38.tsv"
[6] "bin.39.tsv" "bin.43.tsv" "bin.46.tsv" "bin.50.tsv" "bin.56.tsv"
[11] "bin.58.tsv" "bin.61.tsv" "bin.63.tsv" "bin.65.tsv" "bin.66.tsv"
[16] "bin.67.tsv" "bin.71.tsv" "bin.81.tsv" "bin.89.tsv" "bin.91.tsv"
[21] "bin.94.tsv"
Bin_ID=vector()
for(i in 1:length(files))
{
Bin_ID[i]=as.character(strsplit(files[i], split=".tsv"))
# 提取所有文件名
}
Bin_ID
[1] "bin.25" "bin.33" "bin.36" "bin.37" "bin.38" "bin.39" "bin.43" "bin.46"
[9] "bin.50" "bin.56" "bin.58" "bin.61" "bin.63" "bin.65" "bin.66" "bin.67"
[17] "bin.71" "bin.81" "bin.89" "bin.91" "bin.94"
二、读取数据表
关键参数:
read.table()使用多参数
ml=list() # 定义列表
for(i in 1:length(files))
{
ml[[i]]=read.table(files[i], sep='\t', na.string="", stringsAsFactors=F, header=T, quote="", comment.char="")
# 读取所有数据框到列表ml
}
summary(ml) # ml列表信息
Length Class Mode
[1,] 7 data.frame list
[2,] 7 data.frame list
[3,] 7 data.frame list
[4,] 7 data.frame list
[5,] 7 data.frame list
[6,] 7 data.frame list
[7,] 7 data.frame list
[8,] 7 data.frame list
[9,] 7 data.frame list
[10,] 7 data.frame list
[11,] 7 data.frame list
[12,] 7 data.frame list
[13,] 7 data.frame list
[14,] 7 data.frame list
[15,] 7 data.frame list
[16,] 7 data.frame list
[17,] 7 data.frame list
[18,] 7 data.frame list
[19,] 7 data.frame list
[20,] 7 data.frame list
[21,] 7 data.frame list
head(ml[[1]]) # 打开1#列表,查看基本信息
locus_tag ftype length_bp gene EC_number COG
1 LBILEGMC_00001 CDS 324
2 LBILEGMC_00002 CDS 2589 tmoS_1 2.7.13.3
3 LBILEGMC_00003 CDS 852
4 LBILEGMC_00004 CDS 1164
5 LBILEGMC_00005 CDS 1356
6 LBILEGMC_00006 CDS 975 2.5.1.10 COG0142
product
1 hypothetical protein
2 Sensor histidine kinase TmoS
3 hypothetical protein
4 hypothetical protein
5 hypothetical protein
6 (2E,6E)-farnesyl diphosphate synthase
三、统计“ftype”的各值频数
CDS_num=vector()
rRNA_num=vector()
tRNA_num=vector()
tmRNA_num=vector()
# 新建向量,用来存储各值在各个数据框中的频数
# 预先已知ftype分类变量有四个值
for(i in 1:length(files))
{
CDS_num[i]=0
rRNA_num[i]=0
tRNA_num[i]=0
tmRNA_num[i]=0
# 给每个向量赋初值
for(j in 1:length(ml[[i]][,"ftype"]))
{
if(ml[[i]][j, "ftype"]=="CDS")
{
CDS_num[i]=CDS_num[i]+1
}
else if(ml[[i]][j, "ftype"]=="rRNA")
{
rRNA_num[i]=rRNA_num[i]+1
}
else if(ml[[i]][j, "ftype"]=="tRNA")
{
tRNA_num[i]=tRNA_num[i]+1
}
else if(ml[[i]][j, "ftype"]=="tmRNA")
{
tmRNA_num[i]=tmRNA_num[i]+1
}
}
}
prokka_result=data.frame(Bin_ID, CDS_num, tRNA_num, rRNA_num, tmRNA_num)
# 结果汇总成表
write.table(prokka_result, file="prokka_result.txt", sep="\t", quote=F, row.names=F)
# 结果保存
查看结果文件:
图片.png
r语言数据变量分段_R语言:统计多个数据框中分类变量各值的频数相关推荐
- r语言各形状编号_R语言入门第八讲:编码分类变量(factor)
今天第八篇~~~~~~ 在第一讲中我给大家介绍了read.table函数的使用.最近我在处理一个一百万左右的数据,发现read.table函数出了问题.我不知道是在excel转成txt时出的问题还是因 ...
- R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色、连续值程度配色)实战
R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色.连续值程度配色)实战 目录 R语言使用ggplot2包的快速可视化函数qplot绘制散点图(分类变量分组配色.连续值程 ...
- R语言epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(一维频率表、包含频数的百分比、累积的百分比、使用条形图可视化频数分布)、设置cum.percent参数即使存在缺失值也显示
R语言使用epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(tab1函数计算数据的一维频率表.包含频数的百分比.累积的百分比.使用条形图可视化频数分布).设置cum.percen ...
- R语言epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(一维频率表、频数的百分比、累积的百分比、使用条形图可视化频数分布)、自定义设置cum.percent参数是否显示累积百分比
R语言使用epiDisplay包的tab1函数计算数据框中指定变量的频率并可视化(tab1函数计算数据的一维频率表.包含频数的百分比.累积的百分比.使用条形图可视化频数分布).自定义设置cum.per ...
- r包调用legend函数_R语言实现基于朴素贝叶斯构造分类模型数据可视化
本文内容原创,未经作者许可禁止转载! 目录 一.前言 二.摘要 三.关键词 四.算法原理 五.经典应用 六.R建模 1.载入相关包(内含彩蛋): 1.1 library包载入 1.2 pacman包载 ...
- r语言 四格画图_R语言画多组数据相关性分析图
相关性表示两组数据之间的关系是否"相似"或"相近":但当遇到多组数据时,如何直观的比较各组数据之间的相关性是一个大家比较关注的问题,相关图可以通过对相关系数矩阵 ...
- r语言对mysql数据分析_R语言:抓取股票数据并存入数据库进行分析实例 MySQL
R语言连接mySql 准备: RODBC R studio console下 > Install.packages(RODBC) 安装MySql https://dev.mysql.com/ge ...
- r语言summary函数使用_R语言--操纵数据--重要函数的使用
1. lapplyeg:x=list(a=1:10,b=c(11,21,31,41,51)) lapply(x,mean) 或 sapply(x,mean) lapply与sapply均为返回x中元素 ...
- R语言中dim函数_R语言中的方差分析方法汇总
方差分析,是统计中的基础分析方法,也是我们在分析数据时经常使用的方法.下面我总结一下R语言如何对常用的方差分析进行操作. 1. 方差分析的假定 上面这个思维导图,也可以看出,方差分析有三大假定:正态, ...
最新文章
- Docker虚拟化解析
- python定义全局变量
- 统计学习的三个招式:模型、策略和算法
- 1_1 FactoryMode 工厂模式
- 和lua的效率对比测试_Unity游戏开发Lua更新运行时代码!
- markdown html vue,vue项目引入markdown
- android 速度传感器,Android实战技巧之四十二:加速度传感器
- Access数据库问题锦集
- 关于NavigationView中不能直接findviewById的解决办法
- (IoT物联网)天线的设计步骤 - 完整收藏版
- RFC2544性能测试简介
- mcisendString制作播放器
- linux ftp 500误,Linux Vsftp报错500 OOPS如何修复
- 第二阶段:数据库设计与初始化
- jmap 和jstack使用
- 【研发管理】三手项目 接盘时 必须要做的四件事
- 国内移动应用数据安全发展现状
- 计算机毕业设计asp.net的高校科研项目管理系统(源码+系统+mysql数据库+Lw文档)
- 985毕业,半路出家28岁进军Java,坚持奋斗了三年现如今年薪36W+
- vpd安全策略的使用
热门文章
- 啥是对象的浅度克隆和深度克隆?
- php-fpm进程的用户组,一文看懂PHP进程管理器php-fpm
- 政府跟踪我们电话的3种方式
- airtest测试网页_Airtest之web自动化(一)
- 护眼新选择 雾以希雾化润眼仪 震撼来袭
- php动态倒计时,php实现倒计时效果
- python如何查询数据库_python如何访问数据库
- Java常用公共工具记录
- 【Date】日期格式转换 Thu Sep 07 2017 00:00:00 GMT+0800 (中国标准时间) 00:00:00
- python opencv车道线检测