【生信进阶练习1000days】day2-学习summarized experimental data与Down stream analysis
学习章节
https://bioconductor.github.io/BiocWorkshops/r-and-bioconductor-for-everyone-an-introduction.html#working-with-summarized-experimental-data
文章目录
- 学习章节
- 1. Working with summarized experimental data
- 1.1 简介
- 1.2 构建SummarizedExperiment对象
- 1.3 Assay data
- 1.4 Creating a SummarizedExperiment object
- 2. 下游分析 Down-stream analysis
1. Working with summarized experimental data
1.1 简介
本章主要学习SummatizedExperiment包和SummarizedExperiment
对象
SummarizedExperiment
对象具有类似于矩阵的性质,我们可以通过行和列,对它取子集。
来自于SummarizedExperiment对象实验的数据assay(),它的行代表我们感兴趣的特征(例如基因),列代表每个样本,(矩阵中的每个值可能代表每个基因的在不同样本中的表达量)
1.2 构建SummarizedExperiment对象
数据介绍
包含有8个样本,数据由RNA-seq实验产生,主要是用于观察4个人的平滑肌细胞系对地塞米松治疗的情况
我们可以使用函数browseVignettes("airway")
查看关于这个数据集和实验的详细描述
## input data
fname <- file.choose() # airway_colData.csv
fname
## set the first column of the data to be treated as row names(将第一列作为数据的row-names)
colData <- read.csv(fname, row.names = 1)
colData
这组数据来源于Short Read Archive,包含SampleName
,Run
,Experiment
,Sampel
,BioSample
这些列,另外我们还需要添加以下的列:
- Cell:所使用的细胞系,本数据使用了4个细胞系
- dex:这个样本是否添加了地塞米松
- albut:二次治疗,我们可以忽略
- avgLength:本次实验中,每个样本的RNA-seq的reads的平均长度
1.3 Assay data
现在导入assay数据
## importing the assay data from the file “airway_counts.csv”
fname <- file.choose() # airway_counts.csv
fnamecounts <- read.csv(fname, row.names=1)
## coerce data.frame() to matrix using as.matrix()
counts <- as.matrix(counts)
## We see the dimensions and first few rows of the counts matrix
dim(counts)
#> [1] 33469 8
head(counts)
数据解释
- 以基因ENSG00000000003为例,样本SRR1039508 有679 个reads,覆盖了它;样本SRR1039509 有448个reads覆盖了它。
1.4 Creating a SummarizedExperiment object
## Attach the SummarizedExperiment library to our R session
library("SummarizedExperiment")
## Use the SummarizedExperiment() function to coordinate the assay and column data
## 校准数据
se <- SummarizedExperiment(assay = counts, colData = colData)
se
## use subset() on SummarizedExperiment to create subsets of the data in a coordinated way
## 取出数据中的子集,注意由于SummarizedExperiment是个二维矩阵,所以我们对他的操作也是基于二维的
subset(se, , dex == "trt")
## use assay() to extract the count matrix,
## colSums() to calculate the library size (total number of reads overlapping genes in each sample)
## colSums()计算每个样本中覆盖了所有基因的reads总数
colSums(assay(se))
##
se$lib.size <- colSums(assay(se))
colData(se)
2. 下游分析 Down-stream analysis
使用R包DESeq2
来进行下游分析
## Down-stream analysis
library("DESeq2")
## including cell line as a covariate,
## and dexamethazone treatment as the main factor that we are interested in
## 构建dds数据集
dds <- DESeqDataSet(se, design = ~ cell + dex)
dds
## performs advanced statistical analysis on the data in the dds object
## 进行统计分析
dds <- DESeq(dds)
## A table summarizing measures of differential expression can be extracted from the object
## 使用results查看差异分析结果
results(dds)
【生信进阶练习1000days】day2-学习summarized experimental data与Down stream analysis相关推荐
- 最后1天!生信入门转录组和可视化学习捷径
转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...
- 最后3天!生信入门转录组和可视化学习捷径
转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...
- 生信入门转录组和可视化学习捷径
转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...
- 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料
生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...
- 生信小白学习日记Day2——NGS基础 illumina高通量测序原理
2019年5月26日,周日,小雨 说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考. 生信宝典 NGS基础--高通量测序原理 本文介绍了测序文库构建原理.链 ...
- camunda流程定义表无数据_[Python04] 学习snakemake,三步轻松搭建生信流程!
随着学习的不断深入,分析的数据越来越多.你会发现,日常生信分析不过是调用一些相同的函数或者包分析不同的数据,换汤不换药. 那么,如何把分析过程流程化,让数据像工厂的流水线一样自动被处理? 最简单的法子 ...
- 送书《R语言数据分析和可视化》 | 这个为生信学习和生信作图打造的开源R教程真香!!!...
生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...
- 生信识图之 点图进阶-3(MA)
各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 对于"诈尸式"更新,大Y ...
- 生信宝典教程大放送,一站式学习生信技术
生物信息学包含生物数据分析.数据可视化.重复工作程序化,是生物.医学科研必备的技能之一.生信宝典精心组织生信学习系列教程.生信工具精品教程,通过大量的生信例子.关键的注释.浓缩的语句和录制的视频帮助快 ...
- 送书 | 知乎阅读300w+的生信学习指南(更新版)
先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...
最新文章
- 几个常用的流量统计工具比较
- 轨道角度分布图_高分五号:大气气溶胶多角度偏振探测仪
- ERP customizing extraction - how extraction function module is determined
- 在微服务中如何管理数据
- 什么是I帧,P帧,B帧
- jeewx-api.jar入门教程
- Layui 表格分页控件
- 判断手机是否有虚拟键盘
- TO B是什么?TO C呢?
- 如何查看手机APP的包名,并卸载
- OSPF——DR和BDR讲解
- django orm querset 多表查询
- 电子邮件中的to、cc、bcc
- 判了!腾讯获赔 475 万!首例“微信自动抢红包”不正当竞争案宣判
- PDF文件打开密码的消除办法
- 金蝶BOS,服务端执行SQL语句参考
- JAVA入门学习 —方法使用
- 直播视频app源码,自定义可点击可滑动的通用RatingBar
- itchat 实现微信智能机器人
- 升级CocoaPods 1.0.0问题解决汇总
热门文章
- jQuery增加删除修改tab导航特效
- php接收表单post数据由于数据字段太多导致丢失的案例
- 20款最优秀的JavaScript编辑器
- 通过允许指定IP访问apahce虚拟主机加强服务器安全
- 局域网上传文件_3分钟内Windows网盘搭建并实现局域网文件共享
- ajax实现form表单提交
- matlab迭代法求某数平方根,MATLAB平方根法和改进平方根法求解线性方程组例题与程序要点.doc...
- PyTorch - 数据集介绍(mnist、CIFAR10、CIFAR100)
- 机器学习建模的问题大全
- 计算机辅助编程可分为,计算机辅助编程的特点及类型