学习章节

https://bioconductor.github.io/BiocWorkshops/r-and-bioconductor-for-everyone-an-introduction.html#working-with-summarized-experimental-data

文章目录

  • 学习章节
  • 1. Working with summarized experimental data
    • 1.1 简介
    • 1.2 构建SummarizedExperiment对象
    • 1.3 Assay data
    • 1.4 Creating a SummarizedExperiment object
  • 2. 下游分析 Down-stream analysis

1. Working with summarized experimental data

1.1 简介

本章主要学习SummatizedExperiment包和SummarizedExperiment对象
SummarizedExperiment对象具有类似于矩阵的性质,我们可以通过行和列,对它取子集。
来自于SummarizedExperiment对象实验的数据assay(),它的行代表我们感兴趣的特征(例如基因),列代表每个样本,(矩阵中的每个值可能代表每个基因的在不同样本中的表达量)

1.2 构建SummarizedExperiment对象

数据介绍
包含有8个样本,数据由RNA-seq实验产生,主要是用于观察4个人的平滑肌细胞系对地塞米松治疗的情况
我们可以使用函数browseVignettes("airway")查看关于这个数据集和实验的详细描述

## input data
fname <- file.choose() # airway_colData.csv
fname
## set the first column of the data to be treated as row names(将第一列作为数据的row-names)
colData <- read.csv(fname, row.names = 1)
colData

这组数据来源于Short Read Archive,包含SampleName,Run,Experiment,Sampel,BioSample这些列,另外我们还需要添加以下的列:

  • Cell:所使用的细胞系,本数据使用了4个细胞系
  • dex:这个样本是否添加了地塞米松
  • albut:二次治疗,我们可以忽略
  • avgLength:本次实验中,每个样本的RNA-seq的reads的平均长度

1.3 Assay data

现在导入assay数据

## importing the assay data from the file “airway_counts.csv”
fname <- file.choose() # airway_counts.csv
fnamecounts <- read.csv(fname, row.names=1)
## coerce data.frame() to matrix using as.matrix()
counts <- as.matrix(counts)
## We see the dimensions and first few rows of the counts matrix
dim(counts)
#> [1] 33469 8
head(counts)

数据解释

  • 以基因ENSG00000000003为例,样本SRR1039508 有679 个reads,覆盖了它;样本SRR1039509 有448个reads覆盖了它。

1.4 Creating a SummarizedExperiment object

## Attach the SummarizedExperiment library to our R session
library("SummarizedExperiment")
## Use the SummarizedExperiment() function to coordinate the assay and column data
## 校准数据
se <- SummarizedExperiment(assay = counts, colData = colData)
se
## use subset() on SummarizedExperiment to create subsets of the data in a coordinated way
## 取出数据中的子集,注意由于SummarizedExperiment是个二维矩阵,所以我们对他的操作也是基于二维的
subset(se, , dex == "trt")
## use assay() to extract the count matrix,
## colSums() to calculate the library size (total number of reads overlapping genes in each sample)
## colSums()计算每个样本中覆盖了所有基因的reads总数
colSums(assay(se))
##
se$lib.size <- colSums(assay(se))
colData(se)

2. 下游分析 Down-stream analysis

使用R包DESeq2来进行下游分析

## Down-stream analysis
library("DESeq2")
## including cell line as a covariate,
## and dexamethazone treatment as the main factor that we are interested in
## 构建dds数据集
dds <- DESeqDataSet(se, design = ~ cell + dex)
dds
## performs advanced statistical analysis on the data in the dds object
## 进行统计分析
dds <- DESeq(dds)
## A table summarizing measures of differential expression can be extracted from the object
## 使用results查看差异分析结果
results(dds)

【生信进阶练习1000days】day2-学习summarized experimental data与Down stream analysis相关推荐

  1. 最后1天!生信入门转录组和可视化学习捷径

    转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...

  2. 最后3天!生信入门转录组和可视化学习捷径

    转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...

  3. 生信入门转录组和可视化学习捷径

    转录组分析是目前应用最广的高通量测序分析技术之一.常见设计是不同样品之间比较,寻找差异基因.标志基因.协同变化基因.差异剪接和新转录本,并进行结果可视化.功能注释和网络分析等. 转录组的测序分析也相对 ...

  4. 生信宝典文章集锦,一站式学习生信!众多干货,有趣有料

    生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题.但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程 ...

  5. 生信小白学习日记Day2——NGS基础 illumina高通量测序原理

    2019年5月26日,周日,小雨 说明:阅读生信宝典和查阅文章的总结,原文请关注公众号生信宝典,参考的博文都附有链接,仅供参考. 生信宝典 NGS基础--高通量测序原理 本文介绍了测序文库构建原理.链 ...

  6. camunda流程定义表无数据_[Python04] 学习snakemake,三步轻松搭建生信流程!

    随着学习的不断深入,分析的数据越来越多.你会发现,日常生信分析不过是调用一些相同的函数或者包分析不同的数据,换汤不换药. 那么,如何把分析过程流程化,让数据像工厂的流水线一样自动被处理? 最简单的法子 ...

  7. 送书《R语言数据分析和可视化》 | 这个为生信学习和生信作图打造的开源R教程真香!!!...

    生物信息学习的正确姿势 NGS系列文章包括NGS基础.在线绘图.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞 ...

  8. 生信识图之 点图进阶-3(MA)

    各位亲爱的土豪富婆,承蒙您慧眼识珠大驾光临大Y老师为您准备的小灶课堂. -----以下是日常碎碎念,日理万机的您,可以直接跳到图图图图分割线享用----- 对于"诈尸式"更新,大Y ...

  9. 生信宝典教程大放送,一站式学习生信技术

    生物信息学包含生物数据分析.数据可视化.重复工作程序化,是生物.医学科研必备的技能之一.生信宝典精心组织生信学习系列教程.生信工具精品教程,通过大量的生信例子.关键的注释.浓缩的语句和录制的视频帮助快 ...

  10. 送书 | 知乎阅读300w+的生信学习指南(更新版)

    先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...

最新文章

  1. 几个常用的流量统计工具比较
  2. 轨道角度分布图_高分五号:大气气溶胶多角度偏振探测仪
  3. ERP customizing extraction - how extraction function module is determined
  4. 在微服务中如何管理数据
  5. 什么是I帧,P帧,B帧
  6. jeewx-api.jar入门教程
  7. Layui 表格分页控件
  8. 判断手机是否有虚拟键盘
  9. TO B是什么?TO C呢?
  10. 如何查看手机APP的包名,并卸载
  11. OSPF——DR和BDR讲解
  12. django orm querset 多表查询
  13. 电子邮件中的to、cc、bcc
  14. 判了!腾讯获赔 475 万!首例“微信自动抢红包”不正当竞争案宣判
  15. PDF文件打开密码的消除办法
  16. 金蝶BOS,服务端执行SQL语句参考
  17. JAVA入门学习 —方法使用
  18. 直播视频app源码,自定义可点击可滑动的通用RatingBar
  19. itchat 实现微信智能机器人
  20. 升级CocoaPods 1.0.0问题解决汇总

热门文章

  1. jQuery增加删除修改tab导航特效
  2. php接收表单post数据由于数据字段太多导致丢失的案例
  3. 20款最优秀的JavaScript编辑器
  4. 通过允许指定IP访问apahce虚拟主机加强服务器安全
  5. 局域网上传文件_3分钟内Windows网盘搭建并实现局域网文件共享
  6. ajax实现form表单提交
  7. matlab迭代法求某数平方根,MATLAB平方根法和改进平方根法求解线性方程组例题与程序要点.doc...
  8. PyTorch - 数据集介绍(mnist、CIFAR10、CIFAR100)
  9. 机器学习建模的问题大全
  10. 计算机辅助编程可分为,计算机辅助编程的特点及类型