转录组入门(2):读文章拿到测序数据
本系列课程学习的文章是:AKAP95 regulates splicing through scaffolding RNAs and RNA processing factors. Nat Commun 2016 Nov 8;7:13347. PMID: 27824034
很容易在文章里面找到数据地址GSE81916 这样就可以下载sra文件
数据下载部分
第一步:在PubMeb上查找文献
第二步: 根据文献的method部分找到RNA-Seq是如何存放的
第三步: 在GEO上查找GSE81916
GEO站点: https://www.ncbi.nlm.nih.gov/geo/
找到了NCBI的SRA工具下载所需要的SRR编号。
GEO网址: https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE81916 分为两个部分:
- 共同部分:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=
- 变动部分:GSE81916
FTP网址ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByStudy/sra/SRP/SRP075/SRP075747 可以分为以下几个部分
- 所有SRA数据的共同部分: ftp://ftp-trace.ncbi.nlm.nih.gov/sra/sra-instant
- reads表示存放reads数据,在FTP可以看到另一个选项是analysis,表示分析结果
- ByStudy表示根据Study进行分类,其他还可以根据实验
ByExp
,根据Run,ByRun
. - sra/SRP/SRP075/SRP075747: 后面部分都是为了便于检索。
第四步:通过循环,分别用prefetch下载数据
for i in `seq 48 62`;
doprefetch SRR35899${i}
done
知识点:如何用循环批量下载数据
注: 数据很大,需要下载很久,这段时间去看文章所用的分析方法。
文章所用方法:
内容主要在Bioinformatic analyses部分
比对:
- 比对软件:TopHat (v2.0.13)
- 参考基因组:human reference genome (GRCh37/hg19)
- GTF文件: GTF version GRCh37.70
- 只保留MQ >30的map结果
- Picard-tools (v1.126): 计算平均插入大小(mean insert sizes)和标准差
read count: 软件:HTSeq v0.6.0
差异表达分析: DESeq (v3.0)
差异外显子使用分析: DEXSeq (v3.1)
GO富集分析:DAVID (http://david.ncifcrf.gov/).
实验设计:
样本9-15为mRNA-Seq测序结果,用于分析人类293个细胞(9-11)和小鼠ES细胞(12-15)d的AKAP95敲出影响。
文章到底用RNA-Seq做了那些事情
为了评估AKAP95对AS的全局影响,他们删除了人类293 cell和小鼠ES细胞,通过RNA-Seq和DEXseq 分析找到细胞mRNA的不同外显子使用。由于DEXseq考虑到了生物学变异,因此对假阳性(False discovery)有可信的控制。在 293 cell 和 ES cell中,AKAPP95 KD都导致更多地外显子使用减少,意味着APAP95通过促进外显子融合调节全局地可变剪切(AS). 他们用PCR-based assay验证了结果。
文章用了火山图展示被影响地外显子,用饼图可视化多少个外显子被下调了。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
为了证明外显子使用(exon usage)降低不是因为基因表达量降低导致的技术偏差,作者从三个角度进行论证
- 工具角度,DEXseq根据基因的总外显子信号水平标准化每个外显子信号
- 数据分析,AKAP95 KD的细胞中那些外显子使用被影响的大部分基因,表达量没有降低,所以和表达量无关,还用图证明。Fold change is the ratio of the normalized exon level in AKAP95 KD over that in control cells.
- PCR数据证实
- 小鼠的也是如此
确定可变外显子使用是AKAP95的直接影响, 他们比较了AKAP95物理靶点(基于AKAP95 RIP-Seq)和功能位点(基于mRNA-Seq)。 那些AKAP95结合到内含子的基因和外显子使用显著性变化(AKAP95 KD)的基因显著性重叠。
逻辑就是: 如果A和B有关,那么有A就有B, 没有A就没有B,且这种关系不是偶然的。
确定AKAP95靶点参与的生物学通路,他们用了基因本体论(GO)分析了AKAP95的功能位点和物理位点。结果揭示那些AKAP95 KD 的293细胞中那些差异外显子使用的基因,显著性的富集在chromatin/transcription regulators and RNA processing factors。那些RIP-Seq找到基因也是如此。
综上, AKAP95可能通过直接和间接调节染色质,转录和RNA加工调节全局基因表达。
拓展提高: 写一个Python脚本下载GEO数据
下载数据的过程无非是根据GEO找到FTP的地址,然后用wget或者prefetch下载而已。在我们今后的生涯里必然会遇到很多次类似的情况,所以写个脚本吧。
脚本逻辑很简单:
- 根据GEO accession找到FTP地址
- 用wget循环下载FTP地址下的数据
考虑到GEO会变,每个人的Python版本也不一样,我临时写的代码的稳健性不好,所以这里就不贴代码了。
转录组入门(2):读文章拿到测序数据相关推荐
- 生信入门(一) Fastqc(测序数据质控)
FastQC是一款基于Java的软件,它可以快速地对测序数据进行质量评估,其官网为:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ ...
- 弗雷塞斯 从生物学到生物信息学到机器学习 转录组入门(3):了解fastq测序数据...
sra文件转换为fastq格式 1 fastq-dump -h --split-3 也就是说如果SRA文件中只有一个文件,那么这个参数就会被忽略.如果原文件中有两个文件,那么它就会把成对的文件按*_1 ...
- NGS系列文章 - 高通量测序原理
NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细胞测序分析 (重磅综述:三万字长文读 ...
- ISME | 通过长读长宏基因组测序揭示南极土壤未培养细菌的生物合成潜力
关注我们 一起探索微生物领域的奥妙 摘要 日趋严重的抗生素抗性问题使得研究者们将目光转移到可能是新的抗生素来源的未培养细菌上.扩增子测序与短读测序分析表明宏基因组中存在多样化的生物合成基因簇(BGC) ...
- 重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程 (原理、代码和评述)
原文链接: https://www.embopress.org/doi/10.15252/msb.20188746 主编评语 这篇文章最好的地方不只在于推荐了工具,提供了一套分析流程,更在于详细介绍了 ...
- 【重磅综述】长序列数据分析相关资源哪里找?一文读懂长序列测序数据分析的机遇与挑战!...
简介 标题:长序列测序数据分析的机遇与挑战 杂志:GenomeBiology 影响因子:10.806 发表时间:2020年05月08日 ...
- linux+电音制作软件,电音制作入门:读懂全球最受欢迎的软件合成器Serum
除夕夜快乐! 图片来自Deadmau5 图片版权属于原主 系列文章概述: 本系列文章会分为七个部分进行讲解,它们分别是: 1. Serum界面介绍--<电音制作入门:读懂全球最受欢迎的软件合成器 ...
- linux+电音制作软件,电音制作入门:读懂全球最受欢迎的软件合成器Serum㈦
原标题:电音制作入门:读懂全球最受欢迎的软件合成器Serum㈦ 本系列文章会分为七个部分进行讲解,它们分别是: 4. 主界面的Fliter模块(在Fx中还有另外一个Fliter,二者效果相同)--&l ...
- linux转录组kegg注释,转录组入门(8):差异基因结果注释
作业要求 我们统一选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 然后把表达矩阵和分组信息分别作出cls和gc ...
最新文章
- CSS中列表样式的简介
- Discuz! 6.0.0 安装图文教程
- Elide 4.3.1 发布,雅虎开源的应用数据 API 搭建平台
- /etc/sysconfig/network-script/ifcfg-eth0究竟怎么填!!!
- 部署yum仓库与NFS服务
- iPhone、iPad明年或采用USB-C接口;虎牙回应央视点名网课内容充斥广告;Rust 1.44.0 发布| 极客头条...
- html5表单与Jquery Ajax结合使用
- 下载配置Gradle
- Keil5最新注册机到2032
- android 监听 短信,Android短信验证码监听解决onChange多次调用的方法
- 【Android视频 之 阿里云视频播放器 二】
- 2018沈阳k(经典的约瑟夫环)
- 基于web的教务管理系统-课程设计
- 新闻资讯系统(论文)
- php判断是不是顺子,php 怎么判断为顺子,三个相邻的数字
- 网页css实现文字竖向排版的几种方法
- 海量数据的处理【位图】【分治】【hashmap】【大顶堆】
- 淘宝运营 促销活动的2种 互动型和大促让利型
- 相对X86+Windos云桌面,多多云ARM+安卓的云桌面有何价值?
- 皮一皮:听说有个东西叫充气娃娃...