RNA-seq那些事儿

1.RNA-Seq常用名词
2.转录组常用数据库
3.优质分析及作图工具
4.优质公众号

1.RNA-Seq常用名词

1、 碱基质量值(Quality Score或Q-score)是碱基识别(Base Calling)出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠,碱基测错的可能性越小。
2、Q30碱基质量值为Q30代表碱基的精确度在99.9%。
3、FPKM(fragments per kilobase of exon model per million mapped fragments)每百万个比对上的片段中比对到外显子的每千个碱基上的片段数量。
4、RPKM(reads per kilobase of exon model per million mapped reads)指每百万比对上的读序中比对到每千个碱基长度的读序数量。
5、TPM(transcripts per kilobase of exon model per million mapped reads)指每百万比对上的读序中比对到每千个碱基长度的转录本上的读序数量。
6、FC(Fold Change)即差异表达倍数。为什么我们经常看到差异基因里负数代表下调、正数代表上调?因为我们用了log2 fold change。当expr(A) < expr(B)时,B对A的fold change就大于1,log2 fold change就大于0,B相对A就是上调;当expr(A) > expr(B)时,B对A的fold change就小于1,log2 fold change就小于0。
7、FDR(False Discovery Rate)即错误发现率,定义为在多重假设检验过程中,错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。
8、P值(P-value)即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值,一般以P<0.05为显著,P<0.01为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。
9、可变剪接(Alternative splicing)有些基因的一个mRNA前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mRNA剪接异构体,这一过程称为可变剪接(或选择性剪接,alternativesplicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内,主要存在7种可变剪接类型:A)Exon skipping;B)Intron retention;C)Alternative 5’ splice site;D)Alternative 3’ splice site;E)Alternative first exon;F)Alternative last exon;G)Mutually exclusive exon。
10、UTR:(Untranslate Regions)非翻译区域。是信使RNA(mRNA)分子两端的非编码片段。5’-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子,3’-UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。
11、ORF(open reading frame)开放阅读框或开放读码框。是结构基因的正常核苷酸序列,从起始密码子到终止密码子的阅读框可编码完整的多肽链,其间不存在使翻译中断的终止密码子。
12、CDS(Coding sequence)是编码一段蛋白产物的序列,是结构基因组学术语。DNA转录成mRNA,mRNA经剪接等加工后翻译出蛋白质,所谓CDS就是与蛋白质序列一一对应的DNA序列,且该序列中间不含其它非该蛋白质对应的序列,不考虑mRNA加工等过程中的序列变化,总之,就是与蛋白质的密码子完全对应。
13、分子标记是遗传标记的一种,直接在DNA分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测,数量极多,遍及整个基因组,多态性高,遗传稳定,不受环境及基因表达与否的影响。目前常见分子标记主要有SNP、InDel、SSR等。
14、SNP(Single Nucleotide Polymorphism)即单核苷酸多态性,主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP所表现的多态性只涉及到单个碱基的变异,这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起,也可由碱基的插入或缺失所致。
15、SSR(Simple Sequence Repeat,SSR)即简单重复序列,又叫微卫星序列,指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA,广泛分布于基因组的不同位置,长度一般在200bp以下。
16、RNA编辑(RNA editing)是指在mRNA水平上改变遗传信息的过程。具体来说,指基因转录产生的mRNA分子中,由于核苷酸的缺失,插入或置换,基因转录物的序列不与编码序列互补,使翻译生成的蛋白质的氨基酸组成,不同于基因序列中的编码信息现象。
17、差异表达转录本(Differentially Expressed Transcript,DET)指表达水平存在显著差异的转录本。
18、差异表达基因(Differentially Expressed Gene,DEG)指在两个不同条件(如对照与处理、野生型和突变型、不同时间点、不同组织等)下,表达水平存在显著差异的基因,称之为差异表达基因。
19、DEU(differential exon usage)分析是目前最好的用于研究可变剪切中AEU(alternative exon usage)的方法。使用DEXSeq软件进行DGU分析。DEXSeq使用广义线性模型,可以在外显子水平上检测基因的差异表达,对DEU基因筛选的标准为:padjust < 0.05。
20、生物学重复(Biological Replicates)可以定义为使用来自不同抽提的RNA样本进行杂交,例如,同一来源独立制备的样本,或者不同来源的样本(不同组织或者一个细胞系的不同培养物)。
21、技术重复使用同一个抽提的RNA进行实验称为技术重复。与生物学重复相比,技术重复不是完全独立的,取平均值不能去除共有的系统偏差。
22、皮尔逊相关系数r(Pearson’sCorrelationCoefficient)用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。其中,1表示变量完全正相关,0表示无关,-1表示完全负相关。在高通量测序中,将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近1,说明两个重复样品相关性越强。
23、Unigene UniqueGene的英文缩写,意为广泛通用的基因数据库,通过电脑对相同基因座(Locus)的收集整理集合形成一个非冗余的基因数据库。
24、Contig高通量测序中利用软件将具有一定长度overlap的reads连成更长的片段,这些通过readsoverlap关系得到的不含N的组装片段称之为Contig。
25、Scaffold高通量测序中reads经过拼接获得Contigs,Contig经过确定先后顺序用N连接起来组成Scaffold。
26、Contig N50 Reads拼接后会得到长度不同的Contigs。将所有Contigs的长度相加后获得一个Contig的总长度。之后将所有Contig按照序列长度由短到长进行排序,如获得Contig1,Contig2,Contig3………。将Contig按照这个顺序一次相加,当相加的长度达到Contig总长度的一半时,最后一个加上的Contig长度即为Contig N50。
27、数字基因表达谱(Digital Gene Expression Profile,DGE)利用新一代高通量测序技术和高性能的计算分析技术,能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。
28、smallRNA对长度在18-40bp的短RNA进行序列、结构、表达、功能上的分析,主要进行miRNA,siRNA,piRNA几种类型sRNA的分析;可与mRNA关联分析。
29、ncRNA(non-codingRNA)非编码RNA。指不编码蛋白质的RNA。其中包括rRNA,tRNA,snRNA,snoRNA和microRNA等多种已知功能的RNA,及未知功能的RNA。其共同特点是都能从基因组上转录而来,不需要翻译成蛋白即可在RNA水平上行使各自的生物学功能。
30、lncRNA(long non coding RNA)长链非编码RNA。在长度200-100000nt之间,不具有编码蛋白功能的转录本。
31、正链/负链(plus strand/minus strand)对于一个基因来说,DNA的两条链中有一条链作为RNA合成时的模板,这条链叫负链,另一条叫正链。
32、反义链/有义链(anti sense strand/sense strand)在双链DNA中,用来转录mRNA的DNA链称为模板链(template strand),不用于转录的链则称为非模板链(non template strand)。根据碱基互补配对原则,转录出的mRNA链的碱基序列与非模板链的碱基序列一致,惟一不同的是,非模板链中的TmRNA链中全部置换成了U。正是由于非模板链的碱基序列实际上代表了mRNA的碱基序列(只不过在mRNA中T换成了U),因此非模板链又被称为编码链(coding strand),有义链(sense strand)和克里克链(crick strand),而用来转录mRNA的DNA链被称为非编码链(anti coding strand)或反义链(anti sense strand)或沃森链(watson strand)。

2.转录组常用数据库

1、NR/NT(NCBI non-redundant protein sequences)是NCBI官方的蛋白序列数据库,它包括了GenBank基因的蛋白编码序列,PDB(Protein Data Bank)蛋白数据库、SwissProt蛋白序列及来自PIR(Protein Information Resource)和PRF(Protein Research Foundation)等数据库的蛋白序列。
2、GO(GeneOntology)基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用于各种物种的,堆积因何蛋白质功能进行限定和描述的,并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了三层结构(分子功能、生物学途径、细胞组件)的系统定义方式,用于描述基因产物的功能。
3、KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路(KEGG PATHWAY)、药物(KEGG DRUG)、疾病(KEGG DISEASE)、功能模型(KEGG MODULE)、基因序列(KEGG GENES)及基因组(KEGG GENOME)等等。KO(KEGG ORTHOLOG)系统将各个KEGG注释系统联系在一起,KEGG已建立了一套完整KO注释的系统,可完成新测序物种的基因组或转录组的功能注释。
4、Pfam数据库是一系列蛋白质家族的集合,其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。。
5、SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。
6、iTOL轻松绘制高颜值系统进化树。
7、Softberry一款专业的在线比对寻找生物启动子和启动子模型的网站。
8、UCSC Genome Browser、PlantCARE启动子预测在线网站。
9、JASPAR预测基因与转录因子结合位点。

3.优质分析及作图工具

名称 内容
Tbtools 功能及其强大,能解决绝大多数遇到的问题,推荐指数五颗星!!!
R 科研作图 ,推荐指数4星!!!
易汉博生物信息 (在线)
Origin 作图

4.优质公众号

 - 植物生物技术Pbj- 组学大讲坛- 植物前言- 植物生物学- 植物科学SCI- YuLabSMU- BioArt植物- 生信菜鸟团- 生信宝典- 植物科学最前沿- 组学数据分析

参考
科研星球 【https://www.51xxziyuan.com/54/3000.html
weixin_30384031 【https://blog.csdn.net/weixin_30384031/article/details/97472512

RNA-seq那些事儿相关推荐

  1. 一文掌握RNA seq,RNA seq课程大汇总

    RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...

  2. Scanpy(二)对PBMC3k聚类

    目录 单细胞测序简介 数据预处理 降维与聚类 找到Marker基因 单细胞测序简介 单细胞测序是指在单个细胞水平上进行测序,单细胞转录组测序(single cell RNA Seq,scENA-seq ...

  3. 迎娶了校花的学霸,竟把日子过成了这个样子!

    如果有人问你, 你努力学习与工作的目的是什么? 不同人会有不同回答. 我的回答是: 为了有更多选择权. 正如学长Dr. 王, 他选择了校花, 选择了直接去做副教授: 也可以选择留更多时间陪孩子们. 而 ...

  4. 关于微阵列芯片和RNA-seq的比较

    关于微阵列芯片和RNA-seq的比较 转录组代表存在于细胞中RNA的全部类型,包括mRNA.rRNA.tRNA以及其它各种非编码RNA等.转录组是了解细胞过程的主要手段,微阵列(Microarray) ...

  5. RNA-Seq专题课程大纲

    RNA-Seq专题课程大纲 第1部分 RNA Seq的基础知识 RNA-Seq的发展历史 双端测序结果与RNA-Seq gene位置的关系 注释文件的下载与版本差异 Ensmbl RefSeq UCS ...

  6. python for bioinformatics相关题目

    题目完整版来自:http://rosalind.info/problems/list-view/: 学习的网友脚本来自生信技能树:http://www.biotrainee.com/forum-59- ...

  7. seer文献_文献解读 | 师兄带你读一篇免疫浸润3分文章!

    今天要和大家分享的是今年发表在Oncology reports期刊详情关于免疫微环境与肿瘤预后的文章Tumor‑infiltrating M2 macrophages driven by specif ...

  8. 单基因gsea_筛到5分的核心基因以后你可以怎么做?

    这一次我们从一些已经发表的文章拆解,我们来看看,你找到了一个核心基因以后,你可以怎么做呢?我们就不说那么多废话了,直接用几篇文章的解读来带着大家领会一下如何去进行下一步的分析. Case1:预后标志物 ...

  9. 经验也有捷径,来看下这些热点、经验、技术等干货应有尽有的公众号吧!

    一样的起点,为什么他就可以发好文章? 一样的读文献,为什么他的知识面越来越广? 一起学生信,为什么他的代码越来越好? 唯一的差别 可能就是下面这些公众号了 它们有干货有内涵 用更少的时间得到更大的回报 ...

  10. 导师没有教你的“潜规则”

    文献读的不够多? 分析方法用不对? 实验没有好结果? 不如看看下面的优质公众号 掌握最新的研究热点.研究进展.研究技术 Hanson临床科研 (ID:HClinicalResearch) 推荐理由: ...

最新文章

  1. 《数学之美》第23章 布隆过滤器
  2. install openstack on single host
  3. 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
  4. tensorflow实现基于LSTM的文本分类方法
  5. Python这门语言为什么适合初学者?88.7%的小白听了会感谢选择它
  6. GDCM:Patch File的测试程序
  7. 三招做出页面中的节奏与韵律
  8. Qt工作笔记-QCustomPlot让曲线动起来
  9. 生成网站缩略图代码(C#)
  10. 墨条不如墨汁黑是怎么回事?
  11. [简单分页]C#+JQUERY+ORACLE分页效果 ----转载
  12. html给自动生成的td赋值,JS动态创建Table,Tr,Td并赋值的具体实现
  13. php必填参数校验,laravel请求参数校验方法
  14. 最新2022亲测可用的免费google翻译api
  15. easydarwin 安装_EasyDarwin流媒体服务器的简介和搭建
  16. word鼠标右下角有一个小方块_word
  17. 计算机电子表格题教程,计算机电子表格题教程.doc
  18. alter的详细用法
  19. 数据库原理及应用-李唯唯主编-实验3-2
  20. 服务器数据库查看版本信息,查看服务器数据库版本号

热门文章

  1. 数字图像处理——广义图像增强
  2. Tumblr 的架构演进过程
  3. Web—13-判断网站请求来自手机还是pc浏览器
  4. 概率学习总结笔记(扑克概率)
  5. Wordpress中wp-admim管理后台(404)无法进入,无限循环跳出解决方法
  6. 时序数据库详解和使用
  7. kindle自定义屏保之自定义字帖
  8. Google Earth Engine笔记-计算时间序列hurst指数
  9. 关于数据依赖的公理系统之Armstrong公理系统推理证明
  10. python制作圣诞贺卡_用代码做圣诞节贺卡