RNA-seq那些事儿

1.RNA-Seq常用名词
2.转录组常用数据库
3.优质分析及作图工具
4.优质公众号

1.RNA-Seq常用名词

1、碱基质量值（Quality Score或Q-score）是碱基识别（Base Calling）出错的概率的整数映射。碱基质量值越高表明碱基识别越可靠，碱基测错的可能性越小。
2、Q30碱基质量值为Q30代表碱基的精确度在99.9%。
3、FPKM（fragments per kilobase of exon model per million mapped fragments）每百万个比对上的片段中比对到外显子的每千个碱基上的片段数量。
4、RPKM(reads per kilobase of exon model per million mapped reads)指每百万比对上的读序中比对到每千个碱基长度的读序数量。
5、TPM(transcripts per kilobase of exon model per million mapped reads)指每百万比对上的读序中比对到每千个碱基长度的转录本上的读序数量。
6、FC（Fold Change）即差异表达倍数。为什么我们经常看到差异基因里负数代表下调、正数代表上调？因为我们用了log2 fold change。当expr(A) < expr(B)时，B对A的fold change就大于1，log2 fold change就大于0，B相对A就是上调；当expr(A) > expr(B)时，B对A的fold change就小于1，log2 fold change就小于0。
7、FDR（False Discovery Rate）即错误发现率，定义为在多重假设检验过程中，错误拒绝(拒绝真的原(零)假设)的个数占所有被拒绝的原假设个数的比例的期望值。通过控制FDR来决定P值的阈值。
8、P值（P-value）即概率，反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P值，一般以P<0.05为显著，P<0.01为非常显著，其含义是样本间的差异由抽样误差所致的概率小于0.05或0.01。
9、可变剪接（Alternative splicing）有些基因的一个mRNA前体通过不同的剪接方式（选择不同的剪接位点）产生不同的mRNA剪接异构体，这一过程称为可变剪接(或选择性剪接，alternativesplicing)。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制，是导致真核生物基因和蛋白质数量较大差异的重要原因。在生物体内，主要存在7种可变剪接类型：A）Exon skipping；B）Intron retention；C)Alternative 5’ splice site；D)Alternative 3’ splice site；E)Alternative first exon；F)Alternative last exon；G)Mutually exclusive exon。
10、UTR:(Untranslate Regions)非翻译区域。是信使RNA（mRNA）分子两端的非编码片段。5’-UTR从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至AUG起始密码子，3’-UTR从编码区末端的终止密码子延伸至多聚A尾巴（Poly-A）的前端。
11、ORF（open reading frame）开放阅读框或开放读码框。是结构基因的正常核苷酸序列，从起始密码子到终止密码子的阅读框可编码完整的多肽链，其间不存在使翻译中断的终止密码子。
12、CDS（Coding sequence）是编码一段蛋白产物的序列，是结构基因组学术语。DNA转录成mRNA，mRNA经剪接等加工后翻译出蛋白质，所谓CDS就是与蛋白质序列一一对应的DNA序列，且该序列中间不含其它非该蛋白质对应的序列，不考虑mRNA加工等过程中的序列变化，总之，就是与蛋白质的密码子完全对应。
13、分子标记是遗传标记的一种，直接在DNA分子上检测遗传变异。分子标记能对不同发育时期的个体、组织器官甚至细胞作检测，数量极多，遍及整个基因组，多态性高，遗传稳定，不受环境及基因表达与否的影响。目前常见分子标记主要有SNP、InDel、SSR等。
14、SNP（Single Nucleotide Polymorphism）即单核苷酸多态性，主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。SNP所表现的多态性只涉及到单个碱基的变异，这种变异可由单个碱基的转换(transition)或颠换(transversion)所引起，也可由碱基的插入或缺失所致。
15、SSR（Simple Sequence Repeat，SSR）即简单重复序列，又叫微卫星序列，指的是基因组中由1-6个核苷酸组成的基本单位重复多次构成的一段DNA，广泛分布于基因组的不同位置，长度一般在200bp以下。
16、RNA编辑（RNA editing）是指在mRNA水平上改变遗传信息的过程。具体来说，指基因转录产生的mRNA分子中，由于核苷酸的缺失，插入或置换，基因转录物的序列不与编码序列互补，使翻译生成的蛋白质的氨基酸组成，不同于基因序列中的编码信息现象。
17、差异表达转录本（Differentially Expressed Transcript，DET）指表达水平存在显著差异的转录本。
18、差异表达基因（Differentially Expressed Gene，DEG）指在两个不同条件（如对照与处理、野生型和突变型、不同时间点、不同组织等）下，表达水平存在显著差异的基因，称之为差异表达基因。
19、DEU(differential exon usage)分析是目前最好的用于研究可变剪切中AEU(alternative exon usage)的方法。使用DEXSeq软件进行DGU分析。DEXSeq使用广义线性模型，可以在外显子水平上检测基因的差异表达，对DEU基因筛选的标准为：padjust < 0.05。
20、生物学重复（Biological Replicates）可以定义为使用来自不同抽提的RNA样本进行杂交，例如，同一来源独立制备的样本，或者不同来源的样本（不同组织或者一个细胞系的不同培养物）。
21、技术重复使用同一个抽提的RNA进行实验称为技术重复。与生物学重复相比，技术重复不是完全独立的，取平均值不能去除共有的系统偏差。
22、皮尔逊相关系数r（Pearson’sCorrelationCoefficient）用于度量两个变量X和Y之间的相关（线性相关），其值介于-1与1之间。其中，1表示变量完全正相关，0表示无关，-1表示完全负相关。在高通量测序中，将皮尔逊相关系数作为生物学重复相关性的评估指标。越接近1，说明两个重复样品相关性越强。
23、Unigene UniqueGene的英文缩写，意为广泛通用的基因数据库，通过电脑对相同基因座（Locus）的收集整理集合形成一个非冗余的基因数据库。
24、Contig高通量测序中利用软件将具有一定长度overlap的reads连成更长的片段，这些通过readsoverlap关系得到的不含N的组装片段称之为Contig。
25、Scaffold高通量测序中reads经过拼接获得Contigs，Contig经过确定先后顺序用N连接起来组成Scaffold。
26、Contig N50 Reads拼接后会得到长度不同的Contigs。将所有Contigs的长度相加后获得一个Contig的总长度。之后将所有Contig按照序列长度由短到长进行排序，如获得Contig1，Contig2，Contig3………。将Contig按照这个顺序一次相加，当相加的长度达到Contig总长度的一半时，最后一个加上的Contig长度即为Contig N50。
27、数字基因表达谱（Digital Gene Expression Profile，DGE）利用新一代高通量测序技术和高性能的计算分析技术，能够全面、经济、快速地检测某一物种特定组织在特定状态下的基因表达情况。
28、smallRNA对长度在18-40bp的短RNA进行序列、结构、表达、功能上的分析，主要进行miRNA，siRNA，piRNA几种类型sRNA的分析；可与mRNA关联分析。
29、ncRNA（non-codingRNA）非编码RNA。指不编码蛋白质的RNA。其中包括rRNA，tRNA，snRNA，snoRNA和microRNA等多种已知功能的RNA，及未知功能的RNA。其共同特点是都能从基因组上转录而来，不需要翻译成蛋白即可在RNA水平上行使各自的生物学功能。
30、lncRNA（long non coding RNA）长链非编码RNA。在长度200-100000nt之间，不具有编码蛋白功能的转录本。
31、正链/负链（plus strand/minus strand）对于一个基因来说，DNA的两条链中有一条链作为RNA合成时的模板，这条链叫负链，另一条叫正链。
32、反义链/有义链（anti sense strand/sense strand）在双链DNA中，用来转录mRNA的DNA链称为模板链(template strand)，不用于转录的链则称为非模板链（non template strand）。根据碱基互补配对原则，转录出的mRNA链的碱基序列与非模板链的碱基序列一致，惟一不同的是，非模板链中的TmRNA链中全部置换成了U。正是由于非模板链的碱基序列实际上代表了mRNA的碱基序列（只不过在mRNA中T换成了U），因此非模板链又被称为编码链（coding strand）,有义链（sense strand）和克里克链(crick strand)，而用来转录mRNA的DNA链被称为非编码链（anti coding strand）或反义链（anti sense strand）或沃森链(watson strand)。

2.转录组常用数据库

1、NR/NT(NCBI non-redundant protein sequences)是NCBI官方的蛋白序列数据库，它包括了GenBank基因的蛋白编码序列，PDB(Protein Data Bank)蛋白数据库、SwissProt蛋白序列及来自PIR（Protein Information Resource）和PRF（Protein Research Foundation）等数据库的蛋白序列。
2、GO（GeneOntology）基因本体联合会（Gene Ontology Consortium）所建立的数据库，旨在建立一个适用于各种物种的，堆积因何蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种，提供了三层结构（分子功能、生物学途径、细胞组件）的系统定义方式，用于描述基因产物的功能。
3、KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因产物和化合物在细胞中的代谢途径以及这些基因产物的功能的数据库。它整合了基因组、化学分子和生化系统等方面的数据,包括代谢通路（KEGG PATHWAY）、药物（KEGG DRUG）、疾病（KEGG DISEASE）、功能模型（KEGG MODULE）、基因序列（KEGG GENES）及基因组（KEGG GENOME）等等。KO（KEGG ORTHOLOG）系统将各个KEGG注释系统联系在一起，KEGG已建立了一套完整KO注释的系统，可完成新测序物种的基因组或转录组的功能注释。
4、Pfam数据库是一系列蛋白质家族的集合，其中每一个蛋白家族都以多序列比对和隐马尔科夫模型的形式来表示。。
5、SwissProt数据库的每个条目都有详细的注释，包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。
6、iTOL轻松绘制高颜值系统进化树。
7、Softberry一款专业的在线比对寻找生物启动子和启动子模型的网站。
8、UCSC Genome Browser、PlantCARE启动子预测在线网站。
9、JASPAR预测基因与转录因子结合位点。

3.优质分析及作图工具

名称	内容
Tbtools	功能及其强大，能解决绝大多数遇到的问题，推荐指数五颗星！！！
R	科研作图，推荐指数4星！！！
易汉博生物信息	(在线)
Origin	作图

4.优质公众号

 - 植物生物技术Pbj- 组学大讲坛- 植物前言- 植物生物学- 植物科学SCI- YuLabSMU- BioArt植物- 生信菜鸟团- 生信宝典- 植物科学最前沿- 组学数据分析

参考
科研星球【https://www.51xxziyuan.com/54/3000.html】
weixin_30384031 【https://blog.csdn.net/weixin_30384031/article/details/97472512】