生物信息学最基础知识

基因组（genome）的范畴包括

Nuclear or Chromosomal genome

.Mitochondrial genome

Chloroplast genome .

Virus genome

在活细胞中B-DNA双螺旋结构占据主导地位

A-DNA结构在脱水样品中占主导，与双链RNA和DNA / RNA杂合体相似

在含水环境中，包括细胞中的大部分DNA，BDNA是最常见的结构。

Z-DNA是在与某些蛋白结合的DNA中发现的稀有结构

下列哪些序列种类属于中度重复序列？AD

A. 逆转录转座子 B. 小卫星DNA C. 微卫星DNA D. DNA转座子

反转录转座子可以转录成RNA，然后在另一个位点复制到基因组中（复制和粘贴）。

DNA转座子通常通过基因组中的“剪切和粘贴”移动，但也观察到重复

基因组的序列组成 >> 高度重复序列 (Tandem repeats)

卫星 DNA (Satellite DNA) 由大段重复的非编码（ non-coding DNA ）组成的，卫星 DNA是功能性中心粒主要组分，形成异染色质的主要结构

小卫星 DNA (Minisatellite DNA) 一类可变串联重复（ variable number tandem repeat， VNTR），有一系列 10~60bp重复序列组成的 DNA片段。

微卫星 DNA (Microsatellite DNA) 微卫星也称为简单序列重复序列（SSR）或短串联重复序列（STR），是重复2-6个碱基对DNA的序列。它是一种可变数量串联重复序列（VNTR）。

Variable number tandem repeat (VNTR) VNTR是基因组中的一个位置，其中短核苷酸序列被组织为串联重复序列。这些可以在许多染色体上找到，并且通常在个体之间显示长度的变化。

其他 DNA 元件 (DNA elements)

CpG islands CpG islands

G-quadruplex G-quadruplex

Promoter Promoter

TFBS (5-20bp) TFBS (5-20bp)

Transcription start site (TSS) Transcription start site (TSS)

Terminator

Non-Coding RNA gene: rRNA tRNA scRNA snRNA snoRNA miRNA

下列关于基因的描述哪些是正确的？ABE

A. 一个基因的内部可能编码另一个基因

B. 两个不同的基因可能会存在重叠区域

C. 人类基因组的一条链上编码了一个基因，则其互补区域不可能再编码另一个基因

D. 真核生物中编码蛋白质的基因一定含有内含子

E. 真核生物中编码蛋白质的基因一般两端都有非编码区存在

比较低等的真核生物，像酵母菌～

人类基因组计划中，中国承担了3条染色体的测序任务？

有关限制性片段长度多态性的描述哪些是正确的？

A. 可以用作遗传作图标记

B. 第一代DNA分子标记技术

C. 人类遗传学家Bostein在1980年提出的

D. Donis-Keller利用此技术于1987年构建成第一张人的遗传图谱

什么东西可以作为遗传作图标记

做基因标记的有：等位基因 ABO血型基因人白细胞抗原

做DNA标记：限制性片段长度多态性RELP

简单序列长度多态性SSLP（包括小卫星序列和微卫星序列）

单核苷酸多态性SNP

什么东西可以作为遗传作图标记？ABCD

A. 等位基因 (allele) B. 限制性片段长度多态性 RFLP

C. 简单序列长度多态性 SSLP

D. 单核苷酸多态性 SNP

下列选项中，有关物理作图的描述哪些是正确的？ABCD

A. 分辨率较高 B. 覆盖率较高

C. 距离单位可以是染色体的区带 D. 距离单位可以是核苷酸对数

人类基因组计划HGP的研究目标是，构建人的每条染色体的STS图

物理做图的方法：

限制性酶切作图，基于克隆的基因组作图，染色体细胞图，STS作图

大规模基因组物理图的主流技术：辐射杂交作图X-ray breakage

这个要怎么算呢

Cohen于1993年在《nature》上发表了一篇题为《A first-generation physical map of the human genome》的文章，下列有关这篇研究报道的描述哪些是正确的？BCF

A. 使用BAC文库 B. 使用YAC文库

C.平均插入片段长度为0.9Mb D.平均插入片段长度为0.9Kb

E. 使用了大约1000个遗传标记物 F. 使用了超过2000个遗传标记物

为了鉴定人类疾病基因，迫切需要一组跨越每个人类染色体的有序重叠克隆基因组DNA片段。这种物理图谱还提供了研究基因组结构和功能的独特材料。因此，我们详尽地分析了CEPH酵母人工染色体（YAC）文库，其含有33,000个克隆，其插入大小是单独确定的。这些YAC的平均长度为0.9兆碱基，覆盖相当于10个单倍体基因组。几种映射技术结合起来为这些克隆中的大多数提供多种结构信息来源。最后，该文库被筛选出超过2,000个遗传标记，这些标记在90％的基因组中均匀分布。这些结果应该允许科学界构建所有人类染色体的详细图谱。此外，我们提出了一种数据分析策略，该策略可生成覆盖大部分人类基因组的第一代整合图谱

已经构建了包含15,086个序列标记位点（STS）的人类基因组的物理图谱，平均间隔为199千碱基。该项目涉及组装含有6193个基因座的人类基因组的辐射杂交图谱，并纳入了含有5264个基因座的人类基因组的遗传连锁图谱。该信息与对酵母人工染色体文库的10,850个基因座的STS含量筛选的结果相结合以产生通过辐射杂种和遗传图锚定的整合图谱。该地图提供了99％的辐射杂交覆盖率和94％的人类基因组的物理覆盖率。该图还代表了生成人类基因组转录图的国际项目的早期步骤，其中超过3235个表达序列被定位。地图中的STS为启动人类基因组的大规模测序提供了支架。

通过辐射杂交作图将30,181个基于人类基因的标记的图谱组装并与当前的遗传图谱整合。新基因图包含的基因几乎是以前版本的两倍，其中包括编码已知功能蛋白质的大多数基因，比前一版本的精确度高出两倍至三倍。经过重新设计，提供更多信息和功能的万维网站点（www.ncbi.nlm.nih.gov/genemap）提供了映射信息以及相关的数据和注释。该资源构成了研究复杂遗传性状，疾病基因的定位克隆，哺乳动物基因组的交叉参照以及用于基因表达的大规模研究的经验证的人类转录序列的重要基础设施和工具

遗传图和物理图的比较

基因组图谱数据库

Gennebank-Genome-Map viewer

UCSC-genomebrowser

Ensembl-Genome browser

Sam文件

sam是一种序列不对格式标准，由sanger制定，由TAB以分隔符的文本格式

主要应用于测序序列mapping到基因组上的结果表示，表示任意多重比对结果

Sam分为两部分注释信息部分（header section）比对结果部分（alignment section）

注释信息可有可无都以@开头，

@HD：说明符合标准的版本，对比序列的排列顺序

@SQ参考序列说明

@RG比对上的序列read说明

@PG使用程序说明

@CO任意的说明信息

Sam文件里的一些字符的含义：

QNAME:比对片段的编号

RNAME参考序列的编号如果注释中对SQ-SN进行了定义，这里必读和其保持一致，另外对于mapping上的序列这里是“*”

POS 比对上的位置，主义是从1开始计数，没有比对上为0

MAPQ：mapping的质量

SEQ序列片段的序列信息，如果不存储此类信息，此处为“*”“”

注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度

QUAL序列的质量信息，格式同FASTQ一样

序列组装的问题尤其是二代测序NGS

测序错误（Sequencing error）重复序列（repeats）多态性变异（Polymorphism）倒位（inversion）覆盖率（coverage）

在对全基因组测序结果的组装果重中，全部因素会给组装带来困扰？

A. 测序错误 B. 重复序列 C. 多态性变异 D. 倒位

一些序列组装的软件：

①AllPathsLG

ALLPATHS-LG是一种全基因组鸟枪装配器，可以利用短片段（〜100bp）产生高质量的基因组组装体，如新一代测序仪产生的片段。
ALLPATHS与传统装配商（如Arachne）之间的显着区别在于ALLPATHS装配不一定是线性的，而是以图形的形式呈现。
这种图形表示保留了模糊性，例如由多态性引起的模糊性，未校正的读取错误和未解决的重复，从而提供以前基因组组装中不存在的信息。

ALLPATHS-LG是一个简短的阅读汇编程序。它被设计用于使用新的测序技术机器如Illumina Genome Analyzer产生的读数。
这里描述的版本已经针对但不必限于长度为100个碱基的读数进行了优化。
ALLPATHS的设计不是用于组装Sanger或454 FLX读数，也不是用于短读取的混合物

②Velvet assembler

Algorithms for de novo short read assembly using de Bruijn graphs

我们开发了一组新的算法，统称为“Velvet”，用于操作de Bruijn图以进行基因组序列组装。
de Bruijn图是基于短词（k-mers）的紧凑表示形式，非常适合高覆盖率，非常短的读取（25-50 bp）数据集。

将Velvet应用于非常短的读取和配对末端信息，可以生成重叠长度相近的重叠群，在模拟原核数据时长达50-kb的N50长度，在模拟的哺乳动物BAC中生成3-kb的N50。
当应用于没有读取对的真实Solexa数据集时，Velvet在原核生物中产生约8kb的重叠群，在哺乳动物BAC中产生2kb的重叠群，与我们的模拟结果非常接近，没有读取配对信息。
Velvet代表了一种新的装配方法，它可以利用非常短的读取结合读取对来生成有用的装配体。

③TIGR Assembler

已经开发了组装大型随机霰弹枪测序项目的新方法。
TIGR汇编程序克服了组装此类项目的几个主要障碍：需要大量成对比较，重复区域的存在，克隆过程中引入的嵌合体以及测序错误。
使用基于寡核苷酸内容的片段的快速初始比较以消除对大多数片段对之间的更敏感比较的需要，因此大大减少了计算机搜索时间。
给定片段的随机分布，通过确定哪些片段具有比预期更大的潜在重叠来识别潜在重复区域。
重复区域通过增加匹配标准严格性并通过最后组装这些区域来处理，以便可以使用来自非重复区域的最大信息。
该算法还包含许多约束条件，例如克隆长度和克隆两端序列的位置。
TIGR汇编已被用于组装完整1.8 Mbp的Haemoplrilus流感（弗莱希曼等人，1995）和0.58 Mbp的生殖支原体（Fraser等，1995）的基因组。

③Minimo

Minimo主要基于Minimus，因此有利于提高装配质量。就像Minimus一样，Minimo遵循Overlap-Layout-Consensus范式。
Minimo相对于Minimus的主要优势在于它将简单的FASTA文件作为输入并生成在ACE和FASTA中格式化的重叠群。可以使用其他参数来调整装配严格性（最小重叠长度和最小一致性），或者进行特定链的装配。您可以使用Minimo进行短读取，但序列数应保持合理！
一般来说，降低最小重叠同一性会导致组装程度较低，但可能不那么忠诚，因为紧密相关物种之间的测序错误或小变异（在宏基因组数据的情况下）可能会引起嵌合重叠群。
同样，减小最小重叠长度可能会产生较少碎片，较不忠实的组件。但是，增加最小重叠长度有时也可以通过解决小的重复区域的组装来产生更好的组件。

④Minimus

Minimus是AMOS软件包中包含的几种装配流水线之一。
它专门设计用于小型数据集，例如覆盖特定基因的读数集。
请注意，该代码适用于较大的程序集（我们用它来组装细菌基因组），但是，由于其严格性，所生成的程序集将高度分散。
对于大型和/或复杂的装配，Minimus的执行应该跟着附加的处理步骤，如脚手架。
Minimus遵循Overlap-Layout-Consensus模式，由三个主要模块组成，它们通过中央文件库共享信息：

散列重叠 - 使用Smith-Waterman局部比对算法的修改版本计算读取之间的重叠
tigger - 使用读取重叠来生成表示单个重叠群的读取布局
make-consensus - 改进tigger产生的布局，以在读取中生成准确的多重比对
Minimus使用AMOS消息文件作为输入和输出。有关更多信息，请参阅文件转换实用程序文档。
Minimus2是为合并两个序列集而设计的minimus管道的修改版本。它不使用散列重叠，而是使用基于nucmer的重叠检测器，它更快。

⑤Newbler

Newbler是用于从头DNA序列组装的软件包。
它专门用于组装由罗氏诊断公司a Roche Diagnostics company.

454 Life Sciences销售的454 GS系列焦磷酸测序平台生成的序列数据。
Newbler可以通过Java GUI（gsAssembler）或命令行（runAssembly）运行。
它本身与定序器输出的.SFF数据一起工作，但也能够接受包含核苷酸序列的FASTA文件，有或没有质量信息，以及FASTQ文件。
如果格式合适，可以利用较早的Sanger序列数据来辅助组装和脚手架。

⑥Trinity

RNA-Seq数据的从头装配使我们能够研究转录组而不需要基因组序列，例如在生态和进化重要性的非模型生物体，癌症样品或微生物组中。
在这个协议中，我们描述了使用Trinity平台从非模式生物中的RNA-Seq数据从头转录组装。
我们还为下游应用提供了Trinity支持的配套工具，包括用于转录本丰度估计的RSEM，用于鉴定样品中差异表达的转录本的R / Bioconductor软件包，以及用于鉴定蛋白质编码基因的方法

⑦CAP3

我们描述了第三代CAP序列组装程序。 CAP3计划包括许多改进和新功能。
该方案有能力削减58和38个低质量阅读区域。它使用碱基质量值来计算读取之间的重叠，构建读取的多序列比对以及生成共有序列。
该程序还使用前向反向约束来纠正汇编错误和链接重叠群。
介绍了CAP3在四个BAC数据集上的结果。
CAP3的性能与PHRAP在许多BAC数据集上的性能进行了比较。
PHRAP通常产生比CAP3更长的重叠群，而CAP3在共有序列中产生的错误通常少于PHRAP。
在具有正向反向约束的低通数据下，使用CAP3构建支架比使用PHRAP构建支架更容易。

用cap3直接百度搜索

在全基因组测序中，当覆盖面（m值）为5时，理论上的覆盖率能够达到多少？D

A. 50% B.60% C. 90% D. 99%

下列关于ART系列基因组测序模拟软件的说法正确的有哪些？AB

A.可以模拟单末端测序 B.可以模拟双末端测序

C.可以模拟所有二代高通量测序平台 D.只能模拟Roche's 454平台

在全基因组测序中，导致最终基因组序列存在间隙（gap）的主要因素有哪些？AC

A. 物理间隙 B.逻辑间隙 C. 序列间隙 D. 拼接间隙

序列拼接包括两部分：De novo拼接比较拼接

贪婪算法（greedy algorithmn）

1给定一组 reads，从中挑选一个 read “ ” 作为种子【规则】，用与它两端中的一段有足够数量的碱基序列相同的 read来扩展；迭代进行，直到不可继续扩展。

2.再选择其他未参与拼接的 reads 序列拼接，重复上述过程，直到所有 read被拼接完成。

给定一组序列片段，目标是找到最短的公共超序列

贪婪算法的流程：

①计算所有片段的成对比对

②选择两个重叠最大的片段

③合并选定的片段

④重复步骤2和3，直到剩下一个片段

结果是该问题的次优解决方案

SSAKE

SSAKE是第一个短阅读汇编程序。它设计用于均匀长度的不成对短读。它基于如下概念：如果可以避免错误读取，则高覆盖率将在无错读取中提供平铺。 SSAKE不明确使用图形。它确实使用由其前缀索引的读取查找表。 SSAKE迭代搜索重叠一个重叠群末端的读取。其候选读取必须具有前缀 - 后缀相同的重叠，其长度高于阈值。

SSAKE在多次读取中仔细选择具有同样长的重叠。首先，它更喜欢在其他读取中使用端到端确认进行读取。这有利于无错读取。其次，软件检测候选人集合何时呈现多个扩展。特别是，它会检测候选读取后缀何时会显示差异，这些差异在其他阅读中均已确认。这相当于在图中查找分支。

此时，软件终止连续视频扩展。用户可以选择覆盖“严格”行为，在这种情况下，SSAKE采用得分较高的扩展名。当没有读取满足初始最小阈值时，程序递减阈值直到达到第二个最小值。因此，用户设置确定SSAKE在可能的重复边界和低覆盖区域中的积极程度。 SSAKE已扩展到利用双端读取和不完全匹配读取。

SHARCGS

SHARCGS还采用统一长度，高覆盖率，不成对的短读取操作。它为基本的SSAKE算法增加了前处理器和后处理器功能。预处理器通过在其他读取中要求最小数量的全长精确匹配来过滤错误的读取。更高严格度的筛选是可选的，要求匹配读取的组合QV超过最小阈值。 SHARCGS将原始读取设置过滤三次，每次在不同的严格设置下生成三个过滤设置。它通过迭代连续子集扩展分别组合每个集合。然后，在后处理中，它使用序列比对合并三个重叠群集。该合并旨在通过整合较低严格筛选条件下的较长重叠群来扩展来自高度确认阅读的重叠群

VCAKE

VCAKE是另一种迭代扩展算法。不像它的前辈，它可能会在重叠群延伸期间引入不完美匹配。后来，VCAKE与Newbler合并，用于Solexa + 454混合数据的流水线。另一条管道将Newbler和Celera Assembler合并为454 + Sanger混合数据。这两条管道都从第一个汇编程序“切碎”contigs，以生成适合第二个汇编程序的伪码。后面的流水线在它生成的伪读取中调整读取覆盖范围和基本通话质量值。这有助于辅助汇编程序对主要程序集中的高覆盖率重叠群给予适当的权重，例如在共识基地调用期间。

OLC模式 Hamilton path

OLC方法是Sanger数据汇编器的典型代表。它针对Celera Assembler，Arachne以及CAP和PCAP等软件中的大型基因组进行了优化

重叠发现涉及全部反对，成对读取比较。种子和扩展启发式算法用于提高效率。该软件预先计算所有读数中的K-mer内容，选择共享K-mers的重叠候选者，并使用K-mers作为对齐种子计算比对。重叠发现对于K-mer大小，最小重叠长度和重叠所需的最小百分比标识的设置很敏感。这三个参数在面对基本调用错误和低覆盖率测序时会影响健壮性。较大的参数值会导致更准确但更短的重叠群。重叠发现可以与矩阵分区并行运行。

Construction and manipulation of an overlap graph leads to an approximate read layout

de Bruijn Graph (DBG) Eularian path

把 DNA序列拼接问题转化成在 de Bruijn图中寻找 Euler路径的问题

两种方法的比较

SOAPdenovo

基因组DNA使用配对末端技术随机分段并测序

扩增大小在150-500bp之间的短克隆并直接测序Bruijn graph

启发式算法

当序列较长，目标序列数据集较大时，动态规划算法计算量太大！就用启发式算法，采用等长的高分片段对，

通过延伸或连接对这些结果进行优化，再次运用动态规划算法把空位引入

等长的高分片段对是两序列中得分最高的长度最长的序列片段对。

如何快速获取MSPs要定义两个参数，一个是长度固定的w的序列片段对，另一个是极限分值。当该片段对的得分不低于T时，把该片段对作为一个中间结果保存下来，也称为种子片段对（seed segment pair），然后以该片段对作为起点，沿着原始序列向两侧延伸（extending），同时计算得分，若分值低于S，则终止延伸，这样就可获取一个整体得分不低于S的更长的序列片段对，这就是实际应用中的MSP。

Blast的具体如何执行：遮蔽低复杂度和高度重复序列

常用的序列比对工具

①动态规划算法（全局打分策略）---clustal

②启发式搜索算法（局部打分策略）--blast FASTA KEGG

Ppt第12个

基因结构建模
by NCBI Splign

by UCSC BLAT蓝色大写字母显示的区域就是blocks/Exons

Togther这个链接集中给出所有blocks与exons的序列联配信息！

by EMBL-EBI GeneWise

查看某蛋白的保守区域在HOmoloGENE conserved domain

Protein alignment show mutiple alignment 点击这里可以查看同源基因编码的蛋白质多序列联配队列

Gene browser STSmakers 点击这个超链接可以查看关于该栏目的详细描述信息

设定统计学的期望值：E-value，该值越小比对越严格！

Ensemble biomart

点击“Count”可以对当前数据集中数据进行统计

点击“Filters”，对当前数据集进行筛选

region按照染色体区域进行筛选

General variation filters根据变异数据库来源、名称、研究类型、表型等栏目进行筛选

Gene assiocated variation filters根据变异相关基因信息进行筛选

Regulatory region Associated information filters根据调控区域相关信息进行筛选

还可以找同源基因哦，点击search,有个ORTHlogues 可以查看根据该基因在不同物种中的同源基因所绘制的进化树

Gene trapping

基因捕获是一种高通量方法，用于在哺乳动物基因组中引入插入突变。用基因捕获载体进行，其主要成分是，由无启动子报告基因和/或可选择的遗传标记组成，侧翼为上游3'剪接位点（剪接受体; SA）和下游转录终止序列（聚腺苷酸化序列）。 ; polyA）。当插入表达基因的内含子时，基因捕获盒以融合转录物形式从该基因的内源启动子转录，其中插入位点上游的外显子与框架内的剪接体/选择标记基因。由于转录在插入的多腺苷酸化位点过早终止，因此加工的融合转录物编码细胞蛋白的截短和非功能形式以及报道分子/选择标记。因此，基因陷阱同时使插入位点处的捕获基因的表达失活并报告，并提供DNA标签（基因捕获序列标签，GTST）以快速鉴定被破坏的基因。国际公共财团International Gene Trap Consortium正在集中数据，并可以向他们请求细胞系。

Target

一种嵌合小鼠基因，针对刺豚鼠毛色基因及其后代
基因靶向（也就是基于同源重组的替代策略）是使用同源重组来改变内源基因的遗传技术。该方法可用于删除基因，去除外显子，添加基因并引入点突变。基因定位可以是永久的或有条件的。例如，条件可以是在生物体的发育/生活期间的特定时间或对特定组织的限制。基因打靶需要为每个感兴趣的基因创建特定的载体。然而，它可用于任何基因，无论转录活性或基因大小如何。

Mario R. Capecchi，Martin J. Evans和Oliver Smithies因其在“通过使用胚胎干细胞引入小鼠特异性基因修饰的原则”或基因靶向方面的工作而被宣布为2007年诺贝尔生理学或医学奖的获奖者

其他模式生物的基因组信息学

http://zfin.org/

http://silkdb.genomics.org.cn/silkworm/

http://www.arabidopsis.org

http://nematode.net/NN3_frontpage.cgi

http://rice.plantbiology.msu.edu/

隐马尔可夫模型（HMM）是一种统计模型，其中被建模的系统被假定为具有未知参数的马尔可夫过程，并且挑战在于从可观察参数确定隐藏参数。

然后可以使用所提取的模型参数来执行进一步的分析，例如用于模式识别应用。HMM可以被认为是最简单的动态贝叶斯网络

HMM在CpG岛分析中的应用

Step1

统计序列集中每条序列内部两个相邻碱基转移情况

Step2

统计每个序列集中两个相邻碱基的总体转移情况

启动子类型（位置）

核心启动子引发转录的必要部份及转录起始点，位置约为-35；且是RNA聚合酶的结合位点及一般转录因子结合位点。

近端启动子基因的近端序列上游，包括一些基本的调控元件，位置约为-250，且是特定转录因子结合位点。

远处启动子基因的远处序列上游，包括一些额外的调控元件，影响力较近端启动子弱。

真核生物启动子是极端的分化及很难表现其特征。它们一般处于基因的上游及有着远离转录起始点的调控元件。转录复合物可以引起脱氧核糖核酸（DNA）向自己屈曲，以容许放置调控序列。很多真核生物启动子，但不是全部，都包含一个TATA盒（序列TATAAA）会与TATA结合蛋白结合，以协助形成RNA聚合酶转录复合物。TATA盒一般会处于非常接近转录起始点（通常于50个碱基对以内

聚合酶的种类	存在	功能
RNA聚合酶Ⅰ	核仁	合成rRNA前体
RNA聚合酶Ⅱ	核质	合成mRNA前体及大多数snRNA
RNA聚合酶Ⅲ	核质	合成5S rRNA前体、tRNA前体及其他的核和胞质小RNA前体

RNA聚合酶Ⅰ识别Ⅰ类启动子，只控制rRNA前体基因的转录，转录产物经切割和加工后生成各种成熟rRNA。

参与RNA聚合酶Ⅱ转录起始的各类因子

通用因子

general factor

作用于基本启动子上的辅助因子称为通用（转录）因子（GTF）

，或基本转录因子（basal transcription），为任何细胞类别Ⅱ启动子起始转录所必需，以TFⅡⅩ来表示，其中Ⅹ按发现先后次序用英文字母定名，如TFⅡA、TFⅡD、TFⅡH。

上游因子

upstream factor

转录辅助因子（transcription ancillary factor），是指识别上游元件的转录因子。

可诱导因子

inducible factor

生长发育不同阶段相关的基因表达调控【自我调控】

对外界刺激信号的响应【

=》主要通过转录激活物（transcription activator）的可诱导调节

=》诱导的转录激活因子与靶基因上应答元件相结合

参与RNA聚合酶Ⅱ转录起始的各类因子

通用因子

general factor

作用于基本启动子上的辅助因子称为通用（转录）因子（GTF）

上游因子

upstream factor

转录辅助因子（transcription ancillary factor），是指识别上游元件的转录因子。

可诱导因子

inducible factor

生长发育不同阶段相关的基因表达调控【自我调控】

对外界刺激信号的响应【

=》主要通过转录激活物（transcription activator）的可诱导调节

=》诱导的转录激活因子与靶基因上应答元件相结合

类别Ⅲ启动子为RNA聚合酶Ⅲ所识别，涉及一些小分子RNA的转录。

类型1基因内启动子

如5S rRNA基因的启动子，位于转录起点下游，即在基因内部，是下游启动子，有两个框架序列，被3种辅助因子所识别。5SrRNA基因的启动子包括框架A（box A）、中间元件（intermediate element）和框架C（box C）3个元件组成。TFⅢA结合在框架A上，然后促使TFⅢC结合，后者结合导致TFⅢB结合到转录起点附近，并引导RNA聚合酶Ⅲ结合在起点上。TFⅢB使RNA聚合酶Ⅲ正确定位，起“定位因子”（positioning factor）作用。

类型2基因内启动子

如tRNA基因的启动子，有两个控制元件，分别为框架A和框架B。 TFⅢC结合框架B，其结合区域包括框架A和框架B，然后导致TFⅢB结合到转录起点附近，并引导RNA聚合酶Ⅲ结合在起点上。

上游启动子

如snRNA基因的启动子，位于转录起点上游。

有3个上游元件：OCT（八聚体基序 octamer motif）、PSE（邻近序列元件 proximal sequence element）、TATA元件。

在RNA聚合酶Ⅲ的上游启动子中，只有靠近起点存在TATA元件，就能起始转录。

然而PSE和OCT元件的存在将会增加转录效率。

常用启动子和转录因子数据库和分析工具

http://sites.univ-provence.fr/~wabim/english/logligne.html

http://molbiol-tools.ca/Promoters.htm

http://bip.weizmann.ac.il/toolbox/seq_analysis/promoters.html

http://www.fruitfly.org/seq_tools/promoter.html

http://www.cbs.dtu.dk/services/Promoter/

http://linux1.softberry.com/berry.phtml?topic=fprom&group=programs&subgroup=promoter

http://zlab.bu.edu/~mfrith/cister.shtml

http://diyhpl.us/~bryan/irc/protocol-online/protocol-cache/TFSEARCH.html

Encode data

http://www.genome.gov/

最后链接到gene browser

	启动子	转录因子
基于实验数据的数据库	EPD、ENCODE	ENCODE、TRANFAC
分析工具	TRED、NNPP、Promoter2.0、【SoftBerry】FPROM、TSSW、TSSG、UCSC Galaxy、CISTER	TFSEARCH

DNase Clusters he Txn Factor CHIP

一个小结

可以利用PubMed数据库，查找某个基因已有研究报道的启动子信息；

可以利用UCSC Galaxy、Genbank、TRED等数据库，获取某个基因的可能的启动子序列信息；

可以利用NNPP、Promoter2.0、FPROM、TSSW、TSSG、CISTER等，计算分析某个基因上游可能的启动子；

可以利用ENCODE、TRANSFAC等数据库，查找某个基因启动子区域的转录因子信息；

可以TRED、TFSERCH等，计算分析某个基因启动子区域可能的转录因子结合位点。

RNA预测工具

RNAstructture

http://rna.urmc.rochester.edu/cgi-bin/server_exe/oligowalk/oligowalk_form.cgi

http://mfold.rit.albany.edu/?q=mfold

http://rna.tbi.univie.ac.at/

http://lowelab.ucsc.edu/tRNAscan-SE/

https://cm.jefferson.edu/rna22v2/

http://www.ncrna.org/

对RNA二级结构的影响

因为mRNA的5'末端的二级结构影响翻译效率，所以mRNA上该区域的同义变化可导致对基因表达的深远影响。
因此，非编码DNA非编码区中的密码子使用可以在RNA二级结构和下游蛋白表达中起主要作用，其可以经历进一步的选择压力。
特别地，核糖体结合位点或起始密码子处的强二级结构可以抑制翻译，并且5'末端的mRNA折叠产生蛋白质水平的大量变化。

对转录/基因表达的影响（I）

异源基因表达用于许多生物技术应用，包括蛋白质生产和代谢工程。

因为tRNA库在不同生物体之间有所不同，所以当置于非天然情况下时，特定编码序列的转录和翻译速率可能不太有效。

对于过表达的转基因，相应的mRNA占总细胞RNA的很大百分比，并且沿转录物存在稀有密码子可导致核糖体的低效使用和耗尽并最终降低异源蛋白质产生的水平。

然而，使用针对特定宿主中的tRNA库优化的密码子来过表达异源基因也可能导致氨基酸饥饿并改变tRNA库的平衡。

这种调节密码子以匹配宿主tRNA丰度的方法，称为密码子优化，传统上用于表达异源基因。
然而，优化异源表达的新策略考虑全局核苷酸含量，例如局部mRNA折叠，密码子对偏好，密码子匝道或密码子相关性。
在某些内源基因中，例如那些参与氨基酸饥饿的基因，还会出现专门的密码子偏倚。
例如，氨基酸生物合成酶优先使用对正常tRNA丰度不适应的密码子，但是在饥饿条件下具有适应于tRNA库的密码子。

因此，密码子使用可以在特定的细胞条件下为适当的基因表达引入额外水平的转录调节。

对平移伸长速度的影响

一般而言，对于高度表达的基因，翻译延伸率沿着转录本更快，对tRNA池的密码子适应性更高，并且沿着具有稀有密码子的转录本，转录延长率更慢。
密码子翻译速率和同源tRNA浓度之间的这种相关性提供了翻译延伸率的额外调节，这可以为生物体提供若干优势。
具体而言，密码子使用可以允许对这些比率进行全局调控，并且稀有密码子可能以牺牲速度为代价来提高翻译的准确性

密码子使用数据库

http://www.kazusa.or.jp/codon/

http://genomes.urv.cat/OPTIMIZER/

http://bioinfo.hr/research/inca/

Genome页面的几个数据库

抽象语法标记asn推进了结构化数据的传输

Gbs格式没有序列信息，取而代之的是contig的以及间隔的gap描述信息

Genome Homepage>>Human Genome可以点击任意染色体进入人类基因组图是模式

Microbes微生物基因组资源

Organelies亚细胞器基因组资源

Viruses病毒基因组资源

Assembly基因组装配数据库资源

TaxPlot三个物种的全基因组编码的所有蛋白质比对

PASC病毒基因组成对比较

Gff格式相关问题

gff格式是Sanger研究所定义，是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式，比如序列的那里到那里是基因，已经成为序列注释的通用格式，比如基因组的基因预测，许多软件都支持输入或者输出gff格式。目前格式定义的最新版本是版本3。原始定义见SONG websitegff是存文本文件，由tab键隔开的9列组成，以下是各列的说明：
Column 1: “seqid”
序列的编号，编号的有效字符[a-zA-Z0-9.:^*$@!+_?-|]
Column 2: “source”
注释信息的来源，比如”Genescan”、”Genbank” 等，可以为空，为空用”.”点号代替
Column 3: “type”
注释信息的类型，比如Gene、cDNA、mRNA等，或者是SO对应的编号
Columns 4 & 5: “start” and “end”
开始与结束的位置，注意计数是从1开始的。结束位置不能大于序列的长度
Column 6: “score”
得分，数字，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值。”.”表示为空。
Column 7: “strand”
序列的方向， +表示正义链, -反义链 , ? 表示未知.
Column 8: “phase”
仅对注释类型为 “CDS”有效，表示起始编码的位置，有效值为0、1、2。
Column 9: “attributes”
以多个键值对组成的注释信息描述，键与值之间用”=“，不同的键值用”;“隔开，一个键可以有多个值，不同值用”,“分割。注意如果描述中包括tab键以及”,=;”，要用URL转义规则进行转义，如tab键用 %09代替。键是区分大小写的，以大写字母开头的键是预先定义好的，在后面可能被其他注释信息所调用。

预先定义的键包括：

§ ID 注释信息的编号，在一个GFF文件中必须唯一；

§ Name 注释信息的名称，可以重复；

§ Alias 别名

§ Parent Indicates 该注释所属的注释，值为注释信息的编号，比如外显子所属的转录组编号，转录组所属的基因的编号。值可以为多个。

§ Target Indicates： the target of a nucleotide-to-nucleotide or protein-to-nucleotide alignment.

§ Gap：The alignment of the feature to the target if the two are not collinear (e.g. contain gaps).

§ Derives_from：Used to disambiguate the relationship between one feature and another when the relationship is a temporal one rather than a purely structural “part of” one. This is needed for polycistronic genes.

§ Note 备注

§ Dbxref 数据库索引

§ Ontology_term： A cross reference to an ontology term.

基因组突变和规模增大

下列哪个基因位于人类基因组2号染色体的1到100,000区间内？UCSC中输入chr2

A. APOB B. ALK C. MSH2 D. FAM110C

在GFF1格式的基因组注释文件中，描述序列特征（feature）信息是哪一列？ . 3

编号为rs1045435的SNP与哪一个基因相关？ ncbi-SNPCDK2

人类（human）的ID为1636、名称为ACE的基因，在小鼠（mouse）中的同源基因ID是哪一个？gene[1636] –CTRL+F[homolo]-homology 11421

利用UCSC genome browser整合的各种注释信息，在人类（human）的GRCh37/hg19版本基因组中检索MYC基因，哪些转录因子在其上游启动子区域1kb以内有强结合位点？A. TBP B. E2F1 C. E2F4 D. POU2F2

根据ENCODE的ChIP-seq数据，下列哪些转录因子在人类DDIT3基因的启动子区域（上游1-1000bp以内）存在结合位点？ucsc

A.PHF8 B.PML C.KDM5B D. NRF1

下面哪些是属于基因组进化的研究内容

A. structural analysis of the genome

B. the study of genomic parasites

C. gene and ancient genome duplications

D. polyploidy

E. comparative genomics

下列RNA中哪些属于non-coding RNA？

B. tRNA C. rRNA D. miRNA

在ICGC数据库中，与各种肿瘤相关的突变基因中，哪个基因的突变频率最高？ ICGC-Data Protal-cancer progect TP53

在ICGC数据库中，与肝癌相关突变基因BRAF，哪个位点的突变频率最高？ ICGC-搜BRAF V600E

（）1、使用COSMIC数据库中，与肺组织的非小细胞肺癌（Non small cell carcinoma）有关的EGFR 基因突变频率最高的位点是哪一个？

A. p.L861Q B. p.E746_A750del C. p.T790M D. p.L858R

（）1、下列哪个基因位于小鼠（mouse）基因组18号染色体的10M到10.1M区间内？ ·使用COSMIC数据库中，与kidney组织的Wilms tumor有关的基因突变频率最高的是哪个？ cosmic- Cancer Browser

CTNNB1

Long non-coding RNA的研究思路，通常参照哪种RNA？

A. mRNA B. tRNA C. rRNA D. miRNA

下列关于密码子偏好性的描述正确的有哪些？

A. 不同物种之间的密码子偏好性通常存在差异

B. 基因组的编码区和基因间区域的密码子偏好性通常存在差异

C. 密码子偏好性会影响RNA二级结构

D. 密码子偏好性会影响mRNA的翻译效率

不同基因组区间的序列在进化上的保守性从高到低排列正确的是哪一个?

A. Intergenic region > Intron > Exon > CDS

B. Exon > Intron > Intergenic region > CDS

C. CDS > Exon > Intron > Intergenic region

D. CDS > Intron > Exon > Intergenic region

如何鉴别某个物种基因组可能存在的从头起源的新基因？

答：根据重复序列（Gene Dumplicated）、密码子偏好性检测、外显子和启动子分析软件对该物种的基因组进行分析，然后对照基因组进行搜索比较，搜索从头起源的新基因。

下列关于基因的描述哪些是正确的？ABE

A. 一个基因的内部可能编码另一个基因

B. 两个不同的基因可能会存在重叠区域

C. 人类基因组的一条链上编码了一个基因，则其互补区域不可能再编码另一个基因

D. 真核生物中编码蛋白质的基因一定含有内含子

E. 真核生物中编码蛋白质的基因一般两端都有非编码区存在

（）1、下列有关序列比对软件的描述哪些是正确的？

A. Clustal系列软件采用的是全局联配策略

B. Clustal系列软件采用的是局部联配策略

C. Blast系列软件采用的是全局联配策略

D. Blast系列软件采用的是局部联配策略

给你一条小鼠（Mus musculus, mouse）的MYC蛋白序列，如果想知道该蛋白与人类哪个基因或其编码的蛋白同源，可以选择下列哪些程序进行分析？

A. blastn B. blastp C. blastx D. tblastn E. tblastx

下列哪个基因位于小鼠（mouse）基因组18号染色体的10M到10.1M区间内？ Usp14

在GFF3格式的基因组注释文件中，描述分值（score）信息是哪一列？6

B. y是可观察输出

C. a是转移概率

使用COSMIC数据库中，与肺组织的非小细胞肺癌（Non small cell carcinoma）有关的EGFR 基因突变频率最高的位点是哪一个？

A. p.L861Q B. p.E746_A750del C. p.T790M D. p.L858R

四条亲缘关系比较的那个

C. 2 and 3

生物信息学最基础知识相关推荐

GEO数据挖掘（3）-芯片基础知识
高通量.全基因组的DNA芯片已经成为生物领域十分有用的工具.然而,芯片实验产生的数据量日益增长,由于不同的分析方法,会得出不同结论,因而分析起着关键作用. 基因芯片分析目的基因芯片分析就是为了通过生 ...
DL：深度学习(神经网络)的简介、基础知识(神经元/感知机、训练策略、预测原理)、算法分类、经典案例应用之详细攻略
DL:深度学习(神经网络)的简介.基础知识(神经元/感知机.训练策略.预测原理).算法分类.经典案例应用之详细攻略目录深度学习(神经网络)的简介 1.深度学习浪潮兴起的三大因素深度学习(神经网络 ...
想要认认真真的夯实基础知识了
今天看了一篇特别有感触的文章.作者(算是前辈了)从零开始自学生物信息学.博客上积累了很多的内容.让我很是钦佩. 最近也在读另外一个前辈分享的十年来的从业体验,其中就提到一条是"认真对待自己做 ...
图像识别的原理和应用：从基础知识到实际案例
图像识别的原理和应用:从基础知识到实际案例图像识别是一种利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对象的技术.图像识别是人工智能和计算机视觉的一个重要分支,它在各个领域都有广泛 ...
数据分析基础知识复习
数分析基础知识从广义的角度,数据分析分为三个方面体包括** '数据分析','数据挖掘','模型算法'**. 数据分析:偏重于数理统计,用统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论 ...
生信初学者必备的基础知识
如果你是一个生信初学者,又或者你是一个学临床的,为了发文章开始学生信,学了点数据挖掘,GEO,TCGA什么的,但是对很多专有名词不理解,对很多流程或者步骤云里雾里,可以看看这个教程:生物信息学最佳实践 ...
嵌入式Linux的OTA更新，基础知识和实现
嵌入式Linux的OTA更新,基础知识和实现 OTA updates for Embedded Linux, Fundamentals and implementation 更新的需要一旦嵌入式Li ...
计算机基础知识第十讲,计算机文化基础（第十讲）学习笔记
计算机文化基础(第十讲)学习笔记采样和量化PictureElement Pixel(像素)(链接: 采样的实质就是要用多少点(这个点我们叫像素)来描述一张图像,比如,一幅420x570的图像,就表示 ...
嵌入式linux编程,嵌入式Linux学习笔记 - 嵌入式Linux基础知识和开发环境的构建_Linux编程_Linux公社-Linux系统门户网站...
注:所有内容基于友善之臂Mini2440开发板一.嵌入式Linux开发环境的构建嵌入式开发一般分为三个步骤: 1.编译bootloader,烧到开发板 2.编译嵌入式Linux内核,烧到开发板 3 ...
《计算机网络应用基础》模拟试卷(六),《计算机与网络应用基础知识1》模拟试卷...
<计算机与网络应用基础知识1>模拟试卷 (4页) 本资源提供全文预览,点击全文预览即可全文预览,如果喜欢文档就下载吧,查找使用更方便哦! 9.9 积分 <计算机与网络应用基础知识1& ...

生物信息学最基础知识

生物信息学最基础知识相关推荐

最新文章

热门文章