什么是基因?

基因是控制性状的基本遗传单位,决定着人的生老病死,是健康、靓丽、长寿之因,是生命的操纵者和调控者。人类约有两万至两万五千个基因。

首先,我们应该了解一下染色体,DNA,RNA,基因之间的关系。

基因的定义

  • 基因是控制生物性状的基本遗传单位。
  • 基因(遗传因子)是产生一条多肽链或功能RNA所需的全部核苷酸序列。

也就是说,基因只是DNA链中的一个个片段。
每一片段会控制不同的性状。

按照基因结构,可分为编码区和非编码区。

编码区

  • 真核生物的编码区是不连续的,分为外显子和内含子,在转录过程中会修剪内含子,并拼合外显子来形成转录产物。在原核生物中,基因是连续的,也就是说无外显子和内含子之分。
  • 外显子 Exon
    外显子是在 preRNA 经过剪切或修饰后,被保留的DNA部分,并最终出现在成熟RNA的基因序列中。
  • 内含子 Intron
    在真核生物中,内含子作为阻断基因的线性表达的一段DNA序列,是在 preRNA 经过剪切或修饰后,被切除的DNA序列。

编码区就是可以转录为mRNA,合成肽链形成蛋白质的那部分。

  • 真核生物基因的编码区是不连续的,内含子和外显子是交替穿插的,所以转录形成的原始的RNA需进行剪切,将内含子部分剪切掉进行拼接形成成熟的mRNA。

通常,是要将内含子剪切掉。
但是,还会有其他的剪切方式,选择性的保留内含子,或者并不按照线性次序进行剪切,也就是可变剪切。

  • 通过外显子的不同组合方式,可以产生一系列不同的转录本,最终使得生物体内的转录组和蛋白质组呈现多样性。在这个过程中,可变剪接起着关键的作用。在人类中,绝大多数具有蛋白编码能力的基因都能受到可变剪接的调控,产生多种转录本,最终产生多种不同功能的蛋白亚型。而异常的可变剪接也广泛涉及到了多种疾病,例如癌症等。
可变剪切
  • 指的是在mRNA前体到成熟mRNA的过程当中,不同的剪切方式使得同一个基因可以产生多个不同的成熟mRNA, 最终产生不同的蛋白质。

  • 可变剪切在真核生物体内广泛存在,有研究指出,对于人类基因组中包含多个exon的基因而言,其中有95%的基因都存在可变剪切现象。可变剪切导致了转录本和蛋白质结构与功能的多态性,是一种重要的转录调控机制。

  • 变剪切依据外显子之间连接位置的不同,又可以具体细分为如下几种剪切方式:

    1. 组成型拼接
    2. 外显子跳跃拼接
    3. 内含子保留拼接
    4. 相互排斥的外显子拼接
    5. 替代5’端剪切
    6. 替代3’端剪切

非编码区

  • 非编码区在对基因的表达调控中发挥重要作用,如启动子,增强子,终止子等都位于该区域,在人类基因中非编码区的占比超过90%。它们中的一部分可以转录为功能性RNA,比如tRNA(transfer RNA), rRNA(ribosomal RNA)等;可以作为DNA复制,转录起始来对复制,转录和翻译起到调控作用;也可能是着丝粒与端粒的重要组成部分。
  1. 启动子-Promoter

启动子是基因的重要组成部分,它的主要功能是控制基因表达(转录)的起始时间和表达的程度。启动子就像“开关”,决定基因的活动。但启动子本身并不控制基因活动,而是通过与转录因子结合而控制基因活动。

  • 启动子活性的异常,则可能导致基因表达的调节障碍,从而有可能导致疾病的发生
    找到组织特异性启动子,为靶向治疗提供可能
    找到某些疾病关键基因异常表达与启动子的关系,为基因治疗提供可能

  • 启动子是特定基因转录的DNA区域,启动子一般位于基因的转录起始位点,5‘端上游,启动子长约100-1000bp。在转录过程中,RNA聚合酶与转录因子可以识别并特异性结合到启动子特有的DNA序列(一般为保守序列),从而启动转录。启动子本身并不转录而且也不控制基因活动,而是通过与转录因子结合来调控转录过程。在细胞核中,似乎启动子优先分布在染色体区域的边缘,可能是在不同染色体上共同表达基因。 此外,在人类中,启动子显示出每个染色体特有的某些结构特征。

  • CCAAT box(有时也缩写为CAAT box或CAT box):具有GGCCAATCT 共有序列的不同核苷酸序列 ,是真核生物基因常有的调节区,位于转录起始点上游约-80bp处,可能也是RNA聚合酶的一个结合处,控制着转录起始的频率。与之相似的是,在原核生物启动子上-35bp处的TTGACA区,又称-35区。
    CAAT框是最早被人们描述的常见启动子元件之一,常位于接近-80的位置,但是它可以在离起始点较远的距离仍能起作用,且在两种取向均可发挥作用。CAAT框的突变敏感性提示了它在决定转录效率上有很强的作用,但是突变对启动子的特异性没有影响。

  • TATA 框(TATA box / Goldberg-Hogness box),存在于古细菌和真核生物的核心启动子区域的一段DNA序列,TATA 框的原核同源物称为Pribnow 框(Pribnow box),其具有较短的共有序列TATAATAAT。 它约在多数真核生物基因转录起始点上游约-30bp(-25~-32bp)处,基本上由A-T碱基对组成,是决定基因转录始的选择,为RNA聚合酶的结合处之一,RNA聚合酶与TATA框牢固结合之后才能起始转录。

  1. 增强子-Enhancer
  • 增强子是位于转录起始位点或下游基因1Mbp的位置,长度50-1500bp的序列,其可以被转录激活因子结合从而增加特定基因转录发生的可能性,广泛的存在于原核与真核生物基因结构中。
  • 增强子能大大增强启动子的活性。
  • 增强子有别于启动子处有两点:增强子对于启动子的位置不固定,而能有很大的变动;它能在两个方向产生相互作用。一个增强子并不限于促进某一特殊启动子的转录,它能刺激在它附近的任一启动子。
  1. 终止子-Terminator
  • 终止子处于基因或操纵子的末端,给RNA聚合酶提供转录终止信号的DNA序列。
  • ATAAA
    ATAAA 是 preRNA 在通过修剪后形成成熟mRNA 时在3’UTR产生ployA 是的加尾信号。但是这段序列并不是绝对保守,也可能为其他A富集的序列,比如AATAAA等。
  • 回文序列是双链DNA中的一段倒置重复序列,这段序列有个特点,它的碱基序列与其互补链之间正读和反读都相同。
    5’ GGTACC 3’
    3’ CCATGG 5

当该序列的双链被打开后,如果这段序列较短,有可能是限制性内切酶的识别序列,限制性内切酶就是一个基因剪刀,于是就可以剪断啦。
但是如果比较长,有可能形成发卡结构,这种结构的形成有助于DNA与特异性DNA蛋白质的结合。

preRNA

前体RNA,需进行可变剪切形成成熟的mRNA

  • 转录起始位点 Transcription start sites (TSS)
    转录起始位点是指与新生RNA链第一个核苷酸相对应的DNA链上的碱基,通常为一个嘌呤(A 或G),即5’UTR的上游第一个碱基。

5’末端的序列称为上游,而把其后面即3‘末端的序列称为下游.

  • 转录终止位点 Transcription termination sites (TTS)
    转录终止位点是指新生RNA链最后一个核苷酸相对应的DNA链上的碱基。当RNA链延伸到转录终止位点时,RNA聚合酶不再形成新的磷酸二酯键,RNA-DNA杂合物分离,转录泡瓦解,DNA恢复成双链状态,而RNA聚合酶和RNA链都被从模板上释放出来。

  • 开放阅读框 Open reading frame(ORF)
    ORF 是连续的一段密码子,其含有起始密码子(通常是AUG)和终止密码子(通常是UAA,UAG或UGA)。在真核基因中,ORF跨越内含子/外显子区域,其可以在 ORF 转录后拼接在一起形成成熟的mRNA。 由于读写位置不同(对应不同的起始位点),ORF 可能翻译为不同的多肽链。在没有其它信息的前提下,DNA序列可以按六种框架阅读和翻译(每条链三种,对应三种不同的起始密码子)。

    如果遗传密码是不重叠的三联体,那么会有三种可能的方式将核苷酸翻译成蛋白质, 这三种可能的读码(Reading frame ) 方式称为读码框架。
    比如序列:ACGACGACGACGACGACG,可能的读码框架就有以下三种:
    ACG ACG ACG ACG ACG ACG ACG ACG
    CGA CGA CGA CGA CGA CGA CGA CGA
    GAC GAC GAC GAC GAC GAC GAC GAC

    一段翻译成蛋白质的序列有一个阅读框架,它有一个特殊的起始密码子,从此延伸出一系列代表氨基酸的三联体,一直到在三种类型的终止密码子上结束。如果终止密码子频繁出现,就会阻止阅读框被翻译成蛋白质。一个序列的三个阅读框全部被阻断,那么它就会失去翻译成蛋白质的功能。 当获得一个未知的DNA 序列后,就可分析其三个读码框是被阻断的还是开放的。在任何一段DNA 中,通常不会超过一个读码框是开放的 ,因为替换的读码框被频繁出现的终止密码子阻断。证明序列是开放框是确定该框架能翻译为蛋白质的首要证据。一个不能表达蛋白质的开放读框被称为不确定读框(URF)

    一个DNA顺序可能有3种阅读框,但只有一种具有编码的作用称为开放阅读框(open reading frame or ORF)。有的阅读框因终止密码出现频繁故不能生成蛋白,这种阅读框称为封闭阅读框(block reading frame)。若一个顺序所有的三个阅读框都是封闭的,则它无编码蛋白的功能。一个翻译成蛋白的顺序有一个阅读框,开始于AUG起始密码子,通过一系列有义密码子,直到终止密码子结束。通常3个阅读框中总有封闭阅读框的存在。

    例如一段5’-UCUAAAGGUCCA-3’序列。此序列共有3种读取法:
    UCU AAA GGU CCA
    CUA AAG GUC
    UAA AGG UCA
    由于UAA为终止编码,因此第三种读取法不具编译出蛋白质的潜力,故只有前两者为开放阅读框架。

    ORF识别包括检测这六个阅读框架并决定哪一个包含以启动子和终止子为界限的DNA序列而其内部不包含启动子或密码子,符合这些条件的序列有可能对应一个真正的单一的基因产物。ORF的识别是证明一个新的DNA序列为特定的蛋白质编码基因的部分或全部的先决条 件。当获得了一个未知功能的DNA区域的顺序,要通过分析来确定阅读框是开放的还是封闭的。在任何一个DNA顺序中往往只有一个开放阅读框

mRNA

最终得到成熟的mRNA,可翻译成肽链合成蛋白质。

  • 5’UTR 与 3’UTR
    这里需要注意的是外显子包含UTR区,也就是说外显子不只有可编码的序列,而且包含非编码序列
    UTR (Untranslated Region ),如果这段序列位于5’端,就称作5’UTR(5‘-untranslated region),也叫前导序列(leader)。相反若位于3’端,我们就叫它3’UTR(3‘-untranslated region),也叫尾随序列(trailer)。

    5’UTR 位于从mRNA起点的甲基化鸟嘌呤核苷酸帽延伸至起始密码子AUG,3’UTR从编码区末端的终止密码子延伸至多聚A尾巴(Poly-A)的前端。

    原核生物和真核生物都可以看到UTR,但它们的长度和组成都有所不同。原核生物中,5′非翻译区通常为3至10个核苷酸的长度。但在真核生物中,5′非翻译区有成百上千个核苷酸的长度。与原核生物相比,真核生物的基因组的复杂性更高,3′非翻译区的长度也不同。虽然5′非翻译区和3′非翻译区在长度上有差异,但5′非翻译区的长度在演化过程中比3′非翻译区显得更保守2。

  • 5‘Cap
    5‘Cap也被称为7-甲基鸟苷酸帽,缩写为m7G。这种结构在RNA进出细胞核起到识别作用;可以抗5’-核酸外切酶的截切;促进5’端内含子的切除;在翻译过程中有助于核糖体对mRNA的识别和结合。

  • 3’ PolyA tail
    Poly A tail 由多个腺苷一磷酸组成 ,也就是说它是一段仅含有腺嘌呤碱基的RNA 。这种结构可以避免细胞质中的酶促降解,并有助于转录终止,mRNA从细胞核中的输出和翻译。

  • CDS (coding dna sequence)
    CDS 是基因中DNA或RNA为蛋白质编码区域,该区域通常开始于5‘末端的起始密码子并结束于3’端的终止密码子。生物体基因组编码区的总和称为外显子组

基因特性

基因座

基因在染色体上的位置称为座位,每个基因都有自己特定的座位。

  • 一个基因座可以是一个基因,一个基因的一部分,或具有某种调控作用的DNA序列。
  • 二倍体与多倍体细胞的某些染色体上,在同一基因座上有相同的等位基因,这类细胞称为同型合子(纯合子)。若是相同基因座上含有不同的等位基因,则称作异型合子(杂合子)。

等位基因

位于一对同源染色体相同位置上控制同一性状不同形态的基因。

  • 等位基因之间存在相互作用。当一个等位基因决定生物性状的作用强于另一等位基因并使生物只表现出其自身的性状时,就出现了显隐性关系。作用强的是显性,作用被掩盖而不能表现的为隐性。

  • 一对呈显隐性关系的等位基因,显性完全掩盖隐性的是完全显性(complete dominance),两者相互作用而出现了介于两者之间的中间性状,如红花基因和白花基因的杂合体的花是粉红色,这是不完全显性(incomplete dominance)。有些情况下,一对等位基因的作用相等,互不相让,杂合子就表现出两个等位基因各自决定的性状,这称为共显性(codominance)。

    野生型vs突变型

    在自然群体中往往有一种占多数的(因此常被视为正常的)等位基因,称为野生型基因。同一座位上的其他等位基因一般都直接或间接地由野生型基因通过突变产生,相对于野生型基因,称它们为突变型基因。
    野生型(wild type)用来描述自然界中常见的基因型和表现型。野生型等位基因都产生有功能的蛋白质。
    突变型等位基因最常见的是丧失功能型(loss-of-function),绝大多数产生改变了的蛋白质,极少数根本不产生蛋白质。
    所以,野生型对突变型而言是显性。但是,如果突变型等位基因是获得功能型(gain-of-function),产生的蛋白质赋予生物体以新的性状,此时突变型等位基因则为显性。

复等位基因

  • 在二倍体的生物群体中等位基因往往不止两个,两个以上的等位基因称为复等位基因。

拟等位基因

  • 一部分早期认为是属于复等位基因的基因,实际上并不是真正的等位,而是在功能上密切相关、在位置上又邻接的几个基因,所以把它们另称为拟等位基因。

同等位基因

  • 有某些表型效应差异极少的复等位基因的存在很容易被忽视,通过特殊的遗传学分析可以分辨出存在于野生群体中的几个等位基因。这种从性状上难以区分的复等位基因称为同等位基因。

  • 许多编码同工酶的基因也是同等位基因。

非等位基因

  • 非等位基因之间也存在相互作用。位于同一染色体的不同基因座,或位于不同染色体上的非等位基因,都可能影响到同一性状。
  • 某些性状只有同时存在若干个非等位基因时才会出现,当其中任何一个非等位基因发生改变时,都会导致产生同一种突变性状。这些非等位基因称为互补基因(complementary gene)。又如,有些基因本身没有可观察到的表型效应,但可以抑制其他非等位基因的活性,这就是抑制基因(inhibitor)。

小白的基因测序学习之路——#001有关基因的那些事相关推荐

  1. PLC学习之路001

    三菱PLC基本连线 PLC供电电路接线 连接传感器 PLC24V输出给传感器供电 外接开关电源给传感器供电 继电器 开关电源 总接线图 PLC与计算机通信 拿到的是一块拆机PLC,已经连好电源线 型号 ...

  2. 小白的java学习之路 “ 选择结构(二)”

    switch 选择结构: 为什么使用switch选择结构: switch选择结构可以更好地解决等值判断问题. switch选择结构的四个关键字: switch    case    default   ...

  3. 小白的java学习之路 “ 选择结构(一)”

    if选择结构: if选择结构是根据条件判断之后再做处理的一种语法结构. 1.if选择结构的语法: public class Demo{public static void main(String[]a ...

  4. 小白的python学习之路-turtle画不同大小的五角星

    ''' 作者:朱晓雯 功能:绘制五角星 版本:2.0 日期:3/12/2019/ 新增功能:绘制不同大小五角星 '''import turtledef draw_pentagram(size):cou ...

  5. 小白的jquery学习之路之04效果新闻向上无缝循环显示

    15该节的原理是通过改变里面的ul的top值实现的 第一种方法,当c=4时,让c=0,我们会发现新闻刷刷的向上走,因此是不行的,没做到无缝循环显示 <html> <head>& ...

  6. 接口测试小白的Testng学习之路--在eclips中安装Testng

    TestNG简介 TestNG, 其中NG代表"下一代"是受JUnit(Java)和NUnit(C#)启发的测试自动化框架.它可以用于单元,功能,集成和端到端测试.TestNG在短 ...

  7. 小白的jquery学习之路之天猫04 效果 fadeTo animate方法 天猫图片滑动效果

    效果 淡入淡出 fadeTo([[s],o,[e],[fn]]) // 图片的透明度 在2秒时间 到0.3      $("#dog").fadeTo(2000,0.3); fad ...

  8. linux 的基本命令格式,Linux学习之路(一)命令基本格式

    据统计Linxu里面能够识别的命令超过3000个,而我们常用的Linux基本命令在60个左右.常用命令是我们必须掌握的命令,需要我们多练习才能记住,最起码要敲3遍以上. 简单的把常用命令分为以下几大类 ...

  9. 数据清洗的基本流程_数据分析小白学习之路(三)——Excel多练熟能生巧

    谈到数据分析,我们可能第一时间想到python.SQL.Tableau.帆软.R等,但是这些软件.语言要入门掌握.系统学习起来耗时较长.这时候不得不提到excel这个"平平无奇数分小能手&q ...

最新文章

  1. bzoj2020[Usaco2010 Jan]Buying Feed, II*
  2. “重金求来”Alibaba技术官并发编程笔记,附Java面经
  3. 还在为快捷键烦恼吗?IntelliJ IDEA 快捷键大全 Mac 版
  4. java 广义表_数据结构:广义表的实现(Java)
  5. zabbix3.0安装过程记录
  6. 使用TR1的智能指针
  7. 银屑病相关饮食调研-毛蕊花的药用部位没查清-还需更新
  8. CSS Id 和 Class
  9. php调用另一个php文件里的变量的值,thinkphp中一个方法调用另一个步骤的变量
  10. C#实现的UDP收发请求工具类实例
  11. vue 项目配合zepto的巨坑
  12. caffe win 还是 linux,caffe的windows版本安装,超级简单
  13. 中老年人旅行有多狂野
  14. 经传主力控盘指标公式 清晰的主力控盘程度详解 通达信选股指标
  15. 车辆搜索 -使用triplet loss 训练车辆识别模型
  16. 国税总局增值税发票查验平台验证码识别深度学习实战
  17. 光速不变原理的一般性表述
  18. java获取拼音_java获取中文拼音
  19. Java import 和 import static
  20. Java获取时间几月第几周

热门文章

  1. matlab 数组扩充
  2. 【蓝桥杯集训100题】scratch绘制蜘蛛网 蓝桥杯scratch比赛专项预测编程题 模拟练习题第05题
  3. VS2015 编译开源的基于Opencascade的3D查看器Mayo
  4. 关于 GK盘,扩盘在storage和os两侧的联系
  5. Spring/SpringBoot系列之Spring中涉及的9种设计模式【七】
  6. android ftp权限,实战android手机telnet、ftp登陆,权限修改
  7. Envoy proxy 源代码解读 - original_dst cluster
  8. 手把手学会LoadRunner参数化【LoadRunner】
  9. OA性能调优方案(二)
  10. rk3288 android7.1 蓝牙传送文件失败