本文主要介绍了育种领域早期(2001年以前)定位 QTL(quantitative trait loci,数量性状基因座)所使用的方法及分子标记。虽然随着分子标记技术的不断更新,定位方法中的许多问题已经得到了有效解决,但有些矛盾是依然存在的。如全基因组测序的普及使人们使用 SNP 作为分子标记,测序能覆盖到的区间中的所有突变位点都会以 SNP 的形式呈现,无 SNP 区间则序列完全一致,再讨论分子标记和 QTL 之间的连锁性已意义不再;但对于测序无法覆盖或与参考基因组无法比对成功的片段,SNP 与缺失片段的连锁性问题依然存在。我认为,了解 QTL 定位的发展历史,学习前辈面对困难的解决办法,对如今的科学研究仍具有一定的指导意义。

计算 QTL 的效应大小(此坑待填)

https://zhuanlan.zhihu.com/p/94070722

连锁定位(Linkage Mapping)

定义

设计两个 株系 杂交,根据分子标记与 QTL 在 F1F_1F1​ 减数分裂中的 重组率,计算两者之间的遗传距离,先确定 QTL 的 位置,然后再分析 QTL 的 效应 大小。

案例

设分子标记 MMM 的等位基因型为 M1M_1M1​、M2M_2M2​,数量性状基因座 QQQ 的等位基因型为 Q1Q_1Q1​、Q2Q_2Q2​,QTL 的加性和显性效应分别为 aaa 和 ddd,QTL 与分子标记的遗传距离为 ccc。基因型 M1M1Q1Q1M_1M_1Q_1Q_1M1​M1​Q1​Q1​ 的自交系与基因型 M2M2Q2Q2M_2M_2Q_2Q_2M2​M2​Q2​Q2​ 的个体杂交,则分离群体 F2F_2F2​ 中纯合标记 M1M1M_1M_1M1​M1​ 与 M2M2M_2M_2M2​M2​ 之间数量性状的平均值差异为 2a(1−2c)2a(1 - 2c)2a(1−2c)。同理,纯合标记 M1M1M_1M_1M1​M1​ 和杂合标记 M1M2M_1M_2M1​M2​ 之间的表型平均值差异为 d(1−2c)2d(1 - 2c)^2d(1−2c)2。如果 QQQ 和 MMM 之间距离较远而不连锁时,则 c=0.5c=0.5c=0.5,均值间差异为 0;当 QQQ 与 MMM 完全连锁时,c=0c=0c=0,均值间差异最大。测定 F2F_2F2​ 群体的表型后,可依次计算每个标记不同基因型之间的性状差异,进而估算 每个标记与 QTL 之间的距离QTL 效应

上述模型是针对 低密度分子标记 情况:QTL 只有 1 端与分子标记强连锁(c=0c=0c=0),无法避免 QTL 效应的估计值被标记与 QTL 之间的图谱距离影响。若群体中 分子标记密度较高,QTL 两端都与分子标记强连锁,则 QTL 被锁定在这个非重组片段内,此时 c=0c=0c=0,无需考虑 QTL 与标记之间的图谱距离,只需要估计 QTL 效应即可。

影响因素

由于自然群体中玉米的 LD 在 2 kb 区域内衰减,所以在自然群体中定位 QTL 往往需要数百万个 SNP 才能完全覆盖基因组,而昂贵的基因分型费用使这一设想难以实现。连锁定位 因为只考虑群体构建过程中 新产生的重组,不涉及群体历史上已发生的重组,极大的缓解了 LD 的衰减,使标记可以连锁较远的距离。但这种连锁的 代价 一方面是只能对 QTL 进行 粗定位,如 IBM(B73 × Mo17,2002 年构建)群体中总共有 190 个 RFLP 标记位点,覆盖了全基因组 1784.7 cM 的区间,标记平均密度为 9.4 cM(Lee et al., 2002);另一方面是分子标记反映的是一大段区间内全部基因对表型影响的 效应和。如果区间内有多个基因参与调控表型,则标记反映的是 多重复杂因素共同作用 的结果,降低了标记的 推广性

  1. 上述计算中使用的都是 表型均值,通过均值消除不连锁的基因座对表型的影响,或者环境等其他因素的影响,群体大小 较小时会导致采样分布较理论分布存在偏差,所以 QTL 的定位及效应也会存在偏差。
  2. 群体大小限制 重组个体的产生,使 QTL 无法定位。如标记 M1M_1M1​ 与 Q1Q_1Q1​ 距离较近时,c=0.001c=0.001c=0.001,(1−c)2=0.998(1-c)^2=0.998(1−c)2=0.998,理论上 F2F_2F2​ 至少需要 500500500 个个体,否则重组个体数量的期望 <1<1<1 。当群体中不存在 M1M_1M1​ 与 Q1Q_1Q1​ 间发生重组的个体时,则 c=0c=0c=0,只能 估算 QTL 的 效应无法估算 标记与 QTL 的 距离。在实际育种中,由于群体大小的限制,重组事件发生次数较少,连锁片段中分子标记密度再高也无法定位 QTL 的位置,所以过高的分子标记密度是 冗余 的。为了提高连锁定位的精度,通常先粗定位再精定位。连锁定位是一种 少标记、粗定位 方法。
  3. 因为只有当 c=0.5c=0.5c=0.5 时才能确定此标记不与 QTL 关联,而连锁图谱只包含构建群体过程中新产生的重组,大多数情况下 没有充足 的重组使无关标记与 QTL 间达到 c=0.5c=0.5c=0.5,所以为保证定位的准确性,一般只考虑对表型影响 最强 的标记,难以挖掘强效应 QTL 附近的 弱效应 QTL。
  4. 若分子标记的 基因型 在双亲中 相同 ,则此标记 无效。如双亲基因型分别为 A1B1C1D1A_1B_1C_1D_1A1​B1​C1​D1​、 A2B1C1D2A_2B_1C_1D_2A2​B1​C1​D2​,其中标记 BBB、CCC 在双亲中基因型相同,如果重组发生在 ABABAB、BCBCBC、CDCDCD 之间,则只能确定 AAA、DDD 间发生了重组但无法定位重组发生的位点,即标记 BBB、CCC 无效。所以为了提高有效分子标记的密度,一般选择 亲缘关系较远 的亲本进行连锁定位分析。
  5. 由于玉米转座子活跃、染色体结构变异普遍、基因组多样性复杂,亲缘关系较远的株系间,标记连锁的区间不完全一致,甚至完全不一致。如 Beckman(1989)用 207 个 RFLP 分子标记分析了玉米产量、收获时含水量以及 50% 吐丝期 3 个数量性状位点,但他们使用不同群体测定时,发现结果很不一致。所以玉米的分子标记一般仅在 近交株系 间具有推广性。

PS:在 RFLP(Restriction fragment length polymorphism,限制性片段长度多态性)作为分子标记的阶段,因为分子标记密度低,标记与 QTL 之间很难是强连锁,所以无法保证标记纯合时,关联的 QTL 也是纯合,如 M1M1Q1Q2M_1M_1Q_1Q_2M1​M1​Q1​Q2​。但随着全基因组测序的普及和 SNP 分子标记数达到万级别,上述问题已基本不存在。

Lee, M., Sharopova, N., Beavis, W.D., Grant, D., Katt, M., Blair, D. and Hallauer, A. (2002) Expanding the genetic map of maize with the intermated B73 × Mo17 (IBM) population. Plant Mol. Biol. 48, 453–461.

重组自交系(Recombinant Inbred Lines,RIL)

重组自交系由两个 株系 的杂交后代 F2 不断 自交 得到的 纯合 后代。因为减数分裂过程中染色体的不断重组,RILs 中每个株系的染色体上都嵌合着双亲的遗传片段(如下图)。通过分子标记,研究人员可以绘制每个 RIL 的遗传图谱。若相邻标记 Marker1、Marker2 来自于同一亲本,则认为 M1、M2 之间连锁,标记之间的基因可以用 M1 或 M2 定位。

图片来自 R.W. Williams, in Brenner’s Encyclopedia of Genetics (Second Edition), 2013

RIL 优势

  1. RIL 是 多代 纯化后的结果,每代中都会发生重组。相比于只发生 1 代重组的 F2F_2F2​,RILs 内的 重组次数大幅增加QTL 定位精度大幅增加
  2. RIL 是 纯合 的,相比于包含杂合子的 F2F_2F2​,株系在重复种植于不同环境时 基因型稳定,不会因 QTL 杂合位点基因型分离后的随机抽样而引入随机因素。如 F1F_1F1​ 产生了 1000 颗种子,均分成 10 份时,无法保证每份间基因型分布是完全一致的,为重复实验引入了随机因素。另一方面,RIL 株系内个体间基因型完全一致,可以通过 表型均值 降低环境因素对表型的影响,适用于研究 对环境敏感 的 QTL 定位及效应估计。

影响因素

由于 RILs 的构建十分耗费时间,往往需要十年之久,所以我们期望 RILs 能挖掘到最多的 QTL。这就需要亲本尽可能多的包含基因型存在差异的 QTL 与分子标记。在没有先验知识的情况下,研究人员一般挑选 表型差异较大分子标记差异较多 的亲本自交系构建 RILs,可能挖掘出较多的 QTL。

另一方面,玉米等染色体变异活跃的物种中,由于分子标记和 QTL 连锁的普遍性较差,结论往往仅能在近交株系中使用。所以 玉米 RIL 的亲本需要具有足够的代表性,即使用应用广泛的品系,现有的种植品种与亲本片段重合的越多,则研究的分子标记越有推广价值,如 B73 × Mo17(intermated B73-by-Mo17 cross,IBM)。

关联定位(Association Mapping)

定义

不需要设计特定的株系交配,利用 高密度 分子标记 SNP 通过计算群体内 标记对表型的效应,进而推断与标记连锁的 QTL 的效应大小。(QTL 精定位)

前提假设

种群中的新突变会随着重组的不断发生,而与周围标记的连锁程度不断降低,直至完全不连锁。连锁的降低程度与突变和标记之间的距离相关,当标记与突变紧密连锁时,漫长的繁衍也难以打断两者之间的连锁性。所以,当使用 高密度分子标记 时,可以假设标记与 QTL 紧密连锁(c≈1c \approx 1c≈1),不考虑标记与 QTL 之间的重组,标记处即为 QTL

与连锁定位一样,关联定位也假设:相同基因型标记连锁的 QTL 基因型相同,不同基因型标记连锁的 QTL 基因型不同。实际群体中 M1Q1、M1Q2M_1Q_1、M_1Q_2M1​Q1​、M1​Q2​ 与 M1Q1、M2Q1M_1Q_1、M_2Q_1M1​Q1​、M2​Q1​ 的情况会降低估算标记对表型效应大小的准确性。连锁定位中因亲本是纯合自交系,可以保证亲本内标记基因型与连锁 QTL 基因型的一致性,存在 M1M1Q1Q1、M2M2Q1Q1M_1M_1Q_1Q_1、M_2M_2Q_1Q_1M1​M1​Q1​Q1​、M2​M2​Q1​Q1​ 的情况而使标记无效,但不存在 M1M1Q1Q1、M2M2Q1Q2M_1M_1Q_1Q_1、M_2M_2Q_1Q_2M1​M1​Q1​Q1​、M2​M2​Q1​Q2​ 的情况而错误估计 QTL 的位置及效应。但关联定位因为群体遗传背景复杂,无法保证标记与 QTL 两者基因型的一致性,一般通过 综合分析 QTL 附近多个连锁 SNP 对表型的效应来排除不一致所引入的误差 。所以在 GWAS 的曼哈顿图中,有良好峰形结构的区间内存在真实 QTL 的概率较高,其满足:① 多个 SNP 共定位;② SNP 对表型的效应随距离的增加,重组的增加而不断降低的规律。

玉米的 LD 在 2 kb 内衰减,全基因组关联定位需要 数百万 SNP 才能完全覆盖基因组。在基因分型费用较为昂贵的时期,关联定位一般仅用于研究特定 候选基因 :对收集到的具有遗传多样性的群体中不同个体的 特定基因 进行 克隆,然后比较基因序列间的 SNP,进行关联分析。如 Dwarf8 基因(Thornsberry, J. et al.,2001)

Thornsberry, J., Goodman, M., Doebley, J. et al. Dwarf8 polymorphisms associate with variation in flowering time. Nat Genet 28, 286–289 (2001). https://doi.org/10.1038/90135

群体结构对关联定位的影响

关联定位是利用历史上的重组与突变,打破位点间的连锁,获得较高的分辨率。

  1. 如果关联群体的基因组某区间是血缘同源片段,即单倍型相同,则会因连锁未被打破而 分辨率大幅降低 。群体结构相似的个体间可能包含大量的血缘同源片段,即基因组中可能有大量区间的单倍型相同。若片段内包含 QTL,则无法确定 QTL 的具体位置,GWAS 结果的曼哈顿图中 峰型较粗
  2. 在研究 与适应性相关的表型 时,关联分析可能会产生 大量的假阳性 关联。因为驯化和改良会造成符合人们需求的优良基因型在群体中 固定,可能导致 QTL 与群体结构连锁 。如与开花所需基温相关的 QTL,其适应温带的基因型,在玉米从热带传入温带的早期就已固定。但这会使温、热亚群中所有分别固定(基因型不同)的 SNP 都与表型显著关联,造成 大量假阳性,GWAS 结果的曼哈顿图中 杂乱无峰 。因为驯化和改良都会大幅减少种群的有效群体数量,所以不同地域玉米在不同研究团队的培育下,会出现明显的群体结构,如中国和美国的玉米品系间、美国与墨西哥的玉米品系间。为了避免群体结构对关联分析的影响,一般分析前会通过各种方法排除群体结构因素的影响,但这也会造成因固定而与群体结构连锁的 QTL 无法被挖掘。所以,在对某表型进行关联分析时,要先 判断群体结构对表型方差的贡献,如果贡献较大,则与群体结构连锁的 QTL 较多,排除群体结构后能挖掘的剩余 QTL 少,此群体可能不适合对该表型进行关联分析。

例子参见 玉米 155 自交系资源群体(Yan Jianbing,2010) 。

标记对表型的效应

估算标记效应大小的方法有很多,主要是基于 线性模型,如 混合线性模型(Mixed Linear Model,MLM)、一般线性模型(General Linear Model,GLM)等。随着 GWAS 方法研究的深入,软件估算标记效应的速度和精确度都在不断增加 (此坑待填)

与连锁定位的区别

  1. 无需设计特定的自交系交配方案,可以通过避免群体构建而 节省大量的时间
  2. 关联定位的群体内遗传多样性较高,出现分子标记在所有样本中基因型相同的概率很低,所以相比连锁定位方法其 标记密度更高,并且标记应用范围广。
  3. 关联定位具有连锁定位中不存在的 群体结构 因素( 此坑待填 :1. 数量性状受多个 QTL 共同影响,不同玉米亚种内的 QTL 组合是不同的。这些组合是 群体结构 的基础,但关联定位 无法打破 亚种内的 QTL 组合,QTL 挖掘会受到群体结构影响。2. 群体结构会降低关联定位精度并提高假阳性率,因为无法打破群体内已经存在的连锁结构,但 NAM 进行了一定程度的打破)。

要做相关性分析,该如何选择正确的统计方法?
多重检验(Multiple test)和普通的假设检验的区别?
Dwarf8 polymorphisms associate with variation in flowering time

图片来自 Joseph L. Gage, Edward S. Buckler, Ten Years of the Maize Nested Association Mapping Population: Impact, Limitations, and Future Directions, The Plant Cell, July 2020, https://doi.org/10.1105/tpc.19.00951

附录

RFLP

最初育种学家研究的是 表型之间的连锁关系。随着限制性片段长度多态(restriction fragment length polymorphism,RFLP)的发现与应用(1985),分子标记 开始被用于测定与突变的连锁关系。QTL 与 RFLP 距离较远时便不再连锁,所以各类 QTL 定位方法测定出的是 QTL 数量的下限。如果 RFLP 等分子标记密度越高,连锁图谱越饱和,对 QTL 的查找与定位则越全面、精确。

RFLP 连锁图谱的 构建 步骤:

  1. 探针的检测与筛选。探针的目的是标记不同个体内相同的染色体片段。如假设 M1M_1M1​ 基因型为 10KB 片段中含有 2 个酶切位点,将片段分割为 2KB、5KB、3KB;M2M_2M2​ 基因型为其中第一个酶切位点因突变而消失,片段被分割为 7KB、3KB。如果没有探针,研究人员无法得知 7KB 片段在 M1M_1M1​ 中所对应的片段。探针使用在基因组上单拷贝的片段,一般筛选自 cDNA 文库和基因组文库。
  2. 培育分离群体。
  3. 在分离群体中,用连锁定位法确定 RFLP 分子标记与已知分子标记的距离,进而确定 RFLP 在染色体上的位置。

RFLP 在遗传育种领域的主要 应用

  1. 通过连锁定位方法,利用 RFLP 完成 QTL 定位
  2. 利用 RFLP 对连锁 QTL 进行 基因型选择
  3. 替代传统的系谱法,利用 RFLP 计算自交系间的 遗传距离

参考文献

The Genetic Architecture of Quantitative Traits, 2001, Annual Review of Genetics
玉米DNA限制性片段长度多态 (RFLPs) 的研究,季良越,1993,河南农业大学学报

连锁定位(Linkage Mapping)与关联定位(Association Mapping)相关推荐

  1. 玉米关联群体:NAM(Nested Association Mapping)群体简介(Edward S. Buckler,2009)

    本文内容主要摘自下面 3 篇文章:第一篇介绍了 NAM 群体的 构建 及玉米基因组的 重组特征:第二篇介绍了 计算机模拟 下 NAM 群体挖掘 QTL 的 效力:第三篇介绍了 NAM 群体的 应用,使 ...

  2. css定位页面元素,页面元素定位-CSS元素基本定位

    基本定位 """属性定位 一 """ # #通过id # driver.find_element_by_css_selector(" ...

  3. webgl(three.js)实现室内定位,楼宇bim、实时定位三维可视化解决方案——第五课

    webgl(three.js)实现室内定位,楼宇bim.实时定位三维可视化解决方案--第五课 参考文章: (1)webgl(three.js)实现室内定位,楼宇bim.实时定位三维可视化解决方案--第 ...

  4. python元素定位id和name_Python Selenium定位html元素|find_element_by_class-name-id-tag-css-xpath-text...

    Selenium官方给了八种定位方法 1.find_element_by_class_name通过class name定位元素 我们拿Pythonfree网站来举例,点击右上角的搜索框. 鼠标右击搜索 ...

  5. zigbee定位_基于RFID室内定位技术的解决方案,能满足高精度室内定位吗?

    跟着物联网的研讨和无线传感网络技能迅速发展,ZigBee技能作为一种新式的低成本.低功耗.低速率短间隔的无线传感网络技能,它是根据IEEE802.15.4规范开发的无线协议.IEEE802.15.4担 ...

  6. java 通过手机 实时定位_恒高借助uwb定位技术,让机房复杂问题化繁为简

    ↑↑↑ 点上面蓝字 , 快关注我吧! ●RTLS● 恒高数字机房人员定位系统,采用UWB定位技术,通过在机房内部署一定数量的定位基站,机房巡检人员佩戴标签卡的形式,实时获取人员精确位置,精度高达10c ...

  7. Android开发之原生定位的方法(GPS,网络定位)

    话不多说,直接代码: 注意:此经纬度和第三方地图的经纬度不是一个经纬度 例如此经纬度longitude:116.426676  latitude:39.932821精确位置40.0海拔0.0 在原生G ...

  8. html定位的所有属性,HTML CSS定位属性详解 嘿嘿嘿

    定位属性:Position 作用:检索或者设置元素的定位方式"(改变元素位置) 定位的步骤: 1.给元素添加position属性 证明该元素要做位置变 2.确定参照物!(通过position ...

  9. rssi室内定位算法原理_室内定位方案常用的4种定位算法

    目前常见的室内定位技术有超宽带UWB室内定位技术,蓝牙室内定位技术,RFID(无线射频识别)定位,超声波定位,Wi-Fi定位等.室内定位依赖于定位算法,定位算法决定了室内定位的模式.室内定位种类虽然比 ...

最新文章

  1. maven 插件的应用
  2. 探讨SQL Server 2005.NET CLR编程
  3. css画带边框三角形,纯CSS画三角形(带边框)
  4. 好男人必看!女生的30条隐私……
  5. 盲人编程_帮助盲人学习编码
  6. ORACLE获取某个时间段之间的月份列表和日期列表
  7. solr4.3纠错源码学习二——基于主索引
  8. 如何在矩池云GPU云中安装MATLAB R2017b软件
  9. 印地语自由对话语音识别数据库-200人
  10. 2020版本的pycharm支持官方汉化了
  11. SpringBoot整合JWT(二)
  12. ks检验与s-w 检验_数据分析基础(2)——正态分布检验
  13. LM4766T/NOPB小秘密
  14. 【jquery】jquery $.fn $.fx是什么意思
  15. 互联网快讯:天猫双11总交易额再创新高;极米投影产品成双十一单品爆款;柔宇科技斩获6亿元大额订单
  16. 金融工程学(一):概述
  17. 《追风筝的人》or《THE KITE RUNNER》
  18. 吃瓜教程——第1,2章
  19. c语言输出不足10补0,c++ cout输出不足位补0 setw、setfill
  20. 视觉算法需要哪些知识,视觉算法和图像算法

热门文章

  1. 2-04-调用函数-0518
  2. 最好的android智能手表,安卓智能手表推荐?十款好用的安卓智能手表排行榜
  3. win2008r2 安装 .net core 报错
  4. 安慰奶牛 问题描述 Farmer John变得非常懒,他不想再继续维
  5. lte 中crs_LTE的CRS和DRS区别(转载自无线俱乐部公众号)
  6. 自定义网易云播放页面
  7. 本地启动wss服务链接不成功原因
  8. 软件测试和硬件测试的区别及概念
  9. 钢琴软件c语言源代码,使用C语言编写钢琴小程序
  10. [Linux Audio Driver] SM6350平台音频bring up ( 一 )