基因组选择, 预测杂种优势, 在水稻可以用, 在玉米, 高粱中也可以用, 在动物选择配套系时也可以用, 根据加性效应和非加性效应进行预测. 前景广阔.

这篇文章的作者, 有很多大牛, 徐世忠老师, 专门做算法的, 张启发老师, 水稻大牛, 文章本身没有数据源, 使用已有数据, 去构建模型, 挖掘信息, 这才是数据分析师应该有的范…

1. 参考文献

Cui Y , Li R , Li G , et al. Hybrid Breeding of Rice via Genomic Selection[J]. Plant Biotechnology Journal, 2019.

2. Genomic hybrid breeding

Genomic hybrid breeding is a technology that uses whole genome markers to predict future hybrids.

3. 主要结果

10倍交叉验证(cross validation), 10个农艺性状的准确性从0.35~0.92.

4. 杂交优势利用的难点

杂交种, 利用杂种优势, 产量提高20%以上, 但是如何选择合适的亲本进行杂交是一个难点. 如果自交系比较多, 那么所有可能的杂交种很多, 进行所有可能的杂交不现实, 因此有很多折中的方法, 比如类群划分, 群间杂交…基因组选择的出现, 可以利用建模的方式模拟预测所有可能的杂交种的表现, 然后进行选择, 再根据结果进行实地种植测试, 可以节约很多资源.

5. 利用基因组选择预测杂交种表现

利用基因组选择预测杂交种表现很有前景, 因为可以根据亲本信息(基因型和表型)预测所有可能的杂交种的表现, 这样在没有杂交之前就能够预测杂交种的表现, 然后根据结果进行杂交试验, 这样可以节约大量的资源和成本, 不用做无用的杂交, 不用种植无用的杂交种…

6. 水稻训练群体和测试群体

  • 训练群体中, 杂交种的表型值需要测量, 基因型值可以根据亲本的基因型进行推断(亲本为纯合的, 杂交种为杂合的).
  • 测试群体中, 可以根据亲本的基因型, 推断出他们后代杂交种的基因型, 然后根据模型预测该杂交种的表现

7. 模型的PK: BLUP胜利!

预测杂交种育种值的模型有很多, 比如BLUP, LASSO, BayesB, 经验Bayes等. 这些模型的预测能力基本类似.

但是, 当SNP和样本数都很大时, LASSO和其它多元回归的方法会跪掉, 因为这些模型能不能估算太多的效应. 基于BLUP的方法更优秀, 因为:BLUP的方法不需要估计每个SNP的效应值, 它仅仅利用SNP估算个体间的亲缘关系矩阵, 然后带入混合线性方程组中计算育种值

8. 如何选择训练群体

  • 应该具有广泛的遗传背景
  • 应该是来源于不同的亲本的后代
  • 预测群体应该和参考群有一定的联系
  • 新建一个新的训练群体很费钱, 可以充分利用已有的数据

9. 试验步骤

  • POP1: Huang et al.(2015) 有1495个杂交种, 两个环境, 测量了一些农艺性状, 当时用于关联分析和QTL作图, 这些杂交种来源于一些亲本自交系. 对这些数据进行建模, 并进行交叉验证
  • POP2: 我们从上面的数据中选择100个杂交种, 来源于21个亲本自交系的不完全双列杂交(half diallel)进行验证上一步模型的好坏, 结果很好.
  • POP3: Li et al.(2014) 数据中三个类群中获得3000个自交系, 预测44636个可能杂交种的表现, 然后进行排名, 将预测表现好的进行实际的测试.

10. 预测准确性和遗传力的关系

大致来说, 预测的准确性 = 遗传力的平方根:
accur=h2accur = \sqrt{h^2} accur=h2​

11. 预测的表型值和实际的表型值

12. 综合选择指数

  • 1, 将育种值标准化
  • 2, 根据权重进行加权(考虑各个性状的权重)
  • 3, 计算综合育种值

权重如下:

13. 模型考虑显性效应和基因与环境互作效应

模型1
y = u + A

模型2
y = u + A + D

模型3
y = u + A + GbyE

结果显示, 考虑线性效应和基因与环境互作效应, 没有显著提高预测的准确性.

14. 基因组数据处理流程

1495杂交种的测序数据

  • 1495个杂交种, 2层, 96bp双链, 共有2TB数据
  • 使用BWA比对到Geng Nipponbare Version7的参考基因组上
  • 使用samtools 用于检测SNP, -q 20 -q 40, 共获得1.6 millin SNPs
  • 保留平均覆盖度在0.8~2.5, 缺失少于25%的SNP, 共有232,935个SNP

3K 水稻基因组项目测序数据

  • 共有6.9 million SNPs, 3000个体
  • 和上面SNP交叉的个数为: 201,756
  • 使用BEAGLE进行填充缺失数据
  • MAF >0.1过滤SNP
  • 共有102,795用于基因组选择的分析

SNP编码

  • -1表示为参考基因组位点(纯合)
  • 0 表示杂合
  • 1表示为alternative 纯合

15. 数据和代码

DNA测序数据再European Nucleotide Archive(www.ebi.ac.uk/ena), 编号为: ERP005527.
3K SNP 数据保存在 Rice SNP-Seek Database(http://snp-seek.irri.rog). 所有相关的数据和R代码, 可以联系作者索要.

通过基因组选择预测杂交水稻的表现(数据挖掘)相关推荐

  1. 基因编辑婴儿事件,克隆,转基因大豆,杂交水稻---基因改变会怎么样

    我以后在这里来发表发表我的言论吧. 关于这个事件,我不想详细描述.重点的内容就是一个,孩子是通过基因改造过的.来我们说说基因改造类电影吧. 侏罗纪世界,恐龙都是基因改造过的,所以,恐龙更能适应环境了. ...

  2. 利用一个核雄性不育基因构建杂交水稻雄性不育系统

    利用一个核雄性不育基因构建杂交水稻雄性不育系统 邓兴旺院士和唐晓艳教授领衔的深圳作物分子设计研究院近日在<美国国家科学院院报>(PNAS)上发表论文<<利用一个核雄性不育基因构 ...

  3. 全基因组选择-GS的技术评估

    基因组选择的流程: GS一般包括以下步骤(图1):首先建立参考群体(reference population),参考群体中每个个体都有已知的表型和基因型,通过合适的统计模型可以估计出每个SNP或不同染 ...

  4. 基因组选择中的参考群更新策略

    大家好,我是邓飞. 基因组选择中,不同世代不断的进展,一般后代选择表现好的个体,测量表型数据后,将其添加到参考群中,这样有可能会失去遗传多样性,今天分享一篇文献,介绍一下这方面的研究. 1. 文献来源 ...

  5. 基因组选择的几个概念

    1. 基因组选择:(Genomic selection) 中文: 基因组选择利用覆盖全基因组的高密度SNP标记, 结合表型记录或系谱记录对个体育种值进行估计, 其假定这些标记中至少有一个标记与所有控制 ...

  6. 基因组选择软件市场调研

    前言 目前, 基因组选择进入了一个高速发展的阶段, 各种新的算法和模型被提出, 这里对基因组选择的软件进行一个汇总 大纲 1, 调查背景及目的 2, 调查方法介绍 3, 主要软件汇总 4, 基因组软件 ...

  7. 科学算命以及全基因组选择的讨论

    手相数据 想知道教科书似的事业线长什么样子么? 大家都对自己的手相感兴趣, 主要因为大家只对自己感兴趣, 而看手相是激发大家对自己感兴趣的方法 所用的术语也很简单, 横的三条分别是感情线, 智力线和生 ...

  8. 如何判断LSTM模型中的过拟合和欠拟合 By 机器之心2017年10月02日 11:09 判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事。也许你会得到一个不错的模型技术得分,但了解

    判断长短期记忆模型在序列预测问题上是否表现良好可能是一件困难的事.也许你会得到一个不错的模型技术得分,但了解模型是较好的拟合,还是欠拟合/过拟合,以及模型在不同的配置条件下能否实现更好的性能是非常重要 ...

  9. 袁隆平杂交水稻创新团队发布“农业芯片”,世界顶级科学家点赞拼多多新农人...

    "耐热超级稻新品种既高产又稳产,在高温天气下,结实率较其他品种提高了30%."11月3日,第四届"世界顶尖科学家论坛"传来令人振奋的消息,袁隆平杂交水稻创新团队 ...

最新文章

  1. SQLServer中Case的用法
  2. ssdb php客户端接口文档
  3. asp.net页面绑定数据的方式-----未完待续
  4. 2017.3.19 约数个数和 失败总结
  5. linux history 用法,Linux之History的使用
  6. Excel按照日期排序,有截图
  7. 自己动手为Spark 2.x添加ALTER TABLE ADD COLUMNS语法支持
  8. jquery 获取和设置 select下拉框的值
  9. transform,translate,transition 的区别
  10. 视频编解码(五):解码器驱动代码理解
  11. php mysql 数据库类_PHP操作MySQL数据库的类
  12. c++-密码生成小程序
  13. excel sumifs()对多列求和
  14. 关键点检测——68点图例
  15. 智能家居带动路由器换代潮 中高端市场大门已敞开
  16. 隐藏表白技能,python教你如何使用图片exif信息隐藏表白,教你如何修改,查询exif信息。
  17. AUTOCAD——云线命令、滚动条设置
  18. 泛微考勤加班流程,有重复的时间段不让提交
  19. java.lang.NoClassDefFoundError: com/fasterxml/classmate/TypeResolver
  20. (原創) 如何破解Synplify Pro 9.6.2? (SOC) (Synplify)

热门文章

  1. VAD语音分割算法原理与简单实现
  2. 【企业微信急速救心丸】(一)第三方应用开发 - Java整合企业微信回调
  3. 安卓沉浸式状态栏_《宫廷秘传》今日安卓计费删档开测
  4. [Linux](小白须知)超级用户、普通用户、系统管理员怎么区分
  5. 和尚挑水安排(回溯问题)
  6. 在Excel中通过VBA实现不定区域的标准差计算
  7. 用JSP/Servlet构建三层式管理信息系统
  8. Excel之如何使用VLOOKUP函数合并两张表
  9. 不再封控,各高校要如何开展教学
  10. git报错error: index uses extension, fatal: index file corrupt