全基因组选择是21世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分子标记来对育种值进行预测,为个体的选择提供依据。但目前提出的大多数全基因组预测方法都涉及到相当复杂的算法并要求使用者具备熟练的编程能力,因此很少在实际育种中得到有效的应用。

文章来源于湖北大学学报自然科学版,作者李亚男,陈建国

本文作者利用JMP Pro在水稻全基因组预测中的应用做了探索研究,运用JMP Pro中的两种正则化回归方法(Lasso和岭回归)预测产量及其相关性状的育种值,为育种工作者在选择应用全基因组预测的分析工具方面提供了较好的参考。【本文载于湖北大学学报(自科版)2020年04期】

01 1分钟快速了解全基因组选择

全基因组选择(genomic selection,GS),是利用分布在整个基因组上的分子标记来估算育种值的一种高效、经济的方法。它实质上是估计所有基因或染色体片段的联合效应,并结合这些效应来预测基因组估计的育种值(genomic estimated breeding value,GEBV)。由于GEBV的计算可以不依赖系谱记录和表型信息,这就为早期选择提供了可能,可以大幅度缩短育种年限,提高遗传进展,降低育种成本。

02 预测分析之探索

2.1 实验数据的收集
水稻的产量等性状的原始数据来自Yu等[7],实验人员将珍汕97 A和明恢63两个水稻品种作为亲本,杂交产生210个重组自交系(recombinant inbred lines,RIL),从这些重组自交系中收集4个产量相关性状的表型数据,它们分别是水稻产量(YD),千粒重(KGW),分蘖数(TP)和单株谷粒数(GN)。将各个重复的性状的平均表型值作为响应变量。基因组数据由水稻基因组的约270,000个SNP推断的1 619个组(bin)表示。组内的所有SNP都具有完全相同的分离模式(完全的连锁不平衡(LD)),因此来自一组的一个SNP足以代表整个组。

210个RIL的基因型编码为:1代表珍汕97 A基因型,0代表明恢63基因型。

2.2 统计模型之Lasso回归
在全基因组选择中,预测变量的数目§通常远远大于个体的数目(n)。在这种情况下,普通最小二乘法(ordinary least-squares,OLS)的估计值具有很差的预测能力,因为标记效应被视为固定效应,这导致预测变量之间的多重共线性和过度拟合,从而使该模型不可行。

Lasso是一种基于线性回归模型的降维方法,对高维小样本数据的稀疏模型十分有用,在基因表达谱分析中被广泛应用,是一种吸引人且极受欢迎的变量选择方法。此外,Lasso及其扩展(包括弹性网和自适应Lasso)已用于各种QTL作图或基因组选择研究。

2.3 统计模型之岭回归
如果有许多预测变量,则岭回归是理想的选择。
岭回归往往优于一般的全基因组选择方法,因为它可以同时估计所有标记的影响。此外,岭回归方法比一般方法更适合于很少或没有大效应和许多小效应的情况下的预测,与大多数数量性状的情况一样。

2.4 数据分析
由于目前大多数全基因组预测方法都需要使用者具备编程能力,例如R语言,Matlab等,这对于实际育种工作者来说是非常大的挑战。

而JMP旗下的专业预测建模软件JMP Pro无需编程,特别强调以统计方法的实际应用为导向,其强大的分析能力、交互性及可视化能力,使用方便,尤其适合非统计专业的数据分析人员使用。因此,这里作者选用 JMP Pro进行数据分析。

Lasso回归和岭回归均在JMP Pro“分析”菜单下“拟合模型 >广义回归”对话窗口中进行设置和运行。

利用“模型比较”命令对两种预测方法的效果进行评价,用于比较预测效果的指标是决定系数(R2)、均方根误差RASE(root average squared error)、平均绝对误差AAE(average absolute error)和预测值与实际值的相关系数®。

03 Lasso回归VS岭回归,孰更优?

表1列出了用岭回归和Lasso回归对产量、千粒重、分蘖数及单株谷粒数等4个性状进行全基因组预测的模型性能和预测效果评价指标的估计值,并在图1中对两种预测方法和不同性状的预测效果进行了比较。

表1 用Lasso回归和岭回归对水稻4个性状进行全基因组预测的效果

**表示相关系数在α=0.01的水平上具有统计学意义

图1 各性状的Lasso回归和岭回归预测效果的比较

  • 决定系数(R2)反映的是模型的拟合优度
  • 均方根误差RASE和平均绝对误差AAE也是模型性能评价的常用指标,其中AAE受离群值影响较小;
  • 预测值与实际值的相关系数®在全基因组选择中通常被用来衡量预测的准确性。

表1和图1的结果表明,两种预测方法对于4个性状都有较好的预测效果(最小的r=0.7218),但Lasso回归的模型拟合及预测效果一致地优于岭回归,其中拟合最好的是千粒重的Lasso回归预测模型(R2=0.9325),即模型解释了该性状变异的93.25%。

图2是各性状的实际值-预测值图,从中可以看出岭回归预测值的变异性都大于Lasso回归。
对于这两种预测方法,4个性状的模型拟合及预测效果的次序为:千粒重 >分蘖数 >单株谷粒数>产量。

图2 各性状的实际值-预测值图
红色ο代表岭回归,蓝色+代表Lasso回归

04 正确的预测分析工具,助力育种工作者事半功倍

本研究利用JMP Pro软件对水稻组合珍汕97A×明恢63衍生的一个RIL群体的4个与产量相关的性状进行了全基因组预测。

因为要从很少数目的表型观察值估计大量的标记效应,而且标记之间可能有高度的共线性,所以采用了两种正则化回归方法——Lasso回归和岭回归,这两种方法都属于惩罚模型,通过牺牲一些无偏性,可以大幅度减小方差,从而使整体的平均误差低于无偏模型。

4个性状的结果表明,这两种预测方法都有较好的预测效果,但Lasso回归在所有性状中都优于岭回归,而且Lasso回归的运算速度远远快于岭回归。

另外,岭回归虽然可以将参数估计值向0进行收缩,但它不能将系数取值变为严格的0,因此并没有进行变量选择的能力。

而Lasso回归使用了与岭回归类似的惩罚项,并且在对模型进行控制的同时,还能够进行变量选择。比如在产量的Lasso回归分析中,经过两轮迭代后,模型中只剩下34个对模型有贡献的预测变量(标记),而在岭回归中,所有预测变量都没有从模型中剔除(图3)。其余性状也有类似的情况。

图3 产量的Lasso回归(a)和岭回归(b)的解路径图

图中的每一条线代表了一个预测变量的模型参数

基于以上的结果,我们认为可以运用JMP Pro软件来对作物进行全基因组预测。对于所分析的4个水稻性状而言,选用Lasso回归比岭回归更好。工欲善其事必先利其器,选择适合的预测分析工具,可助育种工作者事半功倍。如果对JMP Pro的Lasso回归与岭回归感兴趣的话,欢迎申请JMP Pro试用评估。

案例 | 基于JMP Pro的Lasso及岭回归在水稻全基因组预测中的应用相关推荐

  1. 基于R语言的主成分回归(PCR)与Lasso回归在水稻基因组预测中的对比(生信数基实验作业)

    基于R语言的主成分回归(PCR)与Lasso回归在水稻基因组预测中的对比 0 引言 全基因组选择是 21 世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分 ...

  2. 机器学习之LASSO,岭回归

    回归算法 文章参考 1.线性回归 假设有数据有 其中: 其中m为训练集样本数,n为样本维度,y是样本的真实值.线性回归采用一个多维的线性函数来尽可能的拟合所有的数据点,最简单的想法就是最小化函数值与真 ...

  3. R—基于diabetes数据的逐步回归、岭回归、lasso回归

    #本次diabete数据来源于R中lars包 #语言为R 观察diabetes数据 序号 x.age x.sex - x.glu y x2.age x2.sex - x2.ltg:glu 1 0.03 ...

  4. 特征缩减技术(shrinkage): lasso和岭回归

    1.概述 通过对损失函数(即优化目标)加入惩罚项,使得训练求解参数过程中会考虑到系数的大小,通过设置缩减系数(惩罚系数),会使得影响较小的特征的系数衰减到0,只保留重要的特征.常用的缩减系数方法有la ...

  5. 【机器学习入门】(8) 线性回归算法:正则化、岭回归、实例应用(房价预测)附python完整代码和数据集

    各位同学好,今天我和大家分享一下python机器学习中线性回归算法的实例应用,并介绍正则化.岭回归方法.在上一篇文章中我介绍了线性回归算法的原理及推导过程:[机器学习](7) 线性回归算法:原理.公式 ...

  6. R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择的分类模型案例

    原文链接:http://tecdat.cn/?p=21444 逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选.概率预测.分类等,例如医学研究中高通里测序技术得到的数据给高维变量选择问 ...

  7. R语言惩罚logistic逻辑回归(LASSO,岭回归)高维变量选择分类心肌梗塞数据模型案例...

    全文下载链接:http://tecdat.cn/?p=21444 在本文中,逻辑logistic回归是研究中常用的方法,可以进行影响因素筛选.概率预测.分类等,例如医学研究中高通里测序技术得到的数据给 ...

  8. 基于Python的岭回归与LASSO回归模型介绍及实践

    基于Python的岭回归与LASSO回归模型介绍及实践 这是一篇学习的总结笔记 参考自<从零开始学数据分析与挖掘> [中]刘顺祥 著 完整代码及实践所用数据集等资料放置于:Github 岭 ...

  9. 应用预测建模第六章-线性回归-预测化合物溶解度练习-R语言(多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网)

    模型:多元线性回归,稳健回归,偏最小二乘回归,岭回归,lasso回归,弹性网 语言:R语言 参考书:应用预测建模 Applied Predictive Modeling (2013) by Max K ...

最新文章

  1. [javaEE] 三层架构案例-用户模块(二)
  2. Springboot之多环境打包配置
  3. nginx反向代理vue访问时浏览器加载失败,出现 ERR_CONTENT_LENGTH_MISMATCH 问题
  4. 金九银十,史上最强 Java 面试题整理。
  5. MyBatis增强工具pndao-帮你自动写SQL
  6. vue --- [全家桶] Vuex
  7. 厚积薄发,拥抱 .NET 2016
  8. python考试有什么用_Python有什么用?2020年学习Python的10个理由
  9. node redis集群_如何使用集群扩展Node.js服务器
  10. qpython手机kivy库_QPython Android Kivy,从python脚本启动python脚本
  11. Xilinx PLL IP核功能仿真
  12. Win11掉帧严重是怎么回事?Win11玩游戏掉帧的解决方法
  13. 构建 Netflix 分布式追踪(tracing)体系
  14. 客户端navicat安装教程
  15. Unity Gameplay工具集(Unity Gameplay Tool Set)
  16. 联想电脑打不开摄像头
  17. 多个正则引擎的比较(pcre re2 hyperscan)
  18. android 动态仿磁贴,UWP开发:给App加上动态磁贴
  19. “社畜”群体的崛起带来了哪些营销新契机?
  20. 算法工程师-机器学习-数据科学家面试准备[外企和国外公司、春招、秋招]

热门文章

  1. 注册AWS账号创建EC2免费套餐详细教程
  2. python的实验报告大一心理_Python程序设计实验报告: 实验六
  3. Dreaming to Distill Data-free Knowledge Transfer via DeepInversion
  4. DOH(DNS-over-HTTPs)服务器搭建
  5. Linux 测试IP和端口是否能访问
  6. vue链接生成二维码
  7. Problem F: Matrix Problem (III) : Array Practice Time Limit: 1 Sec Memory Limit: 4 MB Submit: 8787
  8. 2018-8-29-win2d-渐变颜色
  9. 安卓5.1自带浏览器主页设置–转载
  10. 元宇宙iwemeta:元宇宙数字人实践落地应用场景