设为首页收藏本站

JMP数据分析论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 155|回复: 0

【案例】基于JMP Pro软件的Lasso及岭回归在水稻全基因组预测中的应用

[复制链接]
发表于 2021-1-7 14:12:16 | 显示全部楼层 |阅读模式
全基因组选择是21世纪动植物育种的一种重要的选择策略,其核心就是全基因组预测,即基于分布在整个基因组上的多样性分子标记来对育种值进行预测,为个体的选择提供依据。但目前提出的大多数全基因组预测方法都涉及到相当复杂的算法并要求使用者具备熟练的编程能力,因此很少在实际育种中得到有效的应用。

文章来源于湖北大学学报自然科学版,作者李亚男,陈建国

本文作者利用JMP Pro在水稻全基因组预测中的应用做了探索研究,运用JMP Pro中的两种正则化回归方法(Lasso和岭回归)预测产量及其相关性状的育种值,为育种工作者在选择应用全基因组预测的分析工具方面提供了较好的参考。【本文载于湖北大学学报(自科版)2020年04期】


01  1分钟快速了解全基因组选择
全基因组选择(genomic selection,GS),是利用分布在整个基因组上的分子标记来估算育种值的一种高效、经济的方法。它实质上是估计所有基因或染色体片段的联合效应,并结合这些效应来预测基因组估计的育种值(genomic estimated breeding value,GEBV)。由于GEBV的计算可以不依赖系谱记录和表型信息,这就为早期选择提供了可能,可以大幅度缩短育种年限,提高遗传进展,降低育种成本。


02 预测分析之探索

2.1 实验数据的收集
水稻的产量等性状的原始数据来自Yu等[7],实验人员将珍汕97 A和明恢63两个水稻品种作为亲本,杂交产生210个重组自交系(recombinant inbred lines,RIL),从这些重组自交系中收集4个产量相关性状的表型数据,它们分别是水稻产量(YD),千粒重(KGW),分蘖数(TP)和单株谷粒数(GN)。将各个重复的性状的平均表型值作为响应变量。基因组数据由水稻基因组的约270,000个SNP推断的1 619个组(bin)表示。组内的所有SNP都具有完全相同的分离模式(完全的连锁不平衡(LD)),因此来自一组的一个SNP足以代表整个组。

210个RIL的基因型编码为:1代表珍汕97 A基因型,0代表明恢63基因型。


2.2 统计模型之Lasso回归
在全基因组选择中,预测变量的数目(p)通常远远大于个体的数目(n)。在这种情况下,普通最小二乘法(ordinary least-squares,OLS)的估计值具有很差的预测能力,因为标记效应被视为固定效应,这导致预测变量之间的多重共线性和过度拟合,从而使该模型不可行。

Lasso是一种基于线性回归模型的降维方法,对高维小样本数据的稀疏模型十分有用,在基因表达谱分析中被广泛应用,是一种吸引人且极受欢迎的变量选择方法。此外,Lasso及其扩展(包括弹性网和自适应Lasso)已用于各种QTL作图或基因组选择研究。


2.3 统计模型之岭回归
如果有许多预测变量,则岭回归是理想的选择。
岭回归往往优于一般的全基因组选择方法,因为它可以同时估计所有标记的影响。此外,岭回归方法比一般方法更适合于很少或没有大效应和许多小效应的情况下的预测,与大多数数量性状的情况一样。


2.4 数据分析
由于目前大多数全基因组预测方法都需要使用者具备编程能力,例如R语言,Matlab等,这对于实际育种工作者来说是非常大的挑战。

而JMP旗下的专业预测建模软件JMP Pro无需编程,特别强调以统计方法的实际应用为导向,其强大的分析能力、交互性及可视化能力,使用方便,尤其适合非统计专业的数据分析人员使用。因此,这里作者选用 JMP Pro进行数据分析。

Lasso回归和岭回归均在JMP Pro“分析”菜单下“拟合模型 >广义回归”对话窗口中进行设置和运行。

利用“模型比较”命令对两种预测方法的效果进行评价,用于比较预测效果的指标是决定系数(R2)、均方根误差RASE(root average squared error)、平均绝对误差AAE(average absolute error)和预测值与实际值的相关系数(r)。


03 Lasso回归VS岭回归,孰更优?
表1列出了用岭回归和Lasso回归对产量、千粒重、分蘖数及单株谷粒数等4个性状进行全基因组预测的模型性能和预测效果评价指标的估计值,并在图1中对两种预测方法和不同性状的预测效果进行了比较。

表1 用Lasso回归和岭回归对水稻4个性状进行全基因组预测的效果


**表示相关系数在α=0.01的水平上具有统计学意义




图1 各性状的Lasso回归和岭回归预测效果的比较

决定系数(R2)反映的是模型的拟合优度
均方根误差RASE和平均绝对误差AAE也是模型性能评价的常用指标,其中AAE受离群值影响较小;
预测值与实际值的相关系数(r)在全基因组选择中通常被用来衡量预测的准确性。

表1和图1的结果表明,两种预测方法对于4个性状都有较好的预测效果(最小的r=0.7218),但Lasso回归的模型拟合及预测效果一致地优于岭回归,其中拟合最好的是千粒重的Lasso回归预测模型(R2=0.9325),即模型解释了该性状变异的93.25%。

图2是各性状的实际值-预测值图,从中可以看出岭回归预测值的变异性都大于Lasso回归。
对于这两种预测方法,4个性状的模型拟合及预测效果的次序为:千粒重 >分蘖数 >单株谷粒数>产量。




图2 各性状的实际值-预测值图
红色ο代表岭回归,蓝色+代表Lasso回归



04 正确的预测分析工具,助力育种工作者事半功倍
本研究利用JMP Pro软件对水稻组合珍汕97A×明恢63衍生的一个RIL群体的4个与产量相关的性状进行了全基因组预测。

因为要从很少数目的表型观察值估计大量的标记效应,而且标记之间可能有高度的共线性,所以采用了两种正则化回归方法——Lasso回归和岭回归,这两种方法都属于惩罚模型,通过牺牲一些无偏性,可以大幅度减小方差,从而使整体的平均误差低于无偏模型。

4个性状的结果表明,这两种预测方法都有较好的预测效果,但Lasso回归在所有性状中都优于岭回归,而且Lasso回归的运算速度远远快于岭回归。

另外,岭回归虽然可以将参数估计值向0进行收缩,但它不能将系数取值变为严格的0,因此并没有进行变量选择的能力。

而Lasso回归使用了与岭回归类似的惩罚项,并且在对模型进行控制的同时,还能够进行变量选择。比如在产量的Lasso回归分析中,经过两轮迭代后,模型中只剩下34个对模型有贡献的预测变量(标记),而在岭回归中,所有预测变量都没有从模型中剔除(图3)。其余性状也有类似的情况。


图3 产量的Lasso回归(a)和岭回归(b)的解路径图

图中的每一条线代表了一个预测变量的模型参数

基于以上的结果,我们认为可以运用JMP Pro软件来对作物进行全基因组预测。对于所分析的4个水稻性状而言,选用Lasso回归比岭回归更好。工欲善其事必先利其器,选择适合的预测分析工具,可助育种工作者事半功倍。

如果对JMP Pro的Lasso回归与岭回归感兴趣的话,欢迎申请JMP Pro试用评估,点击这即可申请。



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|JMP数据分析论坛 ( 沪ICP备13022603号-2 )  

GMT+8, 2021-3-4 21:17 , Processed in 0.300509 second(s), 18 queries .

Powered by Discuz! X3

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表