科研 | Brief. Bioinformatics: Robust Huber-LASSO依靠个体基因型数据改善生物水平的预测

编译:隔壁小王,编辑:Emma、江舜尧。

原创微文,欢迎转发转载。

导读

在本文中,我们为稳固统计领域的新手介绍了利用Huber损失函数的标准LASSO新型版本,其中我们进行了全面的模拟,并分析了真实的蛋白质,代谢物,mRNA表达和基因型数据,以比较模型的交叉迭代协整性、假阳性率、真阳性率以及预测精度等。

尽管这两种方法均显示出受控的假阳性率≤2.1%,真阳性率相似,但使用单独的SNP数据,Rubust Huber-LASSO在预测蛋白质,代谢物和基因表达水平的准确性方面优于标准LASSO。进行的模拟和实际数据分析表明,Robust Huber-LASSO是标准LASSO在分子表型遗传研究中很不错的备选项。

论文ID

原名:Robust Huber-LASSO for improved prediction of protein, metabolite and gene expression levels relying on individual genotype data
译名:Robust Huber-LASSO,依靠个体基因型数据改善蛋白质、代谢物和基因表达水平的预测
期刊:Briefings in Bioinformatics
IF:8.99
发表时间:2020.10
通讯作者:Heike Deutelmoser,JustoLorenzo Bermejo
通讯作者单位:德国海德堡大学医学生物统计学和信息学研究所统计遗传学研究组

实验设计

实验结果

1. 激发的例子

为了研究单个离群观测值对标准和Robust Huber-LASSO结果的影响,我们将残差值从-5到5分配给具有 "平均基因型 "的个体(图1A中蓝点代表的低杠杆基因型)。图1B中的左图显示了正则化参数λ(y轴)与分配给具有平均基因型的个体的残差值(x轴)的依赖性,该图清楚地表明,对于Robust Huber-LASSO(蓝线,λ的范围:0.036-0.038,单调趋势),惩罚参数比标准的LASSO(黑线,λ的范围:0.033-0.050,非单调趋势)更稳定。图1B中的右图显示了与蛋白DEFB119血浆水平最密切相关的SNP(rs9296004)估计回归系数对残差分配值的依赖性,单个离群观测值对标准(范围为β^:0.18-0.30,非单调趋势)的影响大于对稳固结果的影响(范围为β^:0.27-0.29,单调趋势)。

我们还研究了当残差从-5到5分配给具有 "分歧基因型"(图1A中箭头标记的橙色点代表的高杠杆基因型)的个体时,单个离群观察对标准和robust Huber-LASSO结果的影响,结果如图1C所示。同样,一个单一的离群观察对标准LASSO的结果影响比robust Huber-LASSO的结果更强烈。有趣的是,具有平均基因型和离群表型的单个个体比具有分歧基因型和离群表型的个体对结果表现出更强的影响,这反映在图1B中λ和β^的变异性比图1C中更大,与蛋白DEFB119血浆水平相关的三个SNPs的估计回归系数之间的比率显示在补充图1.II中。它们证实了标准LASSO的结果可能会受到少量离群值的严重影响:在这个激励性的例子中,当负残差被分配给具有平均基因型(A)的个体时,SNP rs12301299没有被纳入标准LASSO回归模型。一般来说,Robust Huber-LASSO的回归系数之间的比率往往比标准LASSO更稳定,补充图1.I比较了从-5到5的单个偏离残差对λ和β^的影响,将其分配给具有平均(A)或分歧(B)基因型的个体,同时也考虑到robust量化-LASSO。

此示例表明,少量外围观察会严重影响标准LASSO的结果,而Robust Huber-LASSO和分位数LASSO的结果往往更稳定。

图1 (A)蛋白质DEFB119线性模型中残差的箱线图(左图),以及来自INTERVAL研究的3301个个体的遗传PCA结果(右图)。(B)正则化参数λ取决于分配给具有平均基因型个体的残差的值(左图);与蛋白DEFB119血浆水平(rs9296004)密切相关的SNP的估计回归系数对分配给具有平均基因型个体的残差的值的依赖性(右图)。(C)正则化参数λ依赖于为具有不同基因型的个体分配给残差的值(左图);估计的与蛋白质DEFB119(rs9296004)血浆水平最相关的SNP回归系数与分配给具有不同基因型个体的残差的值的依赖性(右图)。

2. 模拟结果

在没有离群值的情况下,即考虑到所有个体蛋白质DEFB119的实际残差,100次迭代的正则化参数中值为标准的λ=0.041,Robust Huber-LASSO为λ=0.044(表1)。对具有平均基因型的个体分配一个等于±5的离群残差,转化为标准LASSO的λ增加0.002-0.003,而Robust Huber-LASSO为0.000-0.002;对具有不同基因型的个体分配一个等于±5的残差,标准LASSO的λ增加了0.002-0.003,而Robust Huber-LASSO的λ没有变化。

在没有离群值的情况下,标准LASSO模型的跨迭代一致性(Jaccard指数=0.125)高于Robust Huber-LASSO模型(Jaccard指数=0.111);这种差异是由于Robust Huber-LASSO模型的惩罚力度更大,随后选择的变异数量更少。标准LASSO(最大减少Jaccard指数=0.010)比Robust Huber-LASSO(最大减少Jaccard指数=0.002)更严重地降低了模型的交叉迭代一致性。

在没有离群值的情况下,100次迭代的中位假阳性率对于标准LASSO为0.020,对于Robust Huber-LASSO为0.018(表1),人为离群值的加入对这些比率的影响很小(±0.002)。

补充表1.I显示了针对Huber损失函数(c = 1.20,1.80)和分位数损失函数的其他调整常数值的相应结果。对于具有平均基因型的个体,一个单一的外部残差等于±5,对于c = 1.20,它的λ变化为0.000–0.001,而对于c = 1.80,则λ变化为-0.003和0.004。对于具有不同基因型的个体,残差等于±5的分配对c = 1.20的λ没有影响,而对c = 1.80的λ增加0.001。对于robust分位数LASSO,在没有异常值的情况下,λ的中值为λ= 0.022。对具有分歧基因型的个体分配一个等于±5的残差,显示出robust定量-LASSO比robustc=1.345的Huber-LASSO对λ,以及对模型的交叉迭代协和性的影响更大。对于Huber损失函数的调整常数的其他值和robust分位数LASSO,假阳性率为≤2.1%。

补充表1.II显示了考虑五个异常值(占研究人群的1%)的相应结果。对于标准LASSO,离群值比例的增加转化为较大的λ增大,但对于Robust Huber-LASSO,则不影响λ。与Robust Huber-LASSO相比,它对标准LASSO模型的交叉迭代一致性的影响更大,并且假阳性率保持≤2%。

表2显示了与蛋白质DEFB119血浆水平相关的三个SNP的解释方差,MAF和报告的作用大小,以及相应的真阳性率以及标准和Robust Huber-LASSO的估计回归系数。在没有异常值的情况下,SNP rs9296004和rs11845244的真实阳性率与标准且Robust Huber-LASSO相同。标准品的SNP rs12301299的真实阳性率高于坚固的Huber-LASSO,相对于Robust Huber-LASSO,标准偏差为±5时,通常显示出对真实阳性率的影响更大。

当不包含人工离群值时,基于标准和Robust Huber-LASSO(95%置信区间重叠),SNP rs9296004和rs11845244的估计回归系数相似,相比之下,与真阳性率一致,SNP rs12301299的估计回归系数在标准LASSO下高于稳固Huber-LASSO。与真阳性率一样,外差残差的赋值一般对标准的估计系数的影响高于Robust Huber-LASSO,而Sun等人报告的效应大小是针对每个SNP分别计算的,表2中显示的系数是同时考虑多个变异体而估计的。补充表2.I(可在线查阅https://academic.oup.com/bib)显示了Huber损失函数的调谐常数(c=1.20,1.80)和分位数损失函数替代值的相应结果,补充表2.II(可在线查阅https://academic.oup.com/bib)显示了离群比例等于1%的结果,真阳率相当接近,总体排名:标准LASSO>Huber-LASSO(c=1.80)>Huber-LASSO(c=1.345)>Huber-LASSO(c=1.20)>量化LASSO。标准LASSO的平均真阳率为0.93(无离群值)、0.91(1个离群值)和0.81(5个离群值),而Robust Huber-LASSO为0.89(无离群值)、0.89(1个离群值)和0.87(5个离群值)。

分子表型遗传研究的目标通常是依靠个体基因型数据尽可能准确地预测表型。图2描绘了基于标准LASSO(黑色)和Robust Huber-LASSO(蓝色)的观察到的蛋白质残基与预测的蛋白质残差之间平方关系的方盒图,对于平均基因型(A)或不同基因型(B)的个体,无论有或没有(模拟的蛋白质残渣= 0)离群值,Robust Huber-LASSO总是比标准LASSO产生的预测DEFB119精度更高(两面配对的P t检验在0.00001和0.002之间,图2),更具体地说,标准LASSO的中值平方相关性从0.104到0.105变化,而RobustHuber-LASSO等于0.106。Robust Huber-LASSO的中位数标准平方相关值为0.096,其中c = 1.80和c =1.20,而对于稳固分位数LASSO,其相关系数在0.096至0.097之间变化。与单个离群值相比,离群值比例等于1%几乎不会影响中位数标准平方相关,使用标准皮尔逊相关性和斯皮尔曼相关性的费舍尔一致形式,也证实了Robust Huber-LASSO的预测精度比标准LASSO更高。

综上,模拟的结果是,单个异常值对标准LASSO的正则化参数,模型的交叉迭代一致性,真阳性率和估计的回归系数的影响大于对Robust Huber-LASSO的影响,研究的标准和Robust正则回归方法显示假阳性率≤2.1%,Robust Huber-LASSO比标准LASSO具有更高的预测精度。

表1 标准和Robust Huber-LASSO的正则化参数λ、Jaccard指数和假阳性率

表2 与蛋白DEFB119血浆水平相关的3个SNPs的解释方差、MAF和报告效应大小,以及相应的真阳性率和标准LASSO和稳固Huber-LASSO的估计回归系数

图2 基于标准LASSO(黑色)和Robust Huber-LASSO(蓝色)以及模拟的具有平均(A)或不同(B)基因型个体的蛋白质残基的观察到的和预测的DEFB119蛋白残基之间平方关系的箱线图。两侧成对t检验的概率值显示在每个图的上部

3. 实际数据应用

图3A的左图显示了在KORA研究中分析的169个血清代谢物与未关联相关SNP的方差分布。其中,所研究的529种代谢产物中约有三分之二(68%)未显示SNP关联,因此未在该图中显示。在所研究的代谢物中,22%与一个SNP相关,7%与两个SNP相关,2%与三个SNP相关,1%与四个SNP相关,代谢产物戊二酰肉碱与六个SNP相关,正如预期所示,解释方差随关联SNP的数量而增加。在图中用蓝色箭头表示代表我们实际数据应用的L-肉碱(0.11,与四个SNP相关)和戊二酰肉碱(0.14,与六个SNP相关)的解释方差。

表3显示了代谢产物L-肉碱和戊二酰肉碱的观察值和预测值之间的解释方差和中值平方相关性,图3A的右图显示了标准和Robust Huber-LASSO代谢物戊二酰肉碱的平方相关性的方盒图,Robust Huber-LASSO比标准LASSO的预测精度更高。

图3B的左图显示了根据PrediXcan在GTEx项目中研究的5612个基因的mRNA表达的方差分布,该项目具有1-15个未链接的相关SNP。蓝色箭头突出显示了为我们的实际数据应用选择的三个基因(AGA,SNRNP25和XRRA1)。表3显示了三个选定基因的观察到的和预测的表达水平之间的解释方差和中位数平方相关,RobustHuber-LASSO比标准LASSO产生更高的预测精度。

基于个体基因型数据预测分子表型的能力受到所解释方差的限制。对于具有较小解释方差的基因,预期在遗传观察和预测的表达水平之间存在弱到零的相关性-已提出标准平方相关性的阈值等于0.01。对于这些基因而言,检查相关系数的符号尤为重要,例如,解释的XRRA1 mRNA表达差异为0.0004,基于标准LASSO的中值相关系数为-0.0629,而Robust Huber-LASSO为0.0029,图3B的右图显示了该基因的标准和Robust Huber-LASSO相关系数的箱线图。

最后,图3C的左图显示了在INTERVAL研究中使用无关联SNP所测量的1561个血浆蛋白的解释方差分布,两个代表性蛋白质DEFB119的解释方差,也用于设计进行的模拟,SLAMF7用蓝色箭头指示,选择蛋白质以通过其相关SNP的数量代表中值解释的方差。与模拟结果以及对真实代谢物和基因表达数据的分析一致,Robust Huber-LASSO的预测准确性始终优于标准LASSO,Robust Huber-LASSO比标准LASSO需要更长的计算时间。为了说明问题,使用一个核心的标准LASSO进行真实蛋白质数据分析需要0.7分钟,而强大的Huber-LASSO则需要3.2分钟,不同的稳定正则化方法总是显示出比标准LASSO更高的预测精度,而其他稳定性技术之间的差异很小。

图 3 (A)在KORA研究中分析的具有关联的未关联SNP的血清代谢物的解释方差分布(左图); 代谢物谷氨酰肉碱的标准和稳固Huber-LASSO平方相关的盒状图(右图)。(B)根据PrediXcan(图左),在GTEx项目中研究的具有未链接的相关SNP的基因的mRNA表达的解释方差分布。黑色箭头表示解释的方差> 0.10的基因数量;标准和Robust Huber-LASSO基因XRRA1的相关系数的方框图(右图)。(C)INTERVAL研究中血浆蛋白与未连接的相关SNP的变异说明的分布(左图);标准和稳固的Huber-LASSO与蛋白质DEFB119的平方相关的方盒图(右图)。蓝色箭头突出显示了我们实际数据应用选择的代谢物,基因和蛋白质。

讨论

本研究的目的是研究优化后标准LASSO的优缺点,其中LASSO用Huber损失函数代替标准最小二乘法。计算机模拟辅以三个真实分子数据集的分析,利用标准LASSO和Robust Huber-LASSO对正则化参数λ的稳定性、模型的交叉迭代一致性、假阳性率、真阳性率以及预测和观测蛋白、代谢物和基因表达水平之间的相关性进行了研究。

两种方法均能很好地控制假阳性率。如预期的那样,Robust Huber-LASSO的影响程度远大于标准LASSO的惩罚程度,模型的交叉迭代一致性,真实阳性率和估计的回归系数。而且,从应用的角度来看,具有平均基因型的个体离群表型对正则化回归结果的影响要大于离群表型与趋异基因型的组合。我们发现,在基于个别基因型数据的蛋白质、代谢物和基因表达的预测中,Robust Huber-LASSO似乎优于标准LASSO。

在本研究中,我们使用了费舍尔一致的肯德尔相关性的观测值和遗传预测的蛋白质、代谢物和基因表达测量值之间的相关性来量化预测准确性。异常值可能会严重影响经典的Pearson相关性估计,而robust相关性度量(例如流行的Kendall和Spearman相关性)会在稳定性和高斯效率之间取得很好的平衡。我们在研究中使用了Kendall的相关性,因为它比Spearman相关性更稳定,效率更高。三种相关度量的解释相似,肯德尔、Spearman和Pearson的相关性始终指出,本研究中Robust Huber-LASSO的预测精度高于标准LASSO。

在我们对来自GTEx项目的真实mRNA表达数据的分析中,我们使用了5倍交叉验证:使用五分之四的数据计算标准和Robust Huber-LASSO的回归系数,并在另五分之一的独立数据中预测基因表达水平。PrediXcan是一种流行的用于预测基因表达的软件,它采用了类似的方法。在PrediXcan的开发中对LASSO和Elastic Net进行了比较,并显示了相似的性能,但是PrediXcan的发行版使用了Elastic Net,使用结合了强大的Elastic Net和/或LASSO的更新版本的PrediXcan,可能会提高基因表达的预测准确性,尚待进一步研究。

强大的LASSO的另一个潜在应用是孟德尔随机化(MR)。MR使用遗传变异作为工具变量来研究暴露对结果的因果关系,遗传关联必须满足因果关系检验的几个假设,这些假设通常很难检查。因果效应通常通过反方差加权(IVW)方法估算,由于在MR分析中仅包含一个无效的遗传变异会产生有偏差的IVW估计量,因此针对无效仪器的Robust MR方法开发成为了一个热门的研究领域。通常,与血浆蛋白和血清代谢物水平相比,mRNA表达的解释方差较小。我们发现Robust Huber-LASSO提高了相关系数> 0.10的分子表型的预测准确性;当遗传变异与分子表型之间的关联较弱时,Robust Huber-LASSO和标准LASSO都无法准确预测结果。

我们研究的优势之一是通过数据驱动的交叉验证方法来研究正则化参数的稳定性,异常值和高杠杆率观察值也可能通过正则化参数间接影响估计的回归系数。这项研究的其他新颖之处是研究了外围分子表型与平均和发散基因型的组合对预测结果的影响,并研究了三种常见分子表型的相关遗传变异数。另一方面,我们研究的局限性包括无法评估其他分子标记,例如甲基化和非编码RNA表达,以及对特定类型的正则回归和稳定方法的考虑。除了LASSO,还有其他正规化的回归方法,例如Ridge回归和Elastic Net,它们使用不同的惩罚项,Ridge回归的惩罚基于L2范数,而ElasticNet在惩罚项中结合了L1和L2范数。此外,代替使用Huber损失函数来限制离群值对特定正则回归方法的影响,可以使用其他稳定的损失函数,例如分位数,Hampel的降序,Tukey的双权重和最小修整的平方损失函数。在未来的分子基因型遗传研究中,当前的模拟,真实的数据集和结果可能提供依据给其他正则回归方法与稳定损失函数的比较。

原文链接:

https://pubmed.ncbi.nlm.nih.gov/33063116/

(0)

相关推荐