北京物流信息联盟

【迈维课堂】生信篇:运用ROC曲线筛选生物标志物的策略

2022-06-08 16:18:50


ROC 曲线(Receiver Operating Characteristic Curve,受试者工作特征曲线)是对于可能或将会存在混淆的两种条件或自然状态,需要试验者、专业诊断学工作者以及预测工作者作出精细判别,或者准确决策的一种定量方法。ROC曲线已经在医学领域广泛应用于临床诊疗、人群筛检等研究。

运用ROC曲线筛选生物标志物的策略主要包括,OPLS-DA筛选差异代谢物,再用最小绝对收缩与选择算子算法(Least Absolute Shrinkage and Selection Operator,LASSO)和极端梯度上升算法(eXtreme Gradient Boosting,XGBoost)算法选择重要的代谢物,然后使用逻辑回归模型筛选最佳的代谢物组合,即候选的生物标志物。

图1 LASSO变量选择的计算结果。右侧虚线lambda对应的模型包含的代谢物就是LASSO一次计算所选择的变量。

图2 XGBoost变量选择的计算结果

图3 候选生物标志物的ROC曲线

图4 健康组和疾病组的代谢物含量比较(代谢物数据经log2标准化,均用mean ± sd表示,星号代表代谢物的含量差异显著)

图5 逻辑回归模型预测结果的散点图,虚线0.5是临界值,虚线下方的样品预测是健康组,虚线上方的样品预测属疾病组。

1.1.LASSO 选择变量

LASSO 是基于惩罚函数的变量选择方法。LASSO 基于惩罚函数在零点处导数的奇异性,将不重要的变量系数以较大概率压缩到零,同时对估计值较大的重要自变量给予较轻压缩,来保证参数估计的准确性。LASSO算法是一个有序、连续的过程,以牺牲无偏性换取较小的方差;该方法具有计算量小,速度快,参数估计连续性,适用于高维数据等优点,选择的模型具有较高的预测准确性。如果数据的维数大于样本量,还需要引入岭回归(Ridge regression)组成弹性网方法(Elastic net)。

 

1.2.XGBoost选择变量

XGBoost 属于梯度提升算法(Gradient Boosting,GB),其原理是把成百上千个分类准确率较低的树模型组合起来,成为一个准确率很高的模型。XGBoost是GB算法的高效实现,能够自动利用CPU的多线程进行并行计算,运算速度更高效,同时改进算法提高了精度。


1.3.逻辑回归模型筛选最佳代谢物组合

线性回归用于描述自变量和因变量之间的关系,但是因变量的取值范围很广,无法用于分类问题。逻辑回归是在线性回归的基础上,套用了 Sigmoid 函数,将因变量的值限定在 [0,1] 区间内,可用于二分类和多分类问题,常用于数据挖掘、疾病自动诊断、经济预测等领域。

逻辑回归模型的效果使用 ROC 曲线评估。ROC曲线的坐标轴范围都是 [0, 1],曲线与坐标轴之间的面积叫做曲线下面积(Area Under Curve,AUC)。AUC取值范围是 [0.5, 1],在0.5 ~ 0.7范围内时有较低准确性,在0.7 ~ 0.9范围内时有一定的准确性,在0.9以上时有较高准确性。


1.4. 输入数据

代谢组数据:列是样品名,行是代谢物。

样品信息表:样品的临床信息,包括样品名、类别(健康组或疾病组)、性别、年龄等。

参考文献

[1].Jerome Friedman, Trevor Hastie, Robert Tibshirani (2010). Regularization Paths for Generalized Linear Models via Coordinate Descent. Journal of Statistical Software, 33(1), 1-22.

[2].Tianqi Chen and Carlos Guestrin. XGBoost: A Scalable Tree Boosting System. In 22nd SIGKDD Conference on Knowledge Discovery and Data Mining, 2016

[3].Xavier Robin, Natacha Turck, Alexandre Hainard, Natalia Tiberti, Frédérique Lisacek, Jean-Charles Sanchez and Markus Müller (2011). pROC: an open-source package for R and S+ to analyze and compare ROC curves. BMC Bioinformatics, 12, p. 77.

[4].Xu, R. et al. Circulating tumour DNA methylation markers for diagnosis and prognosis of hepatocellular carcinoma. Nat Mater, (2017).


(让世界感知迈维的脚步,让代谢聆听迈维的声音)

你可能错过的精彩

【迈维秘诀】文献下载与追踪实用方法

【迈维课堂】代谢组学常见问答升级版

【迈维秘诀】8000多篇杂志的影响因子都在这儿(可下载)

【农学篇】Science:转录+代谢力作!鬼臼毒素合成通路的代谢及转录分析

【医学篇】Nature:膳食疗法对肿瘤的作用

【医学篇】结直肠癌适应营养应激的代谢调节机制

【医学篇】综述:代谢组学研究加快医学生物标志物的发现

【医学篇】低温处理后甘油脂类变化研究

【医学篇】Nature医学篇:来自不饱和脂肪酸的长寿秘诀

【医学篇】发现识别肥胖和二型糖尿病的重要标志物

【医学篇】血液中的磷脂类物质可以用来鉴定老年人退行性记忆损伤

【医学篇】血清和尿液代谢组学研究揭示肿瘤恶病质

【医学篇】基于GC/MS和PLS-LDA鉴定2型糖尿病患者的脂肪酸代谢谱和生物标记物

友情链接

Copyright © 2023 All Rights Reserved 版权所有 北京物流信息联盟