【代谢组学】4.生物标志物分析

  • A+
所属分类:代谢组学

受试者工作特征曲线(Receiver Operating Characteristic,ROC)是评估一个生物标志物的预测性能的有用的图形工具,指示一个生物标志物组区分两个群组(如实验组和对照组,疾病和健康)的能力。

如果把患病视为阳性,把健康视为阴性。敏感性(sensitivity)表示真阳性除以真阳性与假阴性之和,又称为真阳性率,如下图所示:

特异性(specificity)表示真阴性除以真阴性与假阳性之和,又称为真阴性率,如下图所示:

1-真阴性率=假阳性率,所以ROC曲线横轴是假阳性率,纵轴是真阳性率,曲线下的面积为AUC值,通常介于0.5-1之间,面积越大预测效果越好。

上图是单变量的ROC分析,针对单个代谢组分子或单组学数据。实际上,可以将多个代谢物或多个组学数据作为组合来进行预测,称之为多变量ROC分析。不同模型预测的结果也可以同时在一张图中比较。

多变量ROC分析
多变量ROC分析主要是用于探寻最佳的生物标志物组。通过选择RandomForest,SVM和PLS-DA 等多元统计分类算法,选择不同的代谢物排序组合,反复抽样的构建分类模型,获得最佳的生物标志物组。
在多元ROC分析中,选择最佳的变量组合主要是通过重复随机抽样交叉验证(CV)的算法来识别变量重要性。在每次验证中,三分之二(2/3)的样本根据VIP评分(PLSDA)、精度下降(随机森林)或加权系数(线性支持向量机)来评价每个特征的重要性。选择排名前2,3,5,10,100(Max)重要特征用来建立分类/回归模型,并在1/3的剩余样本上进行验证。
如下图:

上图是基于PLS-DA 分类方法,变量重要性依据PLS-DA分析的VIP值排序,分别选择前2个,前3个,前5个,前10个,前20个和全部变量的模型的ROC曲线和AUC值。可以看出,图中最佳的生物标志物组是基于PLS-DA分析VIP值排序的前2个代谢物组成的生物标志物组。
验证上述筛选出的生物标志物组,或选择特定的生物标志物组,计算区分效果(AUC)值。可以从构建的最佳生物标志物组中进一步选择样本进行验证,也可以手动选择生物标志物组进行分析。
如上例中筛选出的2个代谢物的为最佳生物标志物组进行验证下。

图中CV表示经过100次交互验证后的ROC曲线;Holdout 表示手动选择测试集后计算得到的ROC曲线,说明该生物标志物组预测效果良好。
关于单变量和多变量ROC曲线分析的比较
多变量ROC曲线是基于多元统计(SVM、PLS-DA或随机森林)的交叉验证结果。而经典的单变量ROC曲线是基于测试集中所有数据点内所有可能的截断点的综合效果。因此由交叉验证的ROC曲线得到的AUC更适合预测,而单变量ROC计算的AUC往往容易过拟合。换句话说,单变量ROC可以被看作是特征的区分“潜力”的一个指标,而不是它的实际表现。
几个可以进行ROC分析的R包。

MetaboAnalyst也具有相应的分析模块。
Ref:

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: