相关性系数替代模型预测得分

  • A+
所属分类:生物信息学

我们知道,构建模型后(得到权重参数),预测某个样本的得分(输出),只需要将该样本的按照模型的转化公式计算即可。但是,笔者最近看到两篇CNS的转录组学文献,采用了另一种构建样本得分的方法,使用相关性系数替代预测得分。

具体来讲,这些文献中,在求得模型的权重向量W后,对于样本X,其预测得分用 score=Cor(W,X) 替代。而常规做法中,预测得分采用的是 predict=W^TX 。上述score与predict之间是否总是一致,一致性是否健壮?

和蔡霸对此进行了探讨,得出的大致逻辑如下:当自变量分量之和一定时,权重大的分量取值大、权重小的分量取值小时,预测值就会更大。感觉这种替代也是合理的。这些论文中采用的是全转录组学数据(全基因signature,而不是关键子集),而转录组学目前定量主要采用TPM,基本满足“自变量分量之和一定”的前提。

这种替代是否健壮,需要一定的数学证明。

杜老哥对此提出用协方差解释,思路通了。

首先,协方差的公式有如下写法:

      Cov(W,X)=E[(W-E(W))(X-E(X))] =\frac{\sum _{i=1}^n(W_i-\bar{W})(X_i-\bar{X})}{n-1}

      Cov(W,X)=E[(W-E(W))(X-E(X))] =E(WX)-E(W)E(X)

其中:E(WX)=\frac{\sum _{i=1}^nW_iX_i}{n-1}=\frac{W^TX}{n-1}

且:E(W)与E(X)是恒定值(因为X各分量的总和是确定值)。令 e=E(W)E(X)

则:Cov(W,X)=\frac{W^TX}{n-1}-e

再根据相关系数与协方差的转换公式,可得:Cor(W,X)=\frac{Cov(W,X)}{\sigma _W\sigma _X}=(\frac{W^TX}{n-1}-e)/(\sigma _W\sigma _X)

由于 \sigma _W是确定的,若假定\sigma _X 也确定,则 Cor(W,X) 与 W^TX 有对应关系。

 

若有大佬对本话题感兴趣,欢迎对此进一步探讨。

 

原论文:

Signatures of T cell dysfunction and exclusion predict cancer immunotherapy response 中的 T cell dysfunction score构建方法。

Machine Learning Identifies Stemness Features Associated with Oncogenic Dedifferentiation 中的OCLR得分构建方法,其中mRNAsi构建采用的是相关性系数预测,mDNAsi采用的是常规的线性预测。