宏基因组扩增子图表解读2散点图:组间整体差异分析(Beta多样性)

  • A+
所属分类:生物信息学

数据点在直角坐标系平面上的分布图。在宏基因组领域,散点图常用于展示样品组间的Beta多样性,常用的分析方法有主成分分析(PCA),主坐标轴分析(PCoA/MDS)和限制条件的主坐标轴分析(CPCoA/CCA/RDA)。
 
Beta多样性
Beat多样性是生态学概念,专指不同组或生态位间物种组成的差异。
 
在读文章中经常可以看到PCA分析、PCoA分析,NMDS分析,CCA分析,RDA分析。它们在本质上是排序(ordination)分析。排序的过程就是在一个可视化的低维空间(通常是二维)重新排列这些样品,使得样方之间的距离最大程度地反映出平面散点图内样品间的关系信息。常用的排序方法如下:
 
1、只使用物种组成数据的排序称作非限制性排序(unconstrained ordination)
==即无限制条件,只找所有样品间的最大差异的投影平面==,主要方法如下:
1. 主成分分析(principal components analysis,PCA)是一种常用的数据间差异分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征向量,常用于高维数据的降维。原理推荐阅读PCA的数学原理。
2. 对应分析(correspondence analysis, CA)
3. 去趋势对应分析(Detrended correspondence analysis, DCA)
4. 主坐标分析(principal coordinate analysis, PCoA)
5. 非度量多维尺度分析(non-metric multi-dimensional scaling, NMDS)
在非限制性排序中,分析种类很多,但原理相近。16S和宏基因组数据分析通常用到的是PCA分析和PCoA。原理有时间可以细读,但至少知道是用坐标间距离来反应样品间差异大小即可。
PCA和PCoA分析的区别:PCA分析是基于原始的物种组成矩阵所做的排序分析,而PCoA分析则是基于由物种组成计算得到的距离矩阵得出的。
 
2、同时使用物种和相关环境因子组成数据的排序叫作限制性排序(constrained ordination)
==即寻找某一条件下,可最大限制解释这一条件的投影平面==。条件可以为连续(温度、湿度、pH值、各种土壤理化性质等)或非连续的变量(如人为分组、基因型、地理位置、取样时间、实验批次等)。常分析方法有:
1. 冗余分析(redundancy analysis,RDA)
2. 典范对应分析(canonical correspondence analysis, CCA)
==此类方法可以计算某一条件下,各组间是否存在显著差异,并且可以计算出该条件下平面展示的差异占样品间总体差异的比例==
RDA或CCA的区别:RDA是基于线性模型,CCA是基于单峰模型。一般我们会选择CCA来做直接梯度分析。但是如果CCA排序的效果不太好,就可以考虑是不是用RDA分析。RDA或CCA选择原则:先用species-sample资料做RDA分析,看分析结果中Lengths of gradient 的第一轴的大小,如果大于4.0,就应该选CCA,如果3.0-4.0之间,选RDA和CCA均可,如果小于3.0, RDA的结果要好于CCA。
 
距离计算方法
样品两两间的距离计算方法也有多种方法,大家都应该听过Euclidean(欧几里德)吧,即有非常有名的欧氏距离(Euclidean distance)。在生物学研究中,主要分为两大类,一种是物种距离(如常用Jaccard,Bray-Curtis);另一种是基于进化的距离(Unifrac),基于进化的距离还包含权重(Weighted)和非权重(Unweight)两种。 
在选择上,我习惯用Bray-Curtis距离,是因为这种方法在我研究的方面有比较好的结果。习惯上我是每种距离都做分析,那种能更好的解释科学问题就用那种。
 
看图实战(Result)
示例1. 非限制条件的PCoA

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: