常用的芯片数据分析方法

  • A+
所属分类:生物信息学

DNA芯片能够同时分析大量的信息,包括单核苷酸变异多态性(Singe Nuleotide Polymorphisms,SNP)已表达序列标志(Experessed Sequence Tage,EST)和基因克隆等。

用基因芯片测定细胞生长不同时期的基因表达、测定正常组织与肿瘤组织的DNA变化,测定用药前后DNA发生的变化、测定基因突变等,就可能发现新药、进行疾病的基因诊断、疾病的预报、弄清人类生物学的奥秘。因此芯片的数据分析显得尤为重要。芯片数据分析主要是通过芯片各点数据的分析比较和芯片间的数据比较来实现的。目前常用的芯片数据分析手段有数据归一化分析、直观视图分析、统计学分析和生物学分析。

芯片的数据归一化

在芯片实验中,各个芯片的绝对光密度值是不一样的,直接比较多个芯片表达的结果显然慧导致错误的结论,因此在比较多个芯片实验时,必须减少或消除各个实验之间的差异。最常用的方法便是芯片数据的归一化处理。

归一化的方法可以用特定的对照基因或者叫做“看家基因(Housekeeping Genes)”法,或将各点光密度值或比值除以所有点的平均值法,或附带一些参数如平均值等以作为该芯片的内部对照。但至今为止仍无真正意义的理想的归一化方法,特别时对于不同实验室间的芯片数据的比较。

“看家基因”法时比较常用的方法,该法是选择一个通用基因或DNA片断作为对照基因固定在芯片上,杂交时将一定量的与之互补的荧光标记探针混合到杂交液中。这样可以将对照点信号与各样点信号比较,其比值便可消除各实验室的差异,从而达到归一化的目的。理想的对照基因应能在所有的实验中均能得到可靠的信号,且重视性好,稳定性好,易于得到推广。然而,目前还尚未找到这样的理想对照基因。

除了上述归一化方法外,为比较多个芯片表达的数据,还应严格控制每次实验的条件,如:目标DNA标记的程度、荧光激发和发射的效率、测定的条件等。使实验在相同的环境和条件下进行。

芯片数据的视图分析

视图分析使最简单、最直接、最直观的分析方法。通常用散点图(二维和三维)、直方图和饼图直观地显示芯片表达的结果,对于结果较为明显的数据,可以直接作出判断。

芯片数据的统计学分析

从芯片测定结果的大量数据中获取有用的生物学信息,统计学的处理分析是必不可少的。统计学分析已广泛用于大规模基因表达的分析。统计分析可以帮助生物学家发现新的基因、DNA序列、基因的突变位点等。目前应用于基因芯片表达数据统计分析的主要方法是聚类分析(Cluster Analysis)。

聚类分析是研究事物分类的一种方法,是在事物分类面貌尚不清楚的情况下研究事物的分类。其方法是直接比较样本中各指标之间的性质,将性质相近的归为一类,性质差别较大的归在另一类。聚类分析根据其聚类指标或计算方法分成许多种。

在基因芯片表达数据分析中,应用最为广泛的是系统聚类分析(hierarchical clustering),此外还有Bayesian聚类分析,逐步聚类分析(k-means clustering),自组图分析(self-organizing maps,SOMs),二向聚类分析(two-way clustering),神经网络聚类分析(neural network clustering),组成分分析(principal component analysis),多维标度分析(multidimensional scaling analysis),affinity grouping,market basket analysis,link analysis,decision trees, rule induction,genetic algorithms等统计分析手段。

系统聚类分析法是将芯片表达的数据点分配进入有严格等级的层层嵌套的子集。最相接近的数据点分成一组,并用一个新点来替换,该新点的值为此两点的平均值,其他点同样处理,然后用同样的方法进行下级处理,直至最终成为一个点,这样数据点就形成一个家谱的树状结构,树枝的长度表示两组数据的相似程度。系统聚类分析适合于具有真正等级下传的数据结构,不适合于基因表达谱可能相似的复杂数据集。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: