GSEA数据分析

  • A+
所属分类:代谢组学

基因芯片技术以一种综合、全面和系统的观点研究生命现象,打破了以往一种疾病一个基因的研究模式,通过对个体在不同生长发育阶段或不同生理病理状态下大量基因表达的横向或纵向分析,研究相应基因在生物体内的功能,阐明不同层次多基因协同作用的机制,进而在人类重大疾病如肿瘤、心血管疾病的发病机制、分子诊断、药物开发等研究中发挥了巨大的作用,大大推动了人类结构基因组及功能基因组的各项基因组研究计划。其中经典的表达谱芯片更是研究基因表达及调控最为常用的技术,如何充分利用表达谱芯片乃至转录组数据至关重要,尽管数据分析工具不少,但好多没有商品化软件,正确运行需要相关专业背景,其应用大大受制于操作便利程度。基因集团旗下的上海贝晶生物技术有限公司生物信息学团队正加大力度开发这些工具,不断将诸如GSEA等重要的应用优化整合到整个数据分析流程中,给广大研究用户提供快捷的免费体验。

什么是GSEA?

GSEA:Gene Set Enrichment Analysis首字母缩写,基因集富集分析,能够对不同层次、不同来源的数据进行整合,并在没有先验经验存在的情况下也能在表达谱整体层次上对上万条基因进行富集分析,从而为构建个体在不同生长发育阶段或不同生理病理状态下的特征性基因模块及分子调控网络,提供了重要的启示及指导,基因功能富集分析作为一种革命性的生物芯片分析方法,它通过生物学与数学的整合而形成了目前解决基因芯片海量数据的最佳方法,使得研究者们能很方便、快捷地了解隐藏在海量芯片数据背后的生物学意义。其在肿瘤、糖尿病、中医证候、药物研发等领域都有广阔的应用。

GSEA特点及优势?

一般的差异分析(GO和Pathway)往往侧重于比较两组间的基因表达差异,集中关注少数几个显著上调或下调的基因,这容易遗漏部分差异表达不显著却有重要生物学意义的基因,忽略一些基因的生物特性、基因调控网络之间的关系及基因功能和意义等有价值的信息。而GSEA不需要指定明确的差异基因阈值,算法会根据实际数据的整体趋势, 为研究者们提供了一种合理地解决目前芯片分析瓶颈问题的方法,即使在没有先验经验存在的情况下也能在表达谱整体层次上对数条基因进行分析,从而从数理统计上把表达谱芯片数据与生物学意义很好地衔接起来,使得研究者们能够更轻松、更合理地解读芯片结果。
 
目前,市面上绝大多数公司(包括我司),在求得差异基因列表后,都会在此之上提供给客户Pathway 以及GO 富集分析,毕竟给予成百上千的差异表达基因以简洁、明晰的生物学功能的概括,才是进行高通量生物学表达谱实验的主要目的。然而,在实际应用于生物学高通量数据时,它们都有一个重大的缺陷:对于差异基因检出的阈值,异常的敏感,客户需要给出差异基因的一个明确的定义(阈值),例如abs(FC) ≧2.0 p ≦ 0.05。这种一刀切的阈值,对于发现真正的生物学效应,许多时候是一种障碍,因为实际通过芯片观测到的RNA 表达变化,往往是层层的负反馈调控后的结果,并且不同组织对于表达差异的敏感度是不同的:在神经递质系统内,一个1.2 倍的表达差异即可能产生及其显著的效应。

在下面将要列举的示例中,使用常见的差异基因筛选阈值,无论怎样设置,如果仅做普通的Pathway 富集分析的话,一定会漏检至关重要的Myc 通路。这个示例非常典型,不仅在于Myc 作为重要的癌基因广为人知,并且这里Myc 在实验条件下活性改变后引起的下游基因表达变化,非常具有代表性:即并非所有的下游基因都会展现出强烈的表达改变,但它们会呈现出一致的趋势。GSEA 的优势就在于,能够稳健的检出微弱,但是一致的趋势。

GSEA数据分析  GSEA数据分析
 
说了这么多,下面赶紧来说说我司提供的GSEA数据分析结果长啥样?
 
我司利用麻省理工学院和哈佛大学的Broad Institute研究团队开发MSigDB(Molecular Signatures Databases,分子标签数据库,点击可查看哦),经过升级、优化、并整合至我司开发的表达谱数据分析软件中,最终以免费的基础分析形式提供给广大研究工作者!

有了解GSEA的小伙伴们会提出,Broad Institude官网也可以做这项分析的啊,为什么要选择你们公司来做呢?

除了前面提到的没有相关背景的研究者要花功夫琢磨如何正确使用,忍受操作不便外,由于官网提供的分析受计算容量所限,置换检验(Permutation)次数不足,最终得到的图片质量也不尽如人意。

GSEA数据分析

左图为Broad Institude官网免费做出来的GSEA数据图片,主要问题:
1. 优化的很差,很难做到10000次以上的Permutation
2. 图形分辨率太低,达不到文献发表要求的质量

GSEA数据分析

左图为2009年发表在《PNAS》上的一篇文献中的GSEA分析图片,比之Broad Institude官网所出有了很大的改进,增加了零假设分布(阴影部分)展示,便于评估差异富集的显著性,还是存在如下一些问题:
1.阴影的边缘由于Permutation次数不足,非常不平滑
2. 阴影与曲线、color bar中gene position,都并未对齐,不够严谨
3. Color Bar中哪怕是FoldChange 接近0时,依旧还是蓝色与红色

GSEA数据分析

我司GSEA数据分析图片,解决上述问题,且高清发表级!

另附数据表格如下:

GSEA数据分析

针对每个有生物学意义的Gene Set给出相关的GSEA图、热图,并给出该Set中表达的基因列表,以超链接形式,方便易解读!

GSEA研究定位:

GSEA数据分析
 
应用举例:

今年二月份发表在《Pediatric Rheumatology》上的一篇文章,研究的是系统性幼年特发关节炎(sJIA)患者在经过拖珠单抗(Tocilizumab,治疗风湿性关节炎的一种药物)治疗后,其中性粒细胞中线粒体功能及氧化应激相关基因的基因表达调控变化,属于Pilot Study(试点性研究)。本文取4位患者用药12周后的中性粒细胞样本与用药前样本,利用Affymetrix的一款经典芯片——GeneChip Human Genome U133 Plus 2.0 芯片进行表达谱研究,随后采用GSEA数据分析发现用药后基因集中在线粒体功能和氧化应激基因集富集,随后挑选三个基因进行q-PCR验证,为sJIA的发病机理探究做出重要指导。

参考文献: Mitochondrial and oxidative stress genes are differentially expressed in neutrophils of sJIA patients treated with tocilizumab: a pilot microarray study
(http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4746827/)

相关产品火热促销中

基因集团与Affymetrix十五年合作,致力推进芯片技术在中国的应用和发展,Affymetrix公司作为芯片研究领域的领头羊,其表达谱芯片有3’IVT及WT芯片,更有全转录组芯片,包括人的(HTA),大鼠(RTA),小鼠(MTA)不仅在每个外显子上设计探针,也在可变剪切Junction处设计探针,无以伦比的覆盖度带来迄今为止最为深入的编码和非编码转录本研究,是目前为止市面上真正意义上的全转录组水平的芯片,支持基因水平、外显子水平和可变剪切水平的研究。

上海贝晶生物技术有限公司(Shanghai Baygene Biotechnologies Company Limited) 为基因集团(Gene Group Holding)全资子公司。公司位于上海闵行区紫竹国家高新区,拥有1300多平米标准化的研发及生产区域,强大资深的生物信息分析团队及实验技术人员,专注为广大科研工作者提供生物芯片、基因分型等前沿技术及实验服务。

上海贝晶生物技术有限公司为您提供更多特色数据分析促销,如:
1.  CeRNA调控网络研究
2.  lncRNA cis邻近调控分析 
3.  生物学重复的重要性 (点击即可查看)

更有表达谱芯片火热促销中,赶紧联系您身边的基因人吧!

想了解信息,可关注“基因快讯”官方微信平台,进行回复即可咨询
 
索取更多GSEA数据分析资料,请咨询基因有限公司

 






  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: