扩增子分析解读4去嵌合体 非细菌序列 生成代表性序列和OTU表

  • A+
所属分类:生物信息学

上一节回顾:我们制作了Usearch要求格式的Fasta文件,对所有序列进行去冗余和低丰度过滤,并聚类生成了OTU。
 
接下来我们对OTU进一步去除嵌合体,并生成代表性序列和OTU表。
 
什么是chimeras(嵌合体)?
嵌合体序列由来自两条或者多条模板链的序列组成,示意图如下:

在PCR反应中,延伸阶段由于不完全延伸,就会导致嵌合体序列的出现,以上图为例,在扩增序列X的过程中,在序列延伸阶段,只产生了部分X序列延伸阶段就结束了,在下一轮的PCR反应中,这部分序列作为序列Y的引物接着延伸,扩增就会形成X和Y的嵌合体序列;
 
在放一张具体一点的示意图,不完全延伸产生的序列作为下一轮PCR反应的产物,进行延伸

通常在PCR过程中,大概有1%的几率会出现嵌合体序列,在16S/18S/ITS 扩增子测序的分析中,系统相似度极高,嵌合体可达1%-20%,需要去除嵌合体序列。
 
嵌合体的比例与PCR循环数相关,循环数越高,嵌合体比例越高。
 
有玩过魔兽有小伙伴记得精灵族的终极兵种双头龙奇美拉吗?它的英文就是chimera,即中文的嵌合体,奇美拉是音译。
10. 基于数据库去嵌合体(可选)
上文第9步,聚OTU时,已经按照组内的序列相似情况,直接denovo去除了大量嵌合体。目前这步基于数据库去嵌合体,在以前的分析中是必做的,但随着技术发展,发现这步可能也会造成假阴性。读者可以实验设计、初步结果和预期来判断是否需要这步处理。本文示例对每一步均进行操作,即是个人风格,又是为了给大家展现一个比较全面的流程。之前Usearch作者推荐使用RDP数据去嵌合,并提供了下载链接;现在作者建议,如果做,就用Sliva或Unite这种全面的大数据库,不推荐用RDP这种小数据库,以前的建议是错的。软件方法均是不断进步的,我还没有系统比较作者的新建议有多大改进,这里还是按照原来的方法进行,读者可以自行尝试新方法。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: