基因组拼接中N50和N90到底指什么

  • A+
所属分类:基因组学

N50:
举个例子,比如一个基因组大小是1M,测序得到若干条reads,这些reads进行拼接,如果完全可以拼接起来,中间没有gap的序列称为contig,即连续的意思。如果中间有gap,但是可以知道gap的长度,这样的序列就叫做scaffold, 即脚手架(非连续)的意思。然后把contig 和 scaffold 从长到短进行排列,然后相加,当恰好加到1M的50%,也就是500k的时候 ,那一条 contig 或者scaffold 的长度就叫做Contig N50和Scaffold N50。很明显这个数值越大说明组装的质量越好。
即:从最长的开始倒数,数到长度为总长度一半的片段,最后一个被数到的片段越长,说明长的片段越多,最后组装的质量越好。
N90:把50%改为90%即可。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: