宏基因组拼接方法

  • A+
所属分类:生物信息学

  de novo定义:from the beginning(从头拼接), no reference genome guided(无参考基因组)

  三类de novo基因拼接的计算方法:

  1. Greedy algorithm:对于含重复区的序列拼接效果不好

  Shortest common string (SCS):最短的、包含原序列S中所有的k-mer的序列

  但是Greedy algorithm为追求最短的序列或者最多的重叠,出现了“吃掉”重复区间的问题。

  2. Overlap Layout Consensus:耗时长,用于Sanger测序

  3. de Bruijn:速度快、准确度高,目前NGS多采用此方法

  将每条序列拆成长度为k个碱基的序列(k-mer),每个k-mer之间的重叠部分overlap=k-1

  要点:线性结构,欧拉路径,特殊结构的处理

  序列拼接工具如Velvet,SPAdes、IDBA-UD等,均采用de Bruijn算法

  部分结构可简化和处理掉,例如去头和气泡(remove tips and bubbles)

  E coli基因组的de Bruijn图和测序错误率的关系

  测序深度和覆盖度:

  测序深度(depth):测序得到的总碱基数与待测基因组大小的比值。例如E. coli基因组大小为4Mbp,测序得到40Mbp的reads,则测序深度为10X。

  Coverage>80%可形成“基因草图(draft genome)”

  Draft genome需要30X的测序深度

  举例:

  1. 测序得到的Reads数:Abundant>moderately>rare

  2. 测序深度或覆盖率(read depth or coverage):

  Abundant>moderately>rare

  3. 根据所需测序深度决定测序通量:如果要得到C的基因草图(需要depth>=30X),则测序通量(总碱基数)=rare的基因组碱基数*30/rare%

  scaffold=contigs+gaps(缺口)

  Scaffold组装主要靠

  与已知物种的基因组进行序列比对

  paired read测序结果也提供了大量gap filling的信息

  依然有大量缺口(gaps)

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: