基因组的拼接原理(转载沈梦圆的博客)

  • A+
所属分类:基因测序

有时候一次测序拼接结果可能很难达到预设的拼接目标,可能需要多次补测样品来完善拼接结果。我们在测序拼接前,需要知道所研究对象的基因 组的大小、倍型、杂合性、GC含量、是否有污染物/ 共生者、数据集的类型、是否线粒体还是叶绿体的细胞器基因组。其实这些内容在测序之前就需要考虑了,下面一些点进行进行较为详细的介绍 :
(1)基因组大小的获取关系到对以后组装结果的大小的正确与否判断;基因组太大( 10Gb),可能会超出了目前denovo组装基因组软件的对机器存 的要求,从客观条件上讲是无法实现组装的。一般物种的基因组大小可以从公共数据库查到。如果没有搜录,需要考虑通过实验(流式细胞仪福尔根 染色/定量pcr/)或Kmer估计法来获得基因组大小。
(2)杂合度对基因组组装的影响主要体现在不能合并姊妹染色体,杂合度高的区域,会把两条姊妹染色单体都组装出来,从而造成组装的基因组偏 大于实际的基因组大小。一般是通过SSR在测序亲本的子代中检查SSR的多态性。杂合度如果高于0.5%,则认为组装有一定难度。杂合度高于1%则很难 组装出来。杂和度估计一般通过kmer分析来做,降低杂合度可以通过很多代近交来实现。杂合度高,并不是说组装不出来,而是说,装出来的序列不 适用于后续的生物学分析。比如拷贝数、基因完整结构。
(3)随着测序对质量要求越来越高和相关技术的逐渐成熟,遗传图谱也快成了denovo基因组的必须组成。
(4)实验设计需要考虑的问题:1.明确我们的生物学问题;2.设计数据处理方案;3.设置实验条件和生物/技术重复数;4.选择测序平台和覆盖度。
    
为啥拼接挺难的
可供选择的软件多 
两个拼接软件
A modern assembler-SOAPdenovo2 
Trinity运行的原理和过程 1 Trinity 如何运作 a. 序列延伸 (inchworm) ——虫子 将 reads切为 k-mers (k bp长度的短片段) 拆分K-mer的目的:节省内存,降低测序错误对拼接的影响;利用Overlap关系对k-mers进行延伸 ( 贪婪算法);输出所有的序列 (“ contigs”)。 b. 构建 de Bruijn graph (chrysalis)—— 成蛹 聚类所有相似区域大于1kbp的 contigs;构图 (区分不同的 “components”); 将reads比对回 components,进行验证 c. 解图,列举转录本 (butterfly)——化蝶 拆分graph 为线性序列;使用reads以及 pairs关系消除错误序列。 2 组装质量评估与去冗余 d. 组装质量: 组装完整性、组装准确性、后续定量准确性、组装冗余度 N50长度,可以初步评估组装质量;但并非越长越好,应该参照相关的研究(同物种或近缘种);通过统计Unigene对近缘种编码基因的覆盖度分, 也可以从整体评估组装质量。 3 注释与其他
(1) kmer spectra,可用软件KAT、CEGMA; (2)使用生物学知识去进行评估验证
Direct experimental evidence: the reads、Genome size、ploidy、GC content、Symbionts、Plastids、ESTs、cDNAs、peptides、genome walking
Indirect experimental evidence: genomes in general(Genes! (They have structure,Repeats),Chromosome macrostructure ,(circular?, number, telomeres, …))、other species(Close relatives: proteins, transcripts, genomes; Distant relatives: single-copy genes,
phylogeny, HGT)
误差和质控
样本的准备和建库:样品未纯化,PCR偏差(没有化学反应是perfect、complete的)   
N50并不是那么可靠、敏感,我们要注意。  
其他参考资料

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: