扩增子分析解读3格式转换 去冗余 聚类

  • A+
所属分类:生物信息学

00:06 607Mb   100.0% Reading temp/seqs_usearch.fa
00:06 574Mb  CPU has 96 cores, defaulting to 10 threads
00:08 915Mb   100.0% DF
00:09 935Mb  1268345 seqs, 686530 uniques, 624363 singletons (90.9%)
00:09 935Mb  Min size 1, median 1, max 18774, avg 1.85
62167 uniques written, 182874 clusters size 2 discarded (26.6%)
主要内容为读取输入文件;
检查到系统有96个CPU,默认使用了10个线程;
总共有1268345条序列,其中非重复的序列有686530个,非重复且只出现一次的有624363个(90.9%的非冗余序列是singletons,多吗?);
最小值、中位数、最大值、平均值;输出结果有62167个结果,丢弃掉的数据占26.6%。
 
本条命令的详细使用,请阅读官方文档 http://www.drive5.com/usearch/manual/cmd_fastx_uniques.html
 
9. 聚类OTU
 
为什么要聚类OTU?
是因为Unique的序列仍然远多于物种数量,并且扩增的物种可能存在rDNA的多拷贝且存在变异而得到来自同一物种的多条序列扩增结果。目前人为定义序列相似度通常97%以上为OTU,大约是物种分类学种的水平,实际上1个OTU可能包括多个物种,而一个物种也可能扩增出多个OTU。
 
下面我们用usearch10将非冗余的序列聚类
-cluster_otus接输入文件;
-otus后面为输出的otu文件的fasta格式;
-uparseout输出聚类的具体细节
-relabel Otu为重命名序列以Otu起始

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: