序列比对前的准备工作

  • A+
所属分类:生物信息学

一些最基本的用法
# cutadapt的功能特别强大,相对应的参数真的特别多,有几十个参数,我们平时只会用到很少的几个,我在这里为大家介绍一下。
 
# 最基本的形式,可以去掉3‘端的adapter序列
cutadapt -a AACCGGTT -o output.fastq input.fastq
# 可以直接输入或者输出压缩文件,不需要修改参数,输出文件的后面加上.gz
cutadapt -a AACCGGTT -o output.fastq.gz input.fastq.gz
# 假如去掉3‘端的adapter AAAAAAA 和5’端的adapter TTTTTTT
cutadapt -a AAAAAAA -g TTTTTTT -o output.fastq input.fastq
# cutadapt也可以用来进行reads的cut,去掉最前面的5bp
cutadapt -u 5 -o trimmed.fastq input_reads.fastq
# 进行reads测序质量的过滤
# cutadapt软件可以使用-q参数进行reads质量的过滤。基本原理就是,一般reads头和尾会因为测序仪状态或者是反应时间的问题造成测序质量差,比较粗略的一个过滤办法就是-q进行过滤。需要特别说明的是,这里的-q对应的数字和phred值是不一样的,它是软件根据一定的算法计算出来的
# 3‘端进行一个简单的过滤,--quality-base=33是指序列使用的是phred33计分系统
cutadapt -q 10 --quality-base=33 -o output.fastq input.fastq 
# 3‘端 5’端都进行过滤,3'的阈值是10,5‘的阈值是15
cutadapt -q 10,15 --quality-base=33 -o output.fastq input.fastq 
 
Reads 长度的过滤
[--minimum-length N or -m N]
# 当序列长度小于N的时候,reads扔掉
 
[--too-short-output FILE]
# 上面参数获得的这些序列不是直接扔掉,而是输出到一个文件中
 
[--maximum-length N or -M N]
# 当序列长度大于N的时候,reads扔掉
 
[--too-long-output FILE]
# 上面参数获得的这些序列不是直接扔掉,而是输出到一个文件中
 
 
Paired-Reads的裁剪(trim)
# 现在很多的测序都是双端测序,那么从测序原理上来说,一对reads来自于1簇反应,所以一起进行adapter的trim可能效果更好。cutadapt自然也提供了这样的功能
cutadapt -a ADAPTER_FWD -A ADAPTER_REV -o out.1.fastq -p out.2.fastq reads.1.fastq reads.2.fastq
# -a是第1个文件的adapter序列
# -A是第2个文件的adapter序列
# -o是第1个输出文件
# -p是第2个输出文件

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: