扩增子分析解读1质控 实验设计 双端序列合并

  • A+
所属分类:生物信息学

1. 测序数据文件
16S扩增子测序数据主要来自HiSeq2500产出的双端各250 bp (PE250)数据,因为读长长且价格便宜(性价比高)。HiSeqX PE150和MiSeq PE300也比较常见,但PE150过短分辨率低,而PE300价格高且末端序列质量过低。此外454在之前研究较多但设备已经停产,PacBio读长长可直接测序16S全长1.5kb代表未来的趋势。
 
测序公司通常会返回raw data和clean data两种数据,raw data为测序获得的原始数据,而clean data则为去除含有接头序列及测序不确定N比例较高的结果,通常直接采用clean data进行质量评估及后续分析。
 
质量评估常用fastqc,一般测序结果文件会附带评估报告,质量太差会重测,此步非用户必须
 
准备两个数据文件PE250_1.fq.gz和PE250_2.fq.gz至工作目录,一共600M,包括2,500,000条fastq格式的双端250bp数据。(提示:可以在Windows上下载,使用filezilla等工具上传服务器)
 
安装fastqc,己安装请跳过,未安装详见
 
如果系统中己安装过fastqc可直接运行fastqc -t 2 *.fq.gz即可。-t为设置线程数,建议与数据文件数量相同最佳,可以提高评估速度,*.fq.gz为输入文件,可以用*通配符指定多个文件。
 
运行结果每个数据会生成两个文件,如下
PE250_1_fastqc.html # 网页评估报告
PE250_1_fastqc.zip # 网页报告相关文本和图片压缩包
数据质量如下:上为左端1-250质量;下为右端1-250质量分布箱线图

可以看到左端的质量比较高(图中绿、黄、红区域分别代表质量优、良、差);右端序列末端质量较次,且箱体也进入红色差区,但中位数红线位于绿色高质量区。这样的结果已经算是中等偏上的了,在PE250测序中,右端的尾部质量都下降很严重,但只要左端的末端较好即可,双端序列合并可进行校正,一般都可以放心使用。
 
2. 实验设计文件
在QIIME中,把实验设计文件叫mappingfile,大家下载mappingfile.txt文件;自己的实验一定要按照示例的格式模仿填写,如错误后续无法运行。QIIME自带了个工具,可以检验文件书写是否正确。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: