【实用干货】如何上传数据至NCBI?

  • A+
所属分类:生物信息学

高通量测序结束之后,想要发表文章,除了要面对数据分析这一难题,还需要将测序数据上传至NCBI。

上传到NCBI 的数据可归纳为两大类:测序原始数据和分析数据。原始数据(Raw data)指测序下机的最初文件,未经任何处理和分析;金唯智所提供的是 Illumina 机器产生的fastq文件。这一类型的文件需要向 NCBI 的 SRA(Sequence Read Archive) 数据库进行提交,提交操作步骤相对比较简单。

分析数据提交根据不同的项目类型需要向不同的数据库提交不同的分析结果。NCBI 提交不同数据对应数据库和提交的方法,可参照链接:http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/

不同的数据类型需要上传的数据库可参照下表:

【实用干货】如何上传数据至NCBI?

下面就针对最常见的SRA数据上传为大家进行详细介绍。

1. 注册自己的NCBI帐号

打开下方链接

https://www.ncbi.nlm.nih.gov/account/

点击图中标注的“ Register for a NCBI account”,进入到注册页面,如实填写信息。

【实用干货】如何上传数据至NCBI?

2. 完成注册,开始上传数据

不管提交什么数据到 NCBI,都需要对这份数据进行一个描述,包括前期项目情况、样本属性及制备情况等;BioProject和BioSample 即描述研究项目的、研究背景、材料属性等基本信息。

一个BioProject 代表一项测序研究项目,可包含多个BioSample,也可以包含多次实验experiments,所以在提交数据前,先申请 BioProject 号和BioSample 号。通常 BioSample 号以SAMN 开头,如 SAMN*****;BioProject 号以 PRJNA 开头,如 PRJNA*****。这两个号需要在后续SRA 提交过程中使用。

【实用干货】如何上传数据至NCBI?

(1)创建BioProject

登陆下方链接,创建 New submission:

https://submit.ncbi.nlm.nih.gov/subs/bioproject/

或登录NCBI 之后点击页面左下角Submit Data,在Quick Start 里面选择BioProject,然后点击GO 。

【实用干货】如何上传数据至NCBI?

① SUBMITTER:根据研究项目实际情况,填写一系列的信息,每填写完一个步骤,都要点击页面下方的continue,保存已填写的信息。

注意:email选项中,两个邮箱中要留一个该测序项目负责人的常用邮箱,因为后期如果想要修改数据信息或者释放时间,都需要该邮箱发送邮件到NCBI才会被受理。

【实用干货】如何上传数据至NCBI?

② PROJECT TYPE

● 根据自己的项目类型选择Project Type,一般高通量测序数据可选择“Raw sequence reads”。
● Sample scope:是对实验物种的简洁描述或者说是一个题目,根据不同选择会影响后面TARGET的填写。

【实用干货】如何上传数据至NCBI?

③ TARGET

【实用干货】如何上传数据至NCBI?

④ GENERAL INFO:基本信息填写
● Release data:这个就是您的数据公开日期,可以点击立即释放,也可以选择具体时间
● Project title:根据TARGET 提供一个简短的标题,如:
1) Chromosome Y sequencing
2) Opportunistic pathogen that causes important food-born disease
3) Global studies of microbial diversity on human skin
注意:红框中要选择是否关联其他数据,若选择“No”则红框中的内容不进行填写;选择“Yes”,红框中的内容为必填项。

【实用干货】如何上传数据至NCBI?

⑤ Biosample:写上样品名称即可,注意需要与之后创建 Biosample 时的样品名称一致。

如果只有一个样品,可以点击“register at Biosample”进行样品注册,样品注册完成后会自动调回BioProject 注册界面。但是如果您有多个样品,可以直接点击“Continue”,完成BioProject 注册后再进行BioSample 注册。

【实用干货】如何上传数据至NCBI?

⑥ PUBLICATIONS:填写PubMed ID 或DOI 号

【实用干货】如何上传数据至NCBI?

注:BioSample 和Publications 这两步可以省略,后期发邮件给e-mail 给NCBI 进行修改。

确认无误后,点击“Submit”按钮,创建该Project。经过以上步骤,经过批准会发送到邮箱里面,获得以 PRJNA 开头的BioProject ID。

(2)创建 BioSample

与创建BioProject相同,登录https://submit.ncbi.nlm.nih.gov/subs/biosample/,点击“New submission”;或登录NCBI 之后点击页面左下角Submit Data,在Quick Start里面选择BioSample,然后点击GO 。

【实用干货】如何上传数据至NCBI?

同样是根据研究项目实际情况,填写信息;每填写完一步,都要点击页面下方的continue,保存已填写的信息。

① Submitter:填写个人基本信息,如果已经成功提交BioProject 会自动填补,无需修改。

② General Information:Release data,该信息与BioProject 类似,数据释放时间;选择样本类型,是选择多样本还是单样本上传。

【实用干货】如何上传数据至NCBI?

③ SAMPLE TYPE:根据实际情况选择。

【实用干货】如何上传数据至NCBI?

④ ATTIBUTES:

【实用干货】如何上传数据至NCBI?

在这有两种上传数据方式,点击“Use built-in tableeditor”,可在此直接进行编辑。

【实用干货】如何上传数据至NCBI?

也可根据提示下载excel后填写。

【实用干货】如何上传数据至NCBI?

表格中的绿色是必填项,一定要保证至少一个因子可以区分各个样本(名字除外)。可参考下方链接:
https://submit.ncbi.nlm.nih.gov/biosample/template/?package=Microbe.1.0&action=definition

a. sample_name:样品名;
b. sample_title:每个处理可以写一个题目,可选;
c. description:处理的描述,可选;
d. organism:优势物种名;
e. collection_date:采样时间,如:2012-08-16;
f. geo_loc_name:采样地,如:China:Beijing;
g. lat_lon:经纬度,如:39 N 116 E;
h. isolation_source:分离环境,如:Rhizosphere soil;

【实用干货】如何上传数据至NCBI?

注意:表格提交后,一定要保证没有任何warnings,不然即使提交上去也不会通过,如果爆出“Warn”信息,则需要等待2 个工作日方能重新进行该步骤。

确认无误后,点击最后的“Submit”按钮。经过以上步骤,邮箱会收到以 SAMN 开头的BioSample ID。

3. 提交SRA

直接登录网址,创建 New submission。
https://submit.ncbi.nlm.nih.gov/subs/sra/

(1)Submitter :同样是填写个人基本信息,如果已经成功提交BioProject 会自动填补,无需修改。

(2)General:将上述创建的BioProject和BioSample ID直接引用就可以。此外还需要设置Release data,数据的释放时间一般尽可能选择文章发表之后,后续也可以根据实际需要进行更改。

【实用干货】如何上传数据至NCBI?

(3)Metadata:可选择在线填写或者下载Excel表格填写后上传。其中BioProject 、BioSample的登陆号PRJNA#和SAMN# 是必填的。

【实用干货】如何上传数据至NCBI?

表格中需填写的内容如下:
a. library_strategy:测序策略,如AMPLICON;
b. library_source:材料来源,如GENOMIC;
c. library_selection:富集方法,如PCR;
d. library_layout:展示形式,如Paired、Fragment;
e. platform: 测序平台,如下图;
f. instrument_model:测序仪器型号,根据测序平台选择;
g. Filetype: 上传数据形式,如bam、fastq、PacBio_HDF5 等。

(4)数据上传:完成以上内容后,即可进行最重要的一步,也就是数据上传。

【实用干货】如何上传数据至NCBI?

如果数据量比较小,可以使用在线方式上传:

对于数据量较大的项目,可以使用NCBI的Aspera软件,详细参见链接:
https://www.ncbi.nlm.nih.gov/sra/docs/submitfiles/

(5)确认无误,点击“Submit”

邮箱中会收到相应的Accession number 的登录号(SRR*****或者SRA*******),用于查询和检索。

【实用干货】如何上传数据至NCBI?

上传任务完成后,会有Status 状态栏,专门用于提示提交状态以及可跟踪查询的可视化表现形式。

完成(Done)土黄色代表已经完成的目标数字。
等候(Wait)灰色需要更多的信息及文件加载。
处理中(Processing)浅蓝色代表目标正在处理中,如果一个目标或者文件处理的时间超过48小时,可联系SAR(sra@ncbi.nlm.nih.gov)。
队列(Queue)深蓝色是当传递途径可用时,目标便会被正在处理。
更换(Replaced)鲜绿色是当一个目标或者文件被另一个更换。错误(Error)红色需要介入调停,请联系SRA。
数据上传中如果出现问题,邮件联系NCBI就会收到热心的解答。

若您在NGS项目中有其他问题,可以拨打电话400-8100-669选项3,或发送邮件至NGS.Service@genewiz.com.cn,我们将在第一时间内为您提供咨询服务。

  • 蛋白质组学业务咨询
  • 扫码咨询相关问题
  • weinxin
  • 代谢组学业务咨询
  • 扫码咨询相关问题
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: