数据提交 NCBI

2023-10-30 23:58| 来源: 网络整理| 查看: 265

近些年来，随着测序技术的发展和成本的降低，高通量测序技术日益普及，更多的科研工作者可以使用这种通量高、效率高、性价比高的科研手段对研究样本开展平行大规模的研究。与高通量迅猛发展伴随的，是海量测序数据的产生，NCBI 是一个很好的测序数据管理和共享平台，通常科研工作者在发表 paper 的时候，需要提前向 NCBI 提交序列获得登录号。然而，如何向 NCBI 提交这些序列，提交什么序列？这一系列的数据提交问题则成为了科研工作者不得不面对的一个棘手难题。在此，上海翰宇生物将对目前高通量测序数据的提交做一个简单概述，并着重对提交原始数据进行讲解，以期为科研工作者提供稍许的帮助，希望对大家有用。一、目前高通量数据提交分为哪些种类？就数据类型而言，上传的数据可归纳为两大类：测序原始数据和分析数据。原始数据（Raw data）指测序下机的最初文件，未经任何处理和分析，常见的是 illumina 机器产生的 fastq 文件，454 机器产生的 sff 文件等。这一类型的文件需要向 NCBI 的 SRA 数据库进行提交，提交操作步骤相对比较简单。分析数据提交则根据不同的项目类型需要向不同的数据库提交不同的分析结果。目前的高通量测序就项目类型而言可概括分类为：基因组测序、转录组测序和 meta 测序（如 16S 测序等）。基因组测序数据可以提交组装结果和注释信息到 WGS 数据库，转录组测序数据可以提交组装结果到 TSA 数据库。提交用到的软件也不尽相同，包括 Sequin、BankIt 等。分析结果提交相对步骤繁琐，还需借助一些特定的程序和命令对数据进行处理修改，难度较高。 How to submit sequence data to NCBI，详细可以参见如下链接： http://www.ncbi.nlm.nih.gov/guide/howto/submit-sequence-data/ ； http://www.ncbi.nlm.nih.gov/guide/howto/submit-data/ 。二、什么数据应当提交到什么对应的数据库？ NCBI 的 sequence data 包括 GenBank、Genomes（WGS）、 TSA、SRA、GEO，用于收录不同的测序类型数据。测序数据需要提交到正确对应的数据库，在此上海翰宇生物为大家做简单介绍： Meta 的测序分析数据，如 16S/18S/ITS 测序的 OTU 序列，需要使用 BankIt、Sequin、tbl2asn 等软件提交到 GenBank 数据库。How to submit to GenBank 详细见 http://www.ncbi.nlm.nih.gov/genbank/submit/。基因组的组装结果和注释信息需要提交到 WGS 或者 Complete Genomes，而基因组草图 draft 只能提交到 WGS 数据库，可以借助 Sequin、tbl2asn 软件。Genome Submission Guide 详细见 http://www.ncbi.nlm.nih.gov/genbank/genomesubmit 。 TSA 是收录转录组测序组装结果 EST 的数据库，SRA 是收录各种测序原始数据的数据库，而表观遗传学等数据则需要提交到 GEO 数据库。详细见 https://submit.ncbi.nlm.nih.gov/。

三、提交数据到 NCBI 需要做什么前期准备工作？首先，我们需要建立一个属于自己的 NCBI 的登陆账户，用以提交数据。其次，不管我们提交什么数据到 NCBI，都需要对这份数据进行一个描述，包括前期项目情况、样本属性及制备情况等，即在提交数据前，我们需要先申请 BioProject号和BioSample 号描述样本及背景。然后就是准备好我们的数据，进入对应的数据库界面开始提交数据了。四、测序原始数据提交流程上海翰宇生物将以 Metagenome 测序原始数据提交为例，和大家一起分享原始数据提交的详细流程。首先要建立 BioSample 账号，登陆如下链接：https://submit.ncbi.nlm.nih.gov/subs/biosample/，在界面选择 new submission。

鼠标放到蓝色“？”区可以显示每个选项的描述。带*选项为必填选项，需留意 email 选项中，两个邮箱里一定要留一个该测序项目负责人的常用邮箱，因为后期如果想要修改数据信息或者释放时间，都需要该邮箱地址发送邮件到 NCBI，NCBI 才会受理。

在如上界面上可以选择立即释放，或者选定一个特定的释放时期，最长可以选择延时四年释放。如果中途需要修改释放时间，可以写信给 NCBI 要求修改。

然后需要建立 BioProject 账号，登陆如下链接：https://submit.ncbi.nlm.nih.gov/subs/bioproject/，在界面上选择 new submission 填取项目描述信息建立账号。

在如上步骤完成后，NCBI 会生成两个登录号给我们，通常 BioSample 号以 SAMN 开头，如 SAMN*****；BioProject 号以 PRJNA 开头，如 PRJNA*****。这两个号需要在后续 SRA 提交过程中使用。登陆如下链接 http://www.ncbi.nlm.nih.gov/Traces/sra_sub/sub.cgi，选择 NCBI PDA 入口，NIH 为 NIH 内部人员登陆入口。登陆后 create new submission。

Alias 可以对提交样本数据进行临时命名，该名称可以随意填写，最终提交完成后不会显示该命名。释放时间最晚只能延迟一年释放。Save 保存后，出现如下界面，点击 new experiment，一个submission ID 下可以添加多个 experiment。

点击 new experiment 后，出现以下界面，填写全部*标记选项。选择对应的测序平台。alias 和 title 是临时描述，提交完成后不显示。填写我们前面申请到的 BioProject 号和 BioSample 号。Layout 选项中，如果是 illumina 系统测序机型的双端测序模式选择paired，454 测序的单端测序模式选择 fragment。

保存后 create new run，填写原始数据的 MD5 值，MD5 值可以认为是对所要上传的数据的一个描述，用于确保信息传输完整一致。file name 和 MD5 checksum 的文件名必须填原始文件名，否则和您上传的原始数据文件无法对应成功提交。

提交界面会给出 NCBI 服务器的链接地址以及对应的登陆账户和密码，根据界面提示把您的原始数据（如 sff 文件或者 fastq 文件），上传到 NCBI 的服务器，到此原始数据提交就完成了。我们得到的 SRX/SRR 开头的号即客户发表文章需要的登录号。五、基因组组装结果及注释信息提交基因组组装结果及注释信息提交相对复杂，也是先要建立 sample 和 project 号。通常可以使用 sequin 和 tbl2asn 完成。需要注意的要点有： 1. 序列需要去除载体或者测序引物；序列长度不能少于 200bp；序列不能包括太多的 N，少于 10% 或者小于 14 个 N。 2. 注释信息文件需要与序列文件严格对应匹配。 3. 样本属性描述要尽量详尽，如样本来源、物种属性、strain 信息等。以上便是上海翰宇与大家一起分析的数据提交经验概述了，希望对大家提交数据有所帮助。上海翰宇生物会以专业的能力和热忱的态度为您提供高通量测序及分析服务，期待与各位科研工作者的合作。

【本文地址】

公司简介

联系我们