为基因序列片段在NCBI的GenBank数据库申请登录号 您所在的位置:网站首页 ncbi提交序列多久能拿到登录号 为基因序列片段在NCBI的GenBank数据库申请登录号

为基因序列片段在NCBI的GenBank数据库申请登录号

#为基因序列片段在NCBI的GenBank数据库申请登录号| 来源: 网络整理| 查看: 265

本文详细地介绍了如何为一个基因序列片段在NCBI的基因数据库GenBank上申请登录号。

微生物领域的研究者或许都有接触过菌的纯化培养,当培养出一个非常符合预期的菌,你一定会迫不及待地想知道这菌是一个什么属或什么种,或许还想为这菌的基因序列在NCBI的GenBank上申请一个登录号呢。当完成测序与预处理后,得到组装好的,去除嵌合体与低质量碱基的序列,你就可以上手了。这让我回想到了前一阵子帮助好友用一段16SrRNA基因序列在GenBank成功申请了一个登录号。因为申请过程比较坎坷,心想或许也有其他朋友也有类似的问题吧。于是,我结合自己所学与实操经验,作为一个分享,希望可以帮助到广大微生物学相关领域的朋友们(以原核微生物的一段16SrRNA基因序列申请登录号为示例)。

前提:如果想知道自己获取原核生物16SrRNA基因序列片段来源于哪个菌属或菌种,同时想要在GenBank上申请一个登录号,那么你拥有的这段基因序列必须满足以下条件:第一,所有序列均来源于原核微生物;第二,所有序列属于16SrRNA基因序列;第三,微生物来源于未培养的环境或纯培养菌株;第四,来自454、Illumina 或下一代测序技术的序列必须先被组装或处理成 OTU、bins 或单独的系统发育型才可能被录用。

P.S:组装好了的16SrRNA基因序列其实并不复杂,最简单的形式就是把序列保存在文本文件,或保存为FASTA文件。

其中文本文件类似下图所示,这也是接下来被用作申请GenBank的登录号的基因序列(仅作演示,非真实序列)。

怎么判断我们获得的基因片段来源于哪个菌属或那个菌种呢?

首先,登陆BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi),界面如下:

然后点击“Nucleotide BLAST”按钮进入核苷酸序列比对,界面如下:

在“Enter accession number(s), gi(s), or FASTA sequence(s)”处输入需要比对的细菌核苷酸序列,本次示例选择的是上述文本文件内的序列;“Job Title”输入一个标识,用以区分,本示例选择DO666666;“Database”选择“rRNA/ITS databases”>“16S ribosomal RNA sequences (Bacteria and Archaea)”;勾选“Show results in a new window”。最后点击“BLAST”进行对比。对比结果如下图所示:

可见,相似度前10的基因序列都来自于“Pseudomonas”,所以基本可以判定培养的菌也属于“Pseudomonas(假单胞菌属)”,但是具体是什么菌种暂时无法明确,一般相似度大于97%可以认为是同种。这里我们可以暂定相似度最高的“nitrititolerans(亚硝酸酯菌)”。

如何为基因片段申请GenBank登录号?

第一步,登陆网址(https://submit.ncbi.nlm.nih.gov/subs/genbank/),如下图所示。点击“Log in”登录你的NCBI账号。

如果你是初次登录,并且没有Google与Facebook账户的话,建议直接使用“Microsoft”微软账户登录(仅需输入微软账户的密码或PIN即可完成注册并登录)。

如果使用微软账户注册的话,下次就可以快捷登陆了,直接点击“Log in again with Microsoft live.com”完成登陆(如下图)。

登录成功后,界面如下:

点击“New submission”开始上传。

1 提交类型

依次选择“rRNA or rRNA-ITS”> “Prokaryotic rRNA or rRNA-IGS”> “small subunit rRNA only (16S rRNA)”,点击“Continue”继续下一步。

2 提交者

大家可以根据自己所在单位具体信息完成表格(下方以清华大学为例),点击“Continue”继续下一步。

提示:系统总是提示“Email(secondary)”选项使用网易邮箱与QQ邮箱会导致无法接受到反馈信息,其实完全不会,我就是QQ邮箱收的反馈信。但是系统非要一个“Email(secondary)”,Google服务器最近连不上导致收不到邮件,你可以去Outlook官网申请一个邮箱。

3 测序技术

根据自己的测序工作情况,选择正确的测序方法(一般纯菌测序选择“Sanger dideoxy sequencing”平台,而环境全基因组选择“Illumina”等高通量测序平台),组装状态(本次示例属于已组装)。点击“Continue”继续下一步。

4 序列

根据自己的需求选择何时公布序列信息;告知系统是否提前去除低质量序列与嵌合体序列,以及是使用什么工具完成的;告知系统你是如何获取菌株的?(实验室纯化培养或自然环境筛选);上传序列(本次以.txt文本文件上传)。点击“Continue”继续下一步。

5 源编辑

此步骤只有“Organism”与“Strain”选项是必填,本示例分别填写的是“Pseudomonas”与“DO666666”。点击“Continue”继续下一步。

那为什么“Organism”是“Pseudomonas”与“Strain”是“DO666666”呢?我先解释一下,“Strain”是序列拥有者给该序列的一种自定义命名,只是单纯赋予一个名字。但是“Organism”的命名就比较讲究了,因为这往往是与GenBank基因库对比得出的结果,即是本文开始时通过BLAST判断出序列来源于什么菌属或菌种。提交基因库审核时也会进行自动对比,如果存在明显出入时,系统也会报错(分类错误)。

P.S:我们可以这样去理解任一基因序列片段,“Organism”,“Strain”与登录号之间的关系。基因序列片段如同一个“新生儿”;“Organism”像“Last(family)name”,它的来源菌一开始就被确定,无法更改;“Strain”则类似于“First(given)name”,由“创造者”或“发现者”命名,没有具体命名规则;序列登录号拥有唯一识别ID,这更像序列的“身份证号”。

6 参考

填写序列的作者姓名与公布状态,点击“Continue”继续下一步。

7 核查&提交

在本界面上下滑动条带检查提交的审核信息,并按“Submit”完成提交。

如果没有问题,一般系统会在10分钟内发“申请成功”的邮件给预留的邮箱内(其中就包括申请到的序列登录号)。

这篇推文对你有帮助吗?喜欢这篇文章吗?喜欢就不要错过呀,关注本知乎号查看更多的环境微生物生信分析相关文章。亦可以用微信扫描下方二维码关注“环微分析”微信公众号,小编在里面载入了更加完善的学习资料供广大生信分析研究者爱好者参考学习,也希望读者们发现错误后予以指出,小编愿与诸君共同进步!!!

学习环境微生物分析,关注“环微分析”公众号,持续更新,开源免费,敬请关注!

转载自原创文章:

为基因序列片段在NCBI的GenBank数据库申请登录号​

最后,再次感谢你阅读本篇文章,真心希望对你有所帮助。感谢!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有