如何查找目标基因序列？掌握这几招就够了！（NCBI篇）

2023-07-27 04:50| 来源: 网络整理| 查看: 265

该页面会展示该基因具体信息，如上图展示的NCBI Gene ID、更新时间、官方名称、物种、及在其他数据库的链接。我们继续向下拖动页面，找到“NCBI Reference Sequences (RefSeq)”，点击代表mRNA记录的序列接收号，该编号通常以NM开头（图中红框）

04、页面跳转至核苷酸数据库，如下图：

从图中信息可知该基因来自小鼠NM_007771染色体，长度为3035bp，点击“FASTA”可快速查找和下载全基因序列。如下图，在页面右侧，点击“Send to”选项，然后选择“File”，点击“Creat File”按钮。

05、点击“GenBank”切换页面：

该页面除了提供基因序列外，还包含注释信息。我们下拉页面至完整序列信息：

从图中信息可知，编码区序列位于该基因的第584-2404号核苷酸，可结合已下载的全基因序列进行查看。

搜索未被RefSeq收录的基因序列

看到这里，相信有不少小伙伴已经摩拳擦掌，跃跃欲试了，然而在实际操作过程中，我们有时却会遇到这样的情况：用来进行转录组测序分析的参考基因组千真万确就是来自NCBI数据库，然而利用刚学会的方法，在NCBI-gene菜单里搜索相应的基因名却一无所获，这又是为什么呢？

为了回答这个问题，我们需要认识另一个NCBI数据库：GenBank，它是一个DNA序列数据库，收集了所有公开的DNA序列以及与之相关的生物学信息和参考文献，其最主要的信息来源就是作者的直接投递。同属于序列数据库，GenBank与上文提到的RefSeq存在一些区别，主要在于：GenBank是一个开放的数据库，很多研究者或者公司都可以自己提交序列；而RefSeq是经过NCBI筛选的非冗余数据库，可信度更高。

因此，当一段序列仅被GenBank收录，而未被RefSeq收录时，我们自然无法通过上文介绍的通过基因名跳转至相应RefSeq序列接收号的方式来进行查找了。解决办法其实很简单：直接下载全基因组序列，然后搜索基因名即可。具体操作如下：

01、找到参考基因组的编号：

根据有参转录组的结题报告，找到参考基因组的编号，如下图：

02、进入NCBI网站：

进入https://www.ncbi.nlm.nih.gov/，在左侧下拉菜单选择“Assembly”，输入刚才找到的基因组编号：

03、搜索及下载：

点击搜索，进入该基因组的组装信息界面，可见该基因组仅被录入GenBank而未被RefSeq收录（蓝框），因此我们选择下载基因组。点击右侧“Download the GenBank assembly”（图中红框）：

04、进入下载页面：

可选择下载CDS序列，或RNA序列（红框），这里我们选择下载CDS序列：

05、解压文件，查找目标基因：

下载完毕，解压后得到一个FASTA格式的序列文件。我们用EditPlus软件打开它，如下图。“locus_tag”即为该基因登记于GenBank的基因名。点击查找工具（图中红框）搜索目标基因名，即可获得相应CDS序列：

总结

看到这里，聪明的您应该已经察觉到了，查找目标基因序列的方法概括起来其实只有三步：确定数据库、输入基因信息、下载特定序列。这似乎与“如何将一只大象关进冰箱？”有异曲同工之妙：我们需要先选择一个合适的“冰箱”，是Ensembl还是NCBI？是Ensembl的脊椎动物、植物还是真菌库？是NCBI的RefSeq还是GenBank？此外，“塞大象的手法”也至关重要，尤其是在NCBI这个“冰箱”里，我们是搜GI号还是基因名？如果搜不到，我们该怎么把这只不愿意进入冰箱的大象“忽悠”进去？在成功地“把冰箱门关上”之后，我们又得到了什么？是全基因的序列，还是CDS序列？

最后，让我们再来回顾一下这张流程图，现在的您应该已经对此心中有数了。只要掌握了这些步骤，相信您一定能轻松而又准确地查找到目标序列。

返回搜狐，查看更多

【本文地址】

公司简介

联系我们