生物信息学三大数据库NCBI

2023-12-16 09:35| 来源: 网络整理| 查看: 265

NCBI

NCBI (National Center for Biotechnology Information，美国国立生物技术信息中心）于1988年11月4日建立，是NIH（美国国立卫生研究院）的NLM（国立医学图书馆）的一个分支。目的是通过提供在线生物学数据和生物信息学分析工具来帮助人类更好的认知生物学问题。目前有将近40个在线的文库和分子生物学数据库，包括：PubMed, PubMed Central, and GenBank等。网址： https://www.ncbi.nlm.nih.gov/

一、任务

为储存和分析分子生物学、生物化学、遗传学知识创建自动化系统；从事研究基于计算机的信息处理过程的高级方法，用于分析生物学上重要的分子和化合物的结构与功能；促进生物学研究人员和医护人员应用数据库和软件；努力协作以获取世界范围内的生物技术信息。

二、内容

1.文献数据库

包括：PubMed,PubMed Central,Books等

2.序列资源库

包括人，小鼠，果蝇，线虫等各种物种的基因组数据库

包含DNA，RNA，蛋白等各种类型的数据

如：SNP,GEO,SRA等

3.常用序列分析工具

Entrez – 数据挖掘的工文本条件查询工具（Text Term Searching）来自于超过10万个种物的核酸和蛋白序列数据，连同蛋白三维结构，基因组图谱信息和文献信息检索网址：https://www.ncbi.nlm.nih.gov/gquery/

BLAST – 序列比对工具

https://blast.ncbi.nlm.nih.gov/Blast.cgi

4.数据下载与上传

数据下载接口：ftp://ftp.ncbi.nlm.nih.gov/

上传的工具有：Sequin，tbl2asn等，链接地址：https://www.ncbi.nlm.nih.gov/guide/data-software/

5.其他合作项目

比较常用的就是检索文献，检索序列，比对序列。了解更多内容可以参考官网手册：https://www.ncbi.nlm.nih.gov/books/NBK143764/

参考资料

https://baike.baidu.com/item/NCBI/3598184?fr=aladdin

https://www.ncbi.nlm.nih.gov/books/NBK143764/

1.1 NCBI GEO

基因表达数据库(GEO,Gene Expression Omnibus database，https://www.ncbi.nlm.nih.gov/geo/ )是由NCBI负责维护的一个数据库，设计初衷是为了收集整理各种表达芯片数据，但是后来也加入了甲基化芯片，lncRNA，miRNA，CNV芯片等各种芯片，甚至高通量测序数据,是目前最大、最全面的公共基因表达数据资源。所有的数据均可以在ftp站点下载：ftp://ftp-trace.ncbi.nih.gov/geo/.

一、GEO数据库基础知识

GEO Dataset (GDS) 数据集的ID号 GEO Series (GSE) study的ID号 GEO Platform (GPL) 芯片平台 GEO Sample (GSM) 样本ID号这些数据都可以在ftp里面直接下载。

二、数据上传

上传的方式：

网页 Excel表格软件 MINiML格式上传详细上传方法，参见：https://www.ncbi.nlm.nih.gov/geo/info/submission.html

提交Affymetrix芯片数据到GEO数据库 http://www.biotrainee.com/thread-810-1-1.html

三、数据挖掘

Entrez GEO-DataSets 官网： http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gds

收录整个实验数据，可以通过技术类型，作者，物种和实验变量等信息来进行搜索。一旦相关数据被查询到，可以通过提供上面的小工具做一些分析，比如：热电图分析，表达分析，亚群的影响等

2.Entrez GEO-Profiles

官网：https://www.ncbi.nlm.nih.gov/geoprofiles/

收录单个基因的表达谱数据。可以通过基因名字，GenBank编号，SAGE标签，GEO编号等来进行搜索

3.GEO BLAST

GEO Blast界面容许用户根据核酸序列的相似性来搜索相关的GEO-Profiles 所有的BLAST结果中“E”的标签代表这个数据跟GEO-Profiles表达数据相关。

数据下载我们一般是拿到了GSE的study ID号，然后直接把什么的url修改一下，就可以看到关于该study的所以描述信息，是用的什么测序平台(芯片数据，或者高通量测序)，测了多少个样本，来自于哪篇文章！所有需要的数据均可以下载，而且都是在上面的ftp里面可以根据规律去找到的，甚至可以自己拼接下载的url链接，来做批量化处理！

例如：用GSE75528，则在https://www.ncbi.nlm.nih.gov/geo/ 官网上直接搜索GSE75528 或直接输入 https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE75528 修改这个url最末尾的GSE号码就可以进入自己想去的任何研究的GEO页面。

如果是芯片数据，那么就需要自己仔细看GPL平台里面关于每个探针对应的注释信息，才能利用好别人的数据。如果是高通量测序数据，一般要同步进入该GSE对应的SRA里面去下载sra数据，然后转为fastq格式数据，自己做处理！

1.2 NCBI SRA

跟GEO类似,NCBI的SRA（Sequence ReadArchive，https://www.ncbi.nlm.nih.gov/sra/ ）数据库是专门用于存储二代测序的原始数据，包括 454, IonTorrent, Illumina, SOLiD, Helicos and CompleteGenomics等。除了原始序列数据外，SRA现在也存raw reads在参考基因的aligment information。

该数据库也是International Nucleotide Sequence Database Collaboration (INSDC) 的一部分。INSDC包含：NCBI Sequence Read Archive (SRA), European Bioinformatics Institute (EBI), 和 DNA Database of Japan (DDBJ)。数据提交给其中任何一个数据库中后，数据都是共享的。

一、数据库结构

每个数据库都有自己最小的可发表单元。例如：PubMed最小可发表单元是一篇文献，SRA中最小可发表单元是一次实验（标签为：SRX#）。

NCBI中SRA数据结构的层次关系：Studies,Experiments, Samples，Runs:

Studies是就实验目标而言的，一个study可能包含多个experiment。 Experiments包含了样本，DNA source，测序平台，数据处理等信息。一个experiment可能包含一个或多个runs。 Runs 表示测序仪运行所产生的reads. SRA数据库用不同的前缀加以区分：ERP or SRP for Studies, SRS for samples, SRX for Experiments, and SRR for Runs。

二、数据上传

登陆NCBI账号

注册你的项目和生物样本

注册项目：https://www.ncbi.nlm.nih.gov/bioproject/

注册样本：https://www.ncbi.nlm.nih.gov/biosample/

上传SRA数据

上传SRA metadata (关于该项目、实验的等信息)

上传序列数据

更详细的说明，参见 https://www.ncbi.nlm.nih.gov/sra/docs/submit/

三、数据下载

如果要下载每个study对应的runs的所有数据，我们需要下载安装SRA Toolkit！

链接地址： http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software

SRA toolkit常用命令的说明文档见：

http://www.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=toolkit_doc。

这里我们需要使用prefetch命令进行下载

$prefetch SRR776503 SRR776505 SRR776506

下载完成后，会在你的工作主目录下生成一个ncbi的文件夹。

sra子文件夹中的.sra文件就是对应的runs文件。 ‘.sra’的后缀是SRA数据库对fastq文件的特殊压缩。使用前，我们需要将其解压为fastq文件。SRA Toolkit 包含了解压函数fastq-dump :$fastq-dump SRR776503.sra

通过命令行来下载

for ((i=204;i

【本文地址】

公司简介

联系我们