两分钟看懂基因组注释GFF文件 您所在的位置:网站首页 序列的起始位置是什么 两分钟看懂基因组注释GFF文件

两分钟看懂基因组注释GFF文件

2024-07-10 18:40| 来源: 网络整理| 查看: 265

随着大数据时代的到来,很多生物科研工作者都接触了基因组相关实验。在做数据分析的时候,会用到一个很重要的文件,就是基因组的注释文件,也就是今天分享内容的主角GFF文件!

什么是GFF文件

GFF格式是Sanger研究所定义,是一种简单的、方便的对于DNA、RNA以及蛋白质序列的特征进行描述的一种数据格式,比如序列的哪里到哪里是基因。GFF格式已经成为序列注释的通用格式。

GFF文件包含了那些信息?

GFF文件由tab键隔开的9列组成,每一列代表不同的信息,下面是各列的说明:

第一列:参考序列,是chromosome or scaffold的编号

第二列:注释信息的来源,一般为数据库例或者注释的机构,如果未知,用“."代替

第三列:注释信息的类型,比如gene、mRNA、exon、CDS、UTR等

第四列:第三列的注释类型在参考序列上的起始位置

第五列:第三列的注释类型在参考序列上的终止位置

第六列:得分,是注释信息可能性的说明,可以是序列相似性比对时的E-values值或者基因预测是的P-values值,“.”表示为空

第七列:该基因或转录本位于参考序列的正链(+)或负链(-)上

第八列:这列注释信息仅对第三列为“CDS"的类型有效,表示起始编码的位置,有效值为0、1、2,0表示该编码框的第一个密码子第一个碱基位于其5'末端;1表示该编码框的第一个密码子的第一个碱基位于该编码区外;2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外

第九列:包含众多注释信息,以多个键值对组成的注释信息描述,不同属性之间以分号相隔,信息比较多我们一一解释:

ID--注释信息的编号,在一个GFF文件中必须唯一

Name--注释信息的名称,可以重复;

Alias--别名

Parent--指明feature所从属的上一级ID。用于将exons聚集成transcript,将transripts聚集成gene

Note--备注

Dbxref--数据库索引

以上就是基因组注释文件GFF所包含内容的一个详细的说明,看过之后有没有豁然开朗呢?

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有