clusterProfiler的GO/KEGG富集分析用法小结 您所在的位置:网站首页 dotplot颜色 clusterProfiler的GO/KEGG富集分析用法小结

clusterProfiler的GO/KEGG富集分析用法小结

2023-04-12 23:00| 来源: 网络整理| 查看: 265

clusterProfiler这个R包主要是做GO和KEGG的功能富集及其可视化。

首先考虑一个问题:clusterProfiler做GO和KEGG富集分析的注释信息来自哪里?

GO的注释信息来自Bioconductor,提供了19个物种的org类型的GO注释信息,如下表所示。Bioconductor中更多的注释包可参考http://www.bioconductor.org/packages/release/data/annotation/,很乱,大多数我都不知道干啥用的。

packages organism org.Ag.eg.db Anopheles org.At.tair.db Arabidopsis org.Bt.eg.db Bovine org.Ce.eg.db Worm org.Cf.eg.db Canine org.Dm.eg.db Fly org.Dr.eg.db Zebrafish org.EcK12.eg.db E coli strain K12 org.EcSakai.eg.db E coli strain Sakai org.Gg.eg.db Chicken org.Hs.eg.db Human org.Mm.eg.db Mouse org.Mmu.eg.db Rhesus org.Pf.plasmo.db Malaria org.Pt.eg.db Chimp org.Rn.eg.db Rat org.Sc.sgd.db Yeast org.Ss.eg.db Pig org.Xl.eg.db Xenopus

KEGG的注释信息clusterProfiler通过KEGG 数据库的API来获取,https://www.kegg.jp/kegg/rest/keggapi.html。

首先是一个物种所有基因对应的pathway注释文件,比如人的:http://rest.kegg.jp/link/hsa/pathway。 其次还需要pathway对应的描述信息,比如人的: http://rest.kegg.jp/list/pathway/hsa。

关于KEGG数据库全部的物种及其简写(三个字母)如下列表: https://www.genome.jp/kegg/catalog/org_list.html。

因此对于以上已有pathway注释的物种,只需要将物种简写输入给clusterProfiler, 它会通过联网自动获取该物种的pathway注释信息。

以上都是有物种信息的情况,那么对于无物种信息的项目怎么办?

GO可以通过读取外部的GO注释文件进行分析。关于基因的GO注释,interproscan、eggnog-mapper和blas2go等软件都可以做,不过输出格式有些不同。clusterProfiler需要导入的GO注释文件的格式如下:

GeneID GO GO_Description 1 GO:0005819 spindle 2 GO:0072686 mitotic spindle 3 GO:0000776 kinetochore

需要包含以上三列信息,这3列信息任意顺序都可。

clusterProfiler包只针对含有OrgDb对象,如果是公共数据库中有该物种注释信息,只是未制作成org.db数据库(标准注释库),则可以不需要从头注释,只需手动制作org.db数据库类型,完成后直接使用即可,代码如下:

source("https://bioconductor.org/biocLite.R") if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("AnnotationHub") # 一个包含大量注释信息的数据库,里面有很多物种及来源于很多数据库的注释信息。 BiocManager::install("biomaRt") library(AnnotationHub) library(biomaRt) hub


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

      专题文章
        CopyRight 2018-2019 实验室设备网 版权所有