What:什么是GO和KEGG?
GO全称是Gene Ontology,它分为:细胞组分(cellular component, CC)、分子功能(molecular function, MF)、生物过程(biological process, BP),那这三者有什么关系呢?,大概就是母鸡A被养在鸡笼里,它能够下鸡蛋,但是前提是我往笼子里再放一只公鸡后才能下蛋,在这个比喻里,鸡笼就是CC,下蛋这个动作是BP,而放进公鸡就是这个过程的催化作用,所以是MF。用科研专业术语来说,CC描述的像是位置,比如定位在细胞核;BP是一种生物学过程,比如细胞粘附;MF是一种功能或者职能,比如我们熟悉的酶。 那KEGG又是什么呢?在上面的故事里,有了公鸡母鸡,那还差小鸡,我们把基因看成小鸡,一群小鸡找自己的兄弟姐妹认亲最后回到特定母鸡身边,这个过程就是KEGG,也就是我们常说的找通路。这个通路不一定准确,但是帮助理解应该没问题。
Why:为什么要做GO和KEGG?
如果你手上拿到一个基因list,里面有500个基因,你要怎么确定哪些基因可能跟你要研究的通路或者表型有关呢?你要怎么知道这些基因哪些可以认为是一伙的呢?你要怎么透过这乱花渐欲迷人眼的现象,去找寻这些基因背后的规律呢? 引用:公众号:解螺旋
library(clusterProfiler)
library(AnnotationHub)
#AnnotationHub可以看作是生物数据的中转站,方面我们搜索目标数据,另一个相似包是biomaRt
library(AnnotationDbi)
library(ggplot2)
#BiocManager::install("org.Hs.eg.db", version = "3.8")
#具体物种对应的R包名字看这页:
library(org.Hs.eg.db)
#查看有哪些ID
keytypes(org.Hs.eg.db) #人类
[1] "ACCNUM" "ALIAS" "ENSEMBL" "ENSEMBLPROT"
[5] "ENSEMBLTRANS" "ENTREZID" "ENZYME" "EVIDENCE"
[9] "EVIDENCEALL" "GENENAME" "GO" "GOALL"
[13] "IPI" "MAP" "OMIM" "ONTOLOGY"
[17] "ONTOLOGYALL" "PATH" "PFAM" "PMID"
[21] "PROSITE" "REFSEQ" "SYMBOL" "UCSCKG"
[25] "UNIGENE" "UNIPROT"
导入数据·
setwd('D:\\GEO数据挖掘与meta分析\\练习\\18.GO富集(代码)\\18.GO富集(代码)')
deg |