基因芯片（Affymetrix）分析5：聚类分析

2024-07-06 11:45| 来源: 网络整理| 查看: 265

聚类又称非监督分类，是一种探索性数据分析（Exploratory Data Analysis, EDA）方法，其目的是把有限数量的事物划分到若干“自然”的类别中。芯片结果的聚类分析很复杂，因为聚类本身就是个复杂的问题，聚类后的结果解析则更复杂。

在芯片数据分析中为什么要进行基因的聚类分析？主要是为了了解未知基因的功能。通过聚类分析我们把基因按某些特性（表达规律）分成若干类别，聚合成同一类的基因在表达上有相似规律，它们很可能具有某些类似的功能。基于这一假设，我们可以通过了解某一类别中已知功能的基因进一步分析其他未知基因的功能。

聚类分析方法（算法）大体上可分为层次聚类（hierarchical clustering）和分配聚类（partitional clustering）两种，其中层次聚类在芯片分析中用得比较多。经典的层次聚类也有两种：凝聚式层次聚类法（agglomerative hierarchical clustering）和分裂式层次聚类（divisive hierarchical clustering）。凝聚式层次聚类法先把N个基因当成N个独立的簇（或称群、类），通过逐个合并最相似的项最终归为一个簇；而分裂式层次聚类正好相反。

R语言发展到今天，研究者为聚类分析软件包的开发做出了大量的贡献（衷心地感谢他们），使用者有很多选择。读者可以从CRAN的Task view页面做进一步的了解。

1 计算距离：

先读入我们前面保存的分析数据：

data.fc

【本文地址】

公司简介

联系我们