10种最频繁使用的聚类算法(附Python代码) | 您所在的位置:网站首页 › sklearn安装指定版本 › 10种最频繁使用的聚类算法(附Python代码) |
10 种最频繁使用的聚类算法(附 Python 代码)
来自网络
聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术, 用于发现数据中的有趣模式,例如基于其行为的客户群。有许多聚类 算法可供选择,对于所有情况,没有单一的最佳聚类算法。相反,最 好探索一系列聚类算法以及每种算法的不同配置。在本教程中,你将 发现如何在 python 中安装和使用顶级聚类算法。
完成本教程后,你将知道:
•
聚类是在输入数据的特征空间中查找自然组的无监督问题。
•
对于所有数据集,有许多不同的聚类算法和单一的最佳方法。
•
在 scikit-learn 机器学习库的 Python 中如何实现、适配和使用 顶级聚类算法。
教程概述
本教程分为三部分:
一、聚类
聚类分析,即聚类,是一项无监督的机器学习任务。它包括自动 发现数据中的自然分组。与监督学习(类似预测建模)不同,聚类算 法只解释输入数据,并在特征空间中找到自然组或群集。
聚类技术适用于没有要预测的类,而是将 实例划分为自然组的情况。
—源自:《数据挖掘页:实用机器学习工 具和技术》 2016 年。
群集通常是特征空间中的密度区域,其中来自域的示例(观测或 数据行)比其他群集更接近群集。群集可以具有作为样本或点特征空 间的中心 ( 质心 ) ,并且可以具有边界或范围。
这些群集可能反映出在从中绘制实例的域 中工作的某种机制,这种机制使某些实例彼此 具有比它们与其余实例更强的相似性。
|
CopyRight 2018-2019 实验室设备网 版权所有 |