【sklearn练习】KMeans | 您所在的位置:网站首页 › 鸢尾花有哪些 › 【sklearn练习】KMeans |
文章目录
一、数据集探索二、数据预处理三、构建模型获取结果四、聚类结果可视化五、聚类模型评估① 轮廓系数② 卡林斯基 - 哈拉巴斯指数③ FMI评价法
一、数据集探索
X: Y: 返回顶部 二、数据预处理 不同特征之间往往具有不同的量纲,由此所造成的数值间的差异可能很大,在涉及空间距离计算或梯度下降法等情况的时候不对其进行处理会影响到数据分析结果的准确性。为了消除特征之间的量纲和取值范围差异可能会造成的影响,需对数据进行标准化处理,也可以称为规范化处理。在这里我们对数据集进行标准差标准化处理。 # 2.数据预处理 --- 标准差标准化 MMS = MinMaxScaler().fit(x) data = MMS.transform(x)处理后的数据集: 返回顶部 三、构建模型获取结果 # 3.构建KMeans模型训练数据 cluster = KMeans(n_clusters=3,random_state=123).fit(data) # 3.1 获取聚类结果 y_pred = cluster.labels_ # 3.2 获取质心 centers = cluster.cluster_centers_ # [[0.70726496 0.4508547 0.79704476 0.82478632], # [0.19611111 0.595 0.07830508 0.06083333], # [0.44125683 0.30737705 0.57571548 0.54918033]] # 3.3 查看簇内平方和 inertia = cluster.inertia_ # 6.982216473785234返回顶部 四、聚类结果可视化 这里我们的数据集是四维(包含四个特征),我们需要对其进行降维处理,降到二维平面使用散点图来进行展示。这里的降维采用TSNE。t-SNE(t-distributed stochastic neighbor embedding)是用于降维的一种机器学习算法,是由 Laurens van der Maaten 等在08年提出来。此外,t-SNE 是一种非线性降维算法,非常适用于高维数据降维到2维或者3维,进行可视化。 # 4.聚类结果可视化 from sklearn.manifold import TSNE # 进行数据降维处理 tsne = TSNE(n_components=2,init='random',random_state=177).fit(data) df = pd.DataFrame(tsne.embedding_) df['labels'] = y_pred 降维后的数据集![]() 返回顶部 五、聚类模型评估KMeans聚类模型评估指标参见:【skLearn 聚类算法】KMeans ![]() 返回顶部 ② 卡林斯基 - 哈拉巴斯指数返回顶部 ③ FMI评价法 # 5.3 FMI评价法 --- 需要有真实标签 from sklearn.metrics import fowlkes_mallows_score fms = [] for i in range(2,15): # 构建聚类模型 kmeans = KMeans(n_clusters=i,random_state=112).fit(data) fmsScore = fowlkes_mallows_score(y,kmeans.labels_) fms.append(fmsScore) plt.figure(figsize=(10, 8)) plt.plot(range(2, 15), fms, linewidth=1.5, linestyle='-') plt.show() 由图可以看出,当n_cluster=3的时候,FMI评分最高,聚类效果较好。![]() 返回顶部 本文章相关源码下载:https://download.csdn.net/download/qq_45797116/74865557 |
CopyRight 2018-2019 实验室设备网 版权所有 |