R语言改进的K

2024-07-11 16:36| 来源: 网络整理| 查看: 265

全文链接：http://tecdat.cn/?p=32418 原文出处：拓端数据部落公众号

大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。

人们在投资时总期望以最小的风险获取最大的利益，面对庞大的股票市场和繁杂的股票数据，要想对股票进行合理的分析和选择，聚类分析就显得尤为重要。

在本文中，我们采用了改进K-means聚类法帮助客户对随机选择的个股进行了聚类，并对各类股票进行了分析，给出了相应的投资建议。

读取数据

股票盈利能力分析数据

data=read.xlsx("股票盈利能力分析.xlsx")

初始聚类中心个数

初始聚类中心数目k的选取是一个较为困难的问题。传统的K-means聚类算法需要用户事先给定聚类数目k，但是用户一般情况下并不知道取什么样的k值对自己最有利、或者说什么样的k值对实际应用才是最合理的，这种情况下给出k值虽然对聚类本身会比较快速、高效，但是对于一些实际问题来说聚类效果却是不佳的。所以，下面我提出一种确定最佳聚类个数k的方法。

算法描述与步骤：

输入：包含n个对象的数据集；

输出：使得取值最小的对应的k值。

（1）根据初步确定簇类个数k的范围；

（2）仍然是用K-means算法对的每一个k值分别进行聚类；

（3）分别计算不同聚类个数k所对应的的值；

（4）找出最小的值，记下对应的k值，算法结束。

S[1]=sum(abs(data[,3:9]-result$centers)^2)/min(abs(data[,3:9]-result$ce plot(2:6,S,type="b")

初始中心位置的选取

传统的K-means聚类算法中，我们总是希望能将孤立点对聚类效果的影响最小化，但是孤立点实际上在诈骗探测、安全性检测以及设备故障分析等方面起着不凡的作用；然而，本文排除以上这些因素，单纯地考虑聚类效果好坏。那么为了避免将孤立点误选为初始中心，我们选择高密度数据集合区域D中的数据作为聚类初始中心。

基本思想：

传统K-means聚类采用随机选择初始中心的方法一旦选到孤立点，会对聚类结果产生很大的影响，所以我们将初始中心的选择范围放在高密度区。首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点，再找出与这两个点的距离之和最大的点作为第3个初始中心，有了第3个初始中心，同样找到与已有的三个初始聚类中心距离和最远的点作为第4个初始中心，以此类推，直到在高密度区将k个聚类中心都找出来为止。

算法描述与步骤：

输入：包含n个对象的数据集，簇类数目k；

输出：k个初始聚类中心。

（1）计算n个数据样本中每个对象x的的密度，当满足核心对象的条件时，将该对象加到高密度区域D中去；

（2）在区域D中计算两两数据样本间的距离，找到间距最大的两个样本点作为初始聚类中心，记为；

（3）再从区域D中找出满足条件：的点，将作为第三个初始聚类中心；

（4）仍然从区域D中找出满足到前面三个聚类中心的距离和最大的点；

（5）按照同样的方法进行下去，直到找到第k个初始聚类中心，结束。

#首先在高密度区选择相距最远的两个样本点作为聚类的初始中心点，再找出与这两个点的距离之和最大的点作为第3个初始中心， dd=dist(data) dd=as.matrix(dd) #高密度区域 D=which(dd

【本文地址】

公司简介

联系我们