r语言模糊聚类（真实案例完整流程）

2024-02-29 22:21| 来源: 网络整理| 查看: 265

算法介绍：

**概念：**模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性，通过建立模糊相似关系对客观事物进行聚类的分析方法【搜狗百科】

**模糊聚类分析：**模糊识别又称为模糊分类。从处理问题的角度来看，模糊识别可以分为有监督的分类和无监督的分类两种类型。在模糊理论中，一个元素与一个集合的关系不再是简单的属于或者不属于关系。而是属于，不属于，部分属于。

我们知道计算机只认识两个数字0,1。平时写程序也永远是这种模式：if 1 then do. 在这种模式中，一个元素要么属于这个集合，要么不属于这个集合，但是对我们现在介绍的模糊集来说，某个元素可能部分属于这个集合，又可能部分属于另外的集合，因此区别于经典数学的模糊理论引入的隶属函数跟经典数学中的隶属函数有所不同。经典数学中的隶属函数值域为{0,1}，而在模糊数学中的隶属函数值域则根据隶属程度在[0,1]。

举个例子：一个男性（用1表示），一个女性（用0表示），但是随着科学技术的发展，出现了人妖这个生物，那TA属于男性或者女性的的界限就有点模糊了，如果用0,1就显得不太恰当，这时我们可以认为0.4的概率属于男性，0.6的概率属于女性。跟以前的硬聚类不一样，模糊聚类属于软聚类，它允许一个对象属于多个簇。

FCM算法简介： FCM算法是基于对目标函数的优化基础上的一种数据聚类方法。聚类结果是每一个数据点对聚类中心的隶属程度，该隶属程度用一个数值来表示。FCM算法是一种无监督的模糊聚类方法，在算法实现过程中不需要人为的干预。FCM的C跟K-Means的K是一样的，指的是聚类的数目。F(Fuzzy)是模糊的意思，指的是”一个事件发生的程度“。

算法的不足之处:

需要设定一些参数，若参数的初始化选取的不合适，可能影响聚类结果的正确性；当数据样本集合较大并且特征数目较多时，算法的实时性不太好

具体算法过程如下：

建立数据矩阵；数据标准化：因为在实际的问题中，不同的数据可能有不同的量纲，为了能够比较，通常进行数据规格化。常用的方法有标准差标准法，极差正规化，最大值规格化；建立模糊相似矩阵，初始化隶属矩阵：求出x(i)与x(j)的相似关系矩阵，常用的方法有相似系数法，距离法，贴近度法，余弦法；算法开始迭代，直到目标函数收敛到极小值；根据迭代结果，由最后的隶属矩阵确定数据所属的类，显示最后的聚类结果。 R语言实现

建立数据矩阵：参考上一篇博文数据： https://blog.csdn.net/yawei_liu1688/article/details/79644364

setwd("E:/data") data_model

【本文地址】

公司简介

联系我们