当前位置：首页>>航空航天

聚类分析法（聚类分析法的优缺点）

91165.jcyztgov.com
航空航天
2026-02-06 10:20:21
64287
admin

今天给各位分享聚类分析法的聚类知识，其中也会对聚类分析法的分析法聚优缺点进行解释，如果能碰巧解决你现在面临的类分问题，别忘了关注本站，析法现在开始吧！缺点

聚类分析方法有哪些

问题一：什么是聚类聚类分析？聚类算法有哪几种聚类分析又称群分析，它是分析法聚研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于

分类学，类分在古老的析法分类学中，人们主要依靠经验和专业知识来实现分类，缺点很少利用数学工具进行

定量的聚类分类。随着人类科学技术的分析法聚发展，对分类的类分要求越来越高，以致有时仅凭经验和专业知识

难以确切地进行分类，析法于是缺点人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种：分裂法(partitioning methods)：层次法(hierarchical

methods)：基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

问题二：聚类分析方法有什么好处 5分聚类分析：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似。

常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。

注意事项：

1. 系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；

2. K-均值法要求分析人员事先知道样品分为多少类；

3. 对变量的多元正态性，方差齐性等要求较高。

应用领域：细分市场，消费行为划分，设计抽样方案等

优点：聚类分析模型的优点就是直观，结论形式简明。

缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映珐试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

问题三：什么是聚类分析？聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于

分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行

定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识

难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种：分裂法(partitioning methods)：层次法(hierarchical

methods)：基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

问题四：常用的聚类方法有哪几种?? 1.k-mean聚类分析适用于样本聚类；

2.分层聚类适用于对变量聚类；

3.两步搐类适用于分类变量和连续变量聚类；

4.基于密度的聚类算法；

5.基于网络的聚类；

6.机器学习中的聚类算法；

前3种，可用spss简单操作实现；

问题五：spss聚类分析方法有哪些首先，k-means你每次算的结果都会不一样，因为结果跟初始选取的k个点有关

问题六：聚类分析方法是什么？ 5分聚类分析：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

问题七：聚类分析的算法聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。传统的聚类算法可以被分为五类：划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：k-means,k-medoids,CLARA(Clustering LARge Application),CLARANS(Clustering Large Application based upon RANdomized Search).FCM2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种操作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。ROCK方法，它利用聚类间的连接进行聚类合并。CHEMALOEN方法，它则是在层次聚类时构造动态模型。3 基于密度的方法，根据密度完成对象的聚类。它根据对象周围的密度（如DBSCAN）不断增长聚类。典型的基于密度方法包括：DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。4 基于网格的方法，首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。5 基于模型的方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括：统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.传统的聚类算法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性，在处理许多问题时，现有的算法经常失效，特别是对于高维数据和大型数据的......

问题八：主成分分析法和聚类分析法的区别

问题九：聚类分析方法具体有哪些应用？可不可以举个例子？比如说现在要把n个产品按产品的m个指标继续聚类，因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个，不可能一个一个的考虑，那样是分不出类来的。所以只能对产品的m个指标综合考虑，采用SPSS中的样本聚类方法，就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。。就是最主要的分类标准是什么。

聚类分析不仅可以用于样本聚类，还可以用于变量聚类，就是对m个指标进行聚类。因为有时指标太多，不能全部考虑，需要提取出主要因素，而往往指标之间又有很多相关联的地方，所以可以先对变量聚类，然后从每一类中选取出一个代表型的指标。这样就大大减少了指标，并且没有造成巨大的信息丢失。

聚类分析法

聚类分析，亦称群分析或点分析，是研究多要素事物分类问题的数量方法。其基本原理是，根据样本自身的属性，用数学方法按照某些相似性或差异性指标，定量地确定样本之间的亲疏关系，并按亲疏关系的程度对样本进行聚类（徐建华，1994）。

聚类分析方法，应用在地下水中，是在各种指标和质量级别标准约束条件下，通过样品的各项指标监测值综合聚类，以判别地下水质量的级别。常见的聚类分析方法有系统聚类法、模糊聚类法和灰色聚类法等。

（一）系统聚类法

系统聚类法的主要步骤有：数据标准化、相似性统计量计算和聚类。

1.数据标准化

在聚类分析中，聚类要素的选择是十分重要的，它直接影响分类结果的准确性和可靠性。在地下水质量研究中，被聚类的对象常常是多个要素构成的。不同要素的数据差异可能很大，这会对分类结果产生影响。因此当分类要素的对象确定之后，在进行聚类分析之前，首先对聚类要素进行数据标准化处理。

假设把所考虑的水质分析点（G）作为聚类对象（有m个），用i表示（i=1，2，…，m）；把影响水质的主要因素作为聚类指标（有n个），用j表示（j=1，2，…，n），它们所对应的要素数据可用表4-3给出。在聚类分析中，聚类要素的数据标准化的方法较多，一般采用标准差法和极差法。

表4-3 聚类对象与要素数据

对于第j个变量进行标准化，就是将xij变换为x′ij。

（1）总和标准化

区域地下水功能可持续性评价理论与方法研究

这种标准化方法所得的新数据x′ij满足

区域地下水功能可持续性评价理论与方法研究

（2）标准差标准化

区域地下水功能可持续性评价理论与方法研究

式中：

；

由这种标准化方法所得的新数据x′ij，各要素的平均值为0，标准差为1，即有

区域地下水功能可持续性评价理论与方法研究

（3）极差标准化

区域地下水功能可持续性评价理论与方法研究

经过这种标准化所得的新数据，各要素的极大值为1，极小值为0，其余的数值均在［0，1］闭区间内。

上述式中：xij为j变量实测值；xj为j变量的样本平均值；sj为样本标准差。

2.相似性统计量

系统聚类法要求给出一个能反映样品间相似程度的一个数字指标，需要找到能量度相似关系的统计量，这是系统聚类法的关键。

相似性统计量一般使用距离系数和相似系数进行计算。距离系数是把样品看成多维空间的点，用点间的距离来表示研究对象的紧密关系，距离越小，表明关系越密切。相似系数值表明样本和变量间的相似程度。

（1）距离系数

常采用欧几里得绝对距离，其中i样品与j样品距离dij为

区域地下水功能可持续性评价理论与方法研究

dij越小，表示i，j样品越相似。

（2）相似系数

常见的相似系数有夹角余弦和相关系数，计算公式为

1）夹角余弦

区域地下水功能可持续性评价理论与方法研究

在式（4-20）中：-1≤cosθij≤1。

2）相关系数

区域地下水功能可持续性评价理论与方法研究

式中：dij为i样品与j样品的欧几里得距离；cosθij为i样品与j样品的相似系数；rij为i样品与j样品的相关系数；xik为i样品第k个因子的实测值或标准化值；xjk为j样品第k个因子的实测值或标准化值；

为i样品第k个因子的均值，

；

为j样品第k个因子的均值，

；n为样品的数目；k为因子（变量）数。

3.聚类

在选定相似性统计量之后，根据计算结果构成距离或相似性系数矩阵（n×n），然后通过一定的方法把n个样品组合成不同等级的分类单位，对类进行并类，即将最相似的样品归为一组，然后，把次相似的样品归为分类级别较高的组。聚类主要有直接聚类法、距离聚类法（最短距离聚类法、最远距离聚类法）。

（1）直接聚类法

直接聚类法，是根据距离或相似系数矩阵的结构一次并类得到结果，是一种简便的聚类方法。它首先把各个分类对象单独视为一类，然后根据距离最小或相似系数最大的原则，依次选出一对分类对象，并成新类。如果一对分类对象正好属于已归的两类，则把这两类并为一类。每一次归并，都划去该对象所在的列与列序相同的行。经过n-1次把全部分类对象归为一类，最后根据归并的先后顺序作出聚类分析谱系图。

（2）距离聚类法

距离聚类法包括最短距离聚类法和最远距离聚类法。最短距离聚类法具有空间压缩性，而最远距离聚类法具有空间扩张性。这两种聚类方法关于类之间的距离计算可以用一个统一的公式表示：

区域地下水功能可持续性评价理论与方法研究

当γ=-0.5时，式（4-22）计算类之间的距离最短；当γ=0.5时，式（4-22）计算类之间的距离最远。

最短、最远距离法，是在原来的n×n距离矩阵的非对角元素中找出dpq=min（dij）或dpq=max（dij），把分类对象Gp和Gq归并为一新类Gr，然后按计算公式：

dpq=min（dpk，dqk）（k≠ p，q）（4-23）

dpq=max（dpk，dqk）（k≠ p，q）（4-24）

计算原来各类与新类之间的距离，这样就得到一个新的（n-1）阶的距离矩阵；再从新的距离矩阵中选出最小或最大的dij，把Gi和Gj归并成新类；再计算各类与新类的距离，直至各分类对象被归为一类为止。最后综合整个聚类过程，作出最短距离或最远距离聚类谱系图（图4-1）。

图4-1 地下水质量评价的聚类谱系图

（二）模糊聚类法

模糊聚类法是普通聚类方法的一种拓展，它是在聚类方法中引入模糊概念形成的。该方法评价地下水质量的主要步骤，包括数据标准化、标定和聚类3个方面（付雁鹏等，1987）。

1.数据标准化

在进行聚类过程中，由于所研究的各个变量绝对值不一样，所以直接使用原始数据进行计算就会突出绝对值大的变量，而降低绝对值小的变量作用，特别是在进行模糊聚类分析中，模糊运算要求必须将数据压缩在［0，1］之间。因此，模糊聚类计算的首要工作是解决数据标准化问题。数据标准化的方法见系统聚类分析法。

2.标定与聚类

所谓标定就是计算出被分类对象间的相似系数rij，从而确定论域集U上的模糊相似关系Rij。相似系数的求取，与系统聚类分析法相同。

聚类就是在已建立的模糊关系矩阵Rij上，给出不同的置信水平λ（λ∈［0，1］）进行截取，进而得到不同的分类。

聚类方法较多，主要有基于模糊等价关系基础上的聚类与基于最大树的聚类。

（1）模糊等价关系方法

所谓模糊等价关系，是指具有自反性（rii=1）、对称性（rij=rji）与传递性（R·R⊆R）的模糊关系。

基于模糊等价关系的模糊聚类分析方法的基本思想是：由于模糊等价关系R是论域集U与自己的直积U×U上的一个模糊子集，因此可以对R进行分解，当用λ-水平对R作截集时，截得的U×U的普通子集Rλ就是U上的一个普通等价关系，也就是得到了关于U中被分类对象元素的一种。当λ由1下降到0时，所得的分类由细变粗，逐渐归并，从而形成一个动态聚类谱系图（徐建华，1994）。此类分析方法的具体步骤如下。

第一步：模糊相似关系的建立，即计算各分类对象之间相似性统计量。

第二步：将模糊相似关系R改造为模糊等价关系R′。模糊等价关系要求满足自反性、对称性与传递性。一般而言，模糊相似关系满足自反性和对称性，但不满足传递性。因此，需要采用传递闭合的性质将模糊相似关系改造为模糊等价关系。改造的方法是将相似关系R自乘，即

R2=R·R

R4=R2·R2

︙

这样计算下去，直到：R2k=Rk·Rk=Rk，则R′=Rk便是一个模糊等价关系。

第三步：在不同的截集水平下进行聚类。

（2）最大树聚类方法

基于最大树的模糊聚类分析方法的基本思路是：最大树是一个不包含回路的连通图（图4-2）；选取λ水平对树枝进行截取，砍去权重低于λ 的枝，形成几个孤立的子树，每一棵子树就是一个类的集合。此类分析方法的具体步骤如下。

图4-2 最大聚类支撑树图

第一步：计算分类对象之间的模糊相似性统计量rij，构建最大树。

以所有被分类的对象为顶点，当两点间rij不等于0时，两点间可以用树干连接，这种连接是按rij从大到小的顺序依次进行的，从而构成最大树。

第二步：由最大树进行聚类分析。

选择某一λ值作截集，将树中小于λ值的树干砍断，使相连的结点构成一类，即子树，当λ由1到0时，所得到的分类由细变粗，各结点所代表的分类对象逐渐归并，从而形成一个动态聚类谱系图。

在聚类方法中，模糊聚类法比普通聚类法有较大的突破，简化了运算过程，使聚类法更易于掌握。

（三）灰色聚类法

灰色聚类是根据不同聚类指标所拥有的白化数，按几个灰类将聚类对象进行归纳，以判断该聚类对象属于哪一类。

灰色聚类应用于地下水水质评价中，是把所考虑的水质分析点作为聚类对象，用i表示（i=1，2，…，n）；把影响水质的主要因素作为聚类指标，用j表示（j=1，2，…，m），把水质级别作为聚类灰数（灰类），用k表示（k=1，2，3）即一级、二级、三级3个灰类（罗定贵等，1995）。

灰色聚类的主要步骤：确定聚类白化数、确定各灰色白化函数fjk、求标定聚类权重ηjk、求聚类系数和按最大原则确定聚类对象分类。

1.确定聚类白化数

当各灰类白化数在数量上相差悬殊时，为保证各指标间的可比性与等效性，必须进行白化数的无量纲化处理。即给出第i个聚类对象中第j个聚类指标所拥有的白化数，i=1，2，…，n；j=1，2，…，m。

2.确定各灰色白化函数

建立满足各指标、级别区间为最大白化函数值（等于1），偏离此区间愈远，白化函数愈小（趋于0）的功效函数fij（x）。根据监测值Cki，可在图上（图4-3）解析出相应的白化函数值fjk（Cik），j=1，2，…，m；k=1，2，3。

3.求标定聚类权重

根据式（4-25），计算得出聚类权重ηjk的矩阵（n×m）。

区域地下水功能可持续性评价理论与方法研究

式中：ηjk为第j个指标对第k个灰类的权重；λjk为白化函数的阈值（根据标准浓度而定）。

图4-3 白化函数图

注：图4-3白化函数f（x）∈［0，1］，具有下述特点：①平顶部分，表示该量的最佳程度。这部分的值为最佳值，即系数（权）为1，f（x）=max=1（峰值），x∈［x2，x3］。②白化函数是单调变化的，左边部分f（x）=L（x），单调增，x∈（x1，x2］，称为白化的左支函数；右边部分f（x）=R（x），单调减，x∈［x3，x4），称为白化的右支函数。③白化函数左右支函数对称。④白化函数，为了简便，一般是直线。⑤白化函数的起点和终点，一般来说是人为凭经验确定。

4.求聚类系数

σik=∑fjk（dij）ηjk （4-26）

式中：σik为第i个聚类对象属于第k个灰类的系数，i=1，2，…，n；k=1，2，3。

5.按最大原则确定聚类对象分类

由σik构造聚类向量矩阵，行向量最大者，确定k样品属于j级对应的级别。

用灰色聚类方法进行地下水水质评价，能最大限度地避免因人为因素而造成的“失真、失效”现象。

聚类方法计算相对复杂，但是计算结果与地下水质量标准级别对应性明显，能够较全面反映地下水质量状况，也是较高层次定量研究地下水质量的重要方法。

聚类分析法（CA）

3.2.3.1 技术原理

聚类分析又称群分析（CA），它是研究（对样品或指标）分类问题的一种多元统计方法。首先认为所研究的样品或指标（变量）之间存在着程度不同的相似性（亲疏关系），根据一批样品的多个观测指标具体找出一些能够度量样品或指标之间相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样品（或指标）聚合为一类，把另一些彼此之间相似程度较大的样品（或指标）聚合为另一类，根据分类对象不同，可分为对样品分类的Q型聚类分析和对指标分类的R型聚类分析两种类型。聚类分析可用SPSS软件直接实现，在水质时空变异、水化学类型分区中得到广泛的应用。聚类分析的功能是建立一种分类方法，它将一批样品或变量，按照它们在性质上的亲疏、相似程度进行分类，聚类分析的内容十分丰富，按其聚类的方法可分为以下几种：系统聚类法、调优法、最优分割法、模糊聚类法等。

聚类分析根据分类对象的不同又分为R型和Q型两大类，R型是对变量（指标）进行分类，Q型是对样品进行分类。为了对样品（或变量）进行分类，就必须研究它们之间的关系，描述样品间亲疏相似程度的统计量很多，目前用得最多的是距离和相似系数。距离方法主要有：闵科夫斯基（Minkowski）距离、绝对值距离、欧氏距离等。

样品间的亲疏程度除了用距离描述外，也可用相似系数来表示，相似系数的构造主要有以下两种方法：对于定量变量，我们通常采用的相似系数有xi和xj之间的夹角余弦和相关系数。

3.2.3.2 方法流程

目前使用最多的聚类方法是系统聚类法，其基本思想是：先将n个样品各自看成一类，共有n个类，然后计算类与类间的距离，选择距离最小的两类合并成一个新类，使总类数减少为n-1，接着再计算这n-1类两两间的距离，从中找出距离最近的两类合并，总类数又减少一个，剩下n-2个类，照此下去，每合并一次，减少一类，直至所有样品都合并成一类为止。在并类的过程当中，可以根据聚类的先后以及并类时两类间的距离，画出能直观反映各样品间相近和疏远程度的聚类图（也称谱系图），根据这张聚类图有可能找到最合适的分类方案。系统聚类法的聚类原则决定于样品间的距离（或相似系数）及类间距离的定义，类间距离的不同定义就产生了不同的系统聚类分析方法，类间距离的定义方法主要有最短距离法、最长距离法、中间距离法、重心法、类平均法。在合理地选定（或定义）样品间的距离以后，再适当定义类间的距离，就确定了一种聚类规则，之后按照系统聚类法的一般步骤加以聚类（图3.4）。

图3.4 聚类分析技术流程图

3.2.3.3 适用范围

聚类分析能够将变量及样本按照相应的规则进行分类，在大样本多参数数据降维方面具有相对的优势，尤其是对于在时间、空间上具有复杂变化的数据，聚类分析能够根据变量和样本的相关性和相似性，将数据有效地划分为不同的类别，并通过树状图反映出样品随距离或变量间相似性变化的情况，为查清变量和样品之间关系提供了依据，也为查明污染来源奠定了基础。

聚类分析（cluster analysis)

我们这里来看看聚类分析。

比较流行的有聚类方法有k均值聚类,属于分割式聚类的方法。

K-Means算法的思想很简单，对于给定的样本集，按照样本之间的距离大小，将样本集划分为K个簇。让簇内的点尽量紧密的连在一起，而让簇间的距离尽量的大。目的是最小化E=sum(x-\miu_i), 其中\miu_i是每个簇的均值。

直接求上式的最小值并不容易，这是一个NP难的问题，因此采用启发式的迭代方法K-Means。

K-Means很简单，用下面一组图就可以形象的描述。上图a表达了初始的数据集，假设k=3。在图b中，我们随机选择了三个k类所对应的类别质心，即图中的红绿和草绿色质心，然后分别求样本中所有点到这三个质心的距离，并标记每个样本的类别为和该样本距离最小的质心的类别，如图c所示，经过计算样本和红绿和草绿色质心的距离，我们得到了所有样本点的第一轮迭代后的类别。此时我们对我们当前标记为红绿和草绿色点分别求其新的质心，重复了这个过程，将所有点的类别标记为距离最近的质心的类别并求新的质心。最终我们得到的三个类别如图。

首先我们看看K-Means算法的一些要点。

1 对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值。

2 在确定了k的个数后，我们需要选择k个初始化的质心，就像上图b中的随机质心。由于我们是启发式方法，k个初始化的质心的位置选择对最后的聚类结果和运行时间都有很大的影响，因此需要选择合适的k个质心，最好这些质心不能太近。

传统的K-Means算法流程。

输入样本集合，然后划分成k 人为分类，凭经验将样品进行初步的分类

选择凝聚点后，求均值，求距离，归类

更新质心

重新求均值和距离，再重新归类

大样本优化Mini Batch K-Means

在统的K-Means算法中，要计算所有的样本点到所有的质心的距离。如果样本量非常大，比如达到10万以上，特征有100以上，此时用传统的K-Means算法非常的耗时，就算加上elkan K-Means优化也依旧。在大数据时代，这样的场景越来越多。此时Mini Batch K-Means应运而生。

顾名思义，Mini Batch，也就是用样本集中的一部分的样本来做传统的K-Means，这样可以避免样本量太大时的计算难题，算法收敛速度大大加快。当然此时的代价就是我们的聚类的精确度也会有一些降低。一般来说这个降低的幅度在可以接受的范围之内。

在Mini Batch K-Means中，我们会选择一个合适的批样本大小batch size，我们仅仅用batch size个样本来做K-Means聚类。那么这batch size个样本怎么来的？一般是通过无放回的随机采样得到的。

为了增加算法的准确性，我们一般会多跑几次Mini Batch K-Means算法，用得到不同的随机采样集来得到聚类簇，选择其中最优的聚类簇。

K-Means与KNN

K-Means是无监督学习的聚类算法，没有样本输出；而KNN是监督学习的分类算法，有对应的类别输出。KNN基本不需要训练，对测试集里面的点，只需要找到在训练集中最近的k个点，用这最近的k个点的类别来决定测试点的类别。而K-Means则有明显的训练过程，找到k个类别的最佳质心，从而决定样本的簇类别。

两者也有一些相似点，两个算法都包含一个过程，即找出和某一个点最近的点。两者都利用了最近邻(nearest neighbors)的思想。

KNN(K-NearestNeighbor）分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻，就是K个最近的邻居的意思，说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据集合中每一个记录进行分类的方法。

总体来说，KNN分类算法包括以下4个步骤：

1准备数据，对数据进行预处理

2计算测试样本点（也就是待分类点）到其他每个样本点的距离

3对每个距离进行排序，然后选择出距离最小的K个点

4对K个点所属的类别进行比较，根据少数服从多数的原则，将测试样本点归入在K个点中占比最高的那一类

该算法在分类时有个主要的不足是，当样本不平衡时，如一个类的样本容量很大，而其他类样本容量很小时，有可能导致当输入一个新样本时，该样本的K个邻居中大容量类的样本占多数 , 该方法的另一个不足之处是计算量较大，因为对每一个待分类的文本都要计算它到全体已知样本的距离，才能求得它的K个最近邻点。

K-Means小结

K-Means的主要优点有：

1）原理比较简单，实现也是很容易，收敛速度快。

2）聚类效果较优。

3）算法的可解释度比较强。

4）主要需要调参的参数仅仅是簇数k。

K-Means的主要缺点有：

1）K值的选取不好把握

2）对于不是凸的数据集比较难收敛

3）如果各隐含类别的数据不平衡，比如各隐含类别的数据量严重失衡，或者各隐含类别的方差不同，则聚类效果不佳。

4）采用迭代方法，得到的结果只是局部最优。

5）对噪音和异常点比较的敏感。

PAM算法。 PAM法和K-means法很相似，但是它保证跑出来你的数据是最优的，和k-means不一样的是，虽然它也随机选择群中心，但是群中心的选择并非虚拟的，而是选取真正的数据点作为群中心。比如一开始选择3和20两个点作为群中心，并得到SS值。然后用不同的点去替换3或者20，选择最小SS值的点作为新的群中心，依次类推，直到SS值不能进一步优化。然后根据最后的群中心去聚类。PAM算法能够处理非数值类型的字段，但是其效率很慢，难以处理大数据量的情况。

除了分割聚类的方法,还有阶层式聚类的方法。我们看看ward方法。

华德法（ Ward’s Method ）: 华德法是阶层式聚类分析法中效果最好的，但是其运算速度较慢。理论差平方是判断聚类效果好不好的一个指标（每个资料点同群中心距离的平方和），其计算方式如下，SS值最小则说明聚类效果最好。华德法采用了一个取巧的方法，保证效果最好，仍然以上述例子示范。第一次聚类（聚成4类）有十种可能性，选择AB使得SS值最小，第二次（聚成3类）选择DE使得SS最小，第三次（聚成2类）选择CDE使得SS最小，直到聚成一类。

聚类分析是非常有用的,比如在公司可以给客户分类,或者说客户画像。如何了解用户的需求，把握用户的期望，对迅速对用户作出精准的投放这些手段已经成为企业能否的关键了。

某移动运营商在5月发展了19999个新用户，在新用户入网后一个月后，1、希望通过提供一些优惠提高用户的忠诚度 2、希望通过推荐一些产品提升客单价。

为达到这一目的，我们需要对新用户进行洞察，弄清楚以下的问题: a、应该给客户提供什么优惠？我们的优惠能否给客户带来惊喜？不同的客户是否该根据他们的喜好提供不同的优惠？b、客户对我们的什么产品感兴趣？不同的客户是否应该推荐不同的产品？

这个时候就可以使用聚类分析。

聚类分析法的介绍就聊到这里吧，感谢你花时间阅读本站内容，更多关于聚类分析法的优缺点、聚类分析法的信息别忘了在本站进行查找喔。

微信