数据分析之聚类分析_sql

RFM分析只能对客户的行为进行分析，包含的信息量有点少。一般来说，对人群进行分类，要综合考虑其行为、态度、模式以及相关背景属性，通过使用特定的方法，发现隐藏在这些信息背后的特征，将其分成几个类别，每一类具有一定的共性，进而做出进一步的探索研究。这个分类的过程就是聚类分析。

聚类分析，就是按照个体的特征将它们分类，目的在于让同一个类别内的个体之间具有较高的相似度，而不同类别之间具有较大的差异性。这样，就能够根据不同类别的特征有的放矢地进行分析，并制定出适用于不同类别的解决方案。

聚类可以对变量进行聚类，但是更常见的还是对个体进行聚类，也就是样本聚类。例如对用户、渠道、商品、员工等方面的聚类，聚类分析主要应用在市场细分、用户细分等领域。

为了合理的聚类，需要采用适当的指标来衡量研究对象之间的联系紧密程度，常用的指标有“距离”和“相似系数”，相似系数一般指的是相关系数。假设将研究对象采用点表示，聚类分析时，将“距离”较小的点或“相似系数”较大的点归为同一类，将“距离”较大的点或“相似系数”较小的点归为不同的类。

聚类分析具有如下特点：

1.对于聚类结果是未知的，不同的聚类分析方法可能得到不同的分类结果，或者相同的聚类分析方法但是所分析的变量不同，也会得到不同的聚类结果；

2.对于聚类结果的合理性判断比较主观，只要类别内相似性和类别间差异性都能得到合理的解释和判断，就认为聚类结果是可行的。

聚类分析可以应用于以下场景：

聚类分析的步骤：

（1）确定需要参与聚类分析的变量；

（2）对数据进行标准化处理；

因为各个变量间的变量值的数量级别差异较大或者单位不一致，例如一个变量的单位是元，另一个变量的单位是百分比，数量级别差异较大，而且单位也不一致，无法直接进行比较或者计算“距离”和“相似系数”等指标。

（3）选择聚类方法和类别个数；

（4）聚类分析结果解读；

常用的聚类方法包括：

1.快速聚类：也称K均值聚类，它是按照一定的方法选取一批聚类中心点，让个案向最近的聚类中心点聚集形成初始分类，然后按照最近距离原则调整不合理的分类，直到分类合理为止。

2.系统聚类：也称层次聚类，首先将参与聚类的个案（或变量）各视为一类，然后根据两个类别之间的聚类或者相似性逐步合并，直到所有个案（或变量）合并为一个大类为止。实际上，系统聚类分析结果展现了每个个案的聚类过程和分类结果。系统聚类之后，要制作交叉表通过每一个类别的均值来了解每一类别的特征。

3.二阶聚类：也称两步聚类，它是随着人工智能的发展起来的一种智能聚类方法。整个聚类方法分为两个步骤，第一个步骤是预聚类，就是根据定义的最大类别数对个案进行初步归类；第二个步骤是正式聚类，就是对第一步得到的初步归类进行再聚类并确定最终聚类结果，并且在这一步中，会根据一定的统计标准确定聚类的类别数。

（1）系统聚类分析不仅支持输入单个分类数量，还支持输入分类数量的范围。这对于暂时无法确定类别数，或者想进行多类别数的结果比较时，非常方便。

（2）系统聚类分析支持生成聚类结果图，从而更加直观地查看聚类过程。系统聚类分析支持两种图形：

谱系图（树状图）：它以树状的形式展现个案被分类的过程；

冰柱图：它以“X”的形式显示全部类别或指定类别数的分类过程。

（3）系统聚类分析提供多种聚类方法和适用于不同数据类型的测量方法。

其中，测量方法（度量标准）：

（i）区间：适用于连续变量，虽然SPSS提供了8种测量方法，但是通常选用默认的【平方欧式距离】即可。

（ii）计数：适用于连续或分类变量，SPSS提供了2种测量方法，通常选用【卡式测量】即可。

（iii）二元：适用于0/1分类变量，SPSS提供多达27种测量方法，通常选用【平方欧式距离】即可。

通过方法里的转换值项来进行标准化处理。由于参与聚类分析的变量是连续变量，所以，【测量】应选择【区间】项，方法为默认的【平方欧式距离】，标准化可以选择【Z得分】，选择按【变量项】，用以每个变量单独进行标准化。

二阶聚类分析能够对连续变量和分类变量同时进行处理，无需提前指定聚类的数目，二阶聚类会自动分析并输出最优聚类数。二阶聚类的自动聚类结果借由统计指标施瓦兹贝叶斯准则（BIC）帮助判断最佳分类数量。判断一个聚类方案的依据是BIC的数值越小，同时，“BIC变化量”的绝对值和“距离测量比率”数值越大，则说明聚类效果越好。

聚类分析属于探索性数据分析方法，它没有一个所谓的标准流程和答案，不同的数据有不同的适用方法，即使相同的数据，应用不同的方法也可能会得到不同的结果。只要能有效解决实际业务问题即可。

问题一：什么是聚类分析？聚类算法有哪几种聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于

分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行

定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识

难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种：分裂法(partitioning methods)：层次法(hierarchical

methods)：基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

问题二：聚类分析方法有什么好处 5分聚类分析：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。其主要依据是聚到同一个数据集中的样本应该彼此相似，而属于不同组的样本应该足够不相似。

常用聚类方法：系统聚类法，K-均值法，模糊聚类法，有序样品的聚类，分解法，加入法。

注意事项：

1. 系统聚类法可对变量或者记录进行分类，K-均值法只能对记录进行分类；

2. K-均值法要求分析人员事先知道样品分为多少类；

3. 对变量的多元正态性，方差齐性等要求较高。

应用领域：细分市场，消费行为划分，设计抽样方案等

优点：聚类分析模型的优点就是直观，结论形式简明。

缺点：在样本量较大时，要获得聚类结论有一定困难。由于相似系数是根据被试的反映来建立反映珐试间内在联系的指标，而实践中有时尽管从被试反映所得出的数据中发现他们之间有紧密的关系，但事物之间却无任何内在联系，此时，如果根据距离或相似系数得出聚类分析的结果，显然是不适当的，但是，聚类分析模型本身却无法识别这类错误。

问题三：什么是聚类分析？聚类分析又称群分析，它是研究（样品或指标）分类问题的一种统计分析方法。聚类分析起源于

分类学，在古老的分类学中，人们主要依靠经验和专业知识来实现分类，很少利用数学工具进行

定量的分类。随着人类科学技术的发展，对分类的要求越来越高，以致有时仅凭经验和专业知识

难以确切地进行分类，于是人们逐渐地把数学工具引用到了分类学中，形成了数值分类学，之后又

将多元分析的技术引入到数值分类学形成了聚类分析。

聚类分析内容非常丰富，有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论

聚类法、聚类预报法等。

聚类分析计算方法主要有如下几种：分裂法(partitioning methods)：层次法(hierarchical

methods)：基于密度的方法(density-based methods): 基于网格的方法(grid-based

methods): 基于模型的方法(model-based methods)。

问题四：常用的聚类方法有哪几种?? 1.k-mean聚类分析适用于样本聚类；

2.分层聚类适用于对变量聚类；

3.两步搐类适用于分类变量和连续变量聚类；

4.基于密度的聚类算法；

5.基于网络的聚类；

6.机器学习中的聚类算法；

前3种，可用spss简单 *** 作实现；

问题五：spss聚类分析方法有哪些首先，k-means你每次算的结果都会不一样，因为结果跟初始选取的k个点有关

问题六：聚类分析方法是什么？ 5分聚类分析：将个体（样品）或者对象（变量）按相似程度（距离远近）划分类别，使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。

问题七：聚类分析的算法聚类分析是数据挖掘中的一个很活跃的研究领域，并提出了许多聚类算法。传统的聚类算法可以被分为五类：划分方法、层次方法、基于密度方法、基于网格方法和基于模型方法。1 划分方法(PAM:PArtitioning method) 首先创建k个划分，k为要创建的划分个数；然后利用一个循环定位技术通过将对象从一个划分移到另一个划分来帮助改善划分质量。典型的划分方法包括：k-means,k-medoids,CLARA(Clustering LARge Application),CLARANS(Clustering Large Application based upon RANdomized Search).FCM2 层次方法(hierarchical method) 创建一个层次以分解给定的数据集。该方法可以分为自上而下（分解）和自下而上（合并）两种 *** 作方式。为弥补分解与合并的不足，层次合并经常要与其它聚类方法相结合，如循环定位。典型的这类方法包括：BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法，它首先利用树的结构对对象集进行划分；然后再利用其它聚类方法对这些聚类进行优化。CURE(Clustering Using REprisentatives) 方法，它利用固定数目代表对象来表示相应聚类；然后对各聚类按照指定量（向聚类中心）进行收缩。ROCK方法，它利用聚类间的连接进行聚类合并。CHEMALOEN方法，它则是在层次聚类时构造动态模型。3 基于密度的方法，根据密度完成对象的聚类。它根据对象周围的密度（如DBSCAN）不断增长聚类。典型的基于密度方法包括：DBSCAN(Densit-based Spatial Clustering of Application with Noise):该算法通过不断生长足够高密度区域来进行聚类；它能从含有噪声的空间数据库中发现任意形状的聚类。此方法将一个聚类定义为一组“密度连接”的点集。OPTICS(Ordering Points To Identify the Clustering Structure):并不明确产生一个聚类，而是为自动交互的聚类分析计算出一个增强聚类顺序。。4 基于网格的方法，首先将对象空间划分为有限个单元以构成网格结构；然后利用网格结构完成聚类。STING(STatistical INformation Grid) 就是一个利用网格单元保存的统计信息进行基于网格聚类的方法。CLIQUE(Clustering In QUEst)和Wave-Cluster 则是一个将基于网格与基于密度相结合的方法。5 基于模型的方法，它假设每个聚类的模型并发现适合相应模型的数据。典型的基于模型方法包括：统计方法COBWEB:是一个常用的且简单的增量式概念聚类方法。它的输入对象是采用符号量（属性-值）对来加以描述的。采用分类树的形式来创建一个层次聚类。CLASSIT是COBWEB的另一个版本.。它可以对连续取值属性进行增量式聚类。它为每个结点中的每个属性保存相应的连续正态分布（均值与方差）；并利用一个改进的分类能力描述方法，即不象COBWEB那样计算离散属性（取值）和而是对连续属性求积分。但是CLASSIT方法也存在与COBWEB类似的问题。因此它们都不适合对大数据库进行聚类处理.传统的聚类算法已经比较成功的解决了低维数据的聚类问题。但是由于实际应用中数据的复杂性，在处理许多问题时，现有的算法经常失效，特别是对于高维数据和大型数据的......>>

问题八：主成分分析法和聚类分析法的区别

问题九：聚类分析方法具体有哪些应用？可不可以举个例子？比如说现在要把n个产品按产品的m个指标继续聚类，因为产品可能之前的特色是不一样的。而这个时候影响产品的因素有m个，不可能一个一个的考虑，那样是分不出类来的。所以只能对产品的m个指标综合考虑，采用SPSS中的样本聚类方法，就可以直接将产品分好类。并且从分析结果还可以看出各类产品的特色分别是什么。。就是最主要的分类标准是什么。

聚类分析不仅可以用于样本聚类，还可以用于变量聚类，就是对m个指标进行聚类。因为有时指标太多，不能全部考虑，需要提取出主要因素，而往往指标之间又有很多相关联的地方，所以可以先对变量聚类，然后从每一类中选取出一个代表型的指标。这样就大大减少了指标，并且没有造成巨大的信息丢失。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/sjk/9935017.html

数据分析之聚类分析

发表评论

评论列表（0条）