聚类分析_安全_内存溢出

化探工作中常常要研究元素和样品分类问题。聚类分析则提供了一些数量化的衡量元素或样品相似程度的指示，利用这些指标可将元素样品按其相似程度的大小划分为不同的类，从而揭示元素或样品之间的本质联系，这有助于研究元素共生组合关系和对岩体异常等的分类评价。

根据分类对象不同，聚类分析分为R型聚类分析（对元素进行分类），Q型聚类分析（对样品进行分类）。聚类分析一般采用逐次联结法，具体做法如下。

1转换对数

常将实测数据先转换为对数，因为微量元素多属对数正态分布，而且数据过于离散。

2数据均匀化

数据均匀化化的目的是将大小悬殊的数据化为同一度量的水平上。均匀化的方法常用的有：

（1）标准化

用于R型聚类分析，计算公式：

地球化学找矿

式中：zij为标准化数据；xij为原始数据（对数值）；xi为 i个变量的平均值（对数平均值），为i个变量的标准离差，σi＝；i为变量数（i＝1，2，3，…，m）；j为样品数（j＝1，2，3，…，n）。

（2）正规化

用于Q型聚类分析，计算公式：

地球化学找矿

式中：wij为正规化数据；xij为原始数据（对数值）；xi（max）为i个变量的最大值（对数值）；xi（min）为i个变量的最小值（对数值）；i 为变量数（i ＝1，2，3，…，m）；j 为样品数（j＝1，2，3，…，n）。

（3）计算相似性统计量

1）相关系数r

用于R型聚分析，计算公式（任何两元素）：

地球化学找矿

数据标准化后：

地球化学找矿

-1≤r≤1，|r|愈大，元素愈相似。

2）相似性系数

用于Q型聚类分析，计算公式（任何二样品）：

地球化学找矿

-1≤cosθ≤1，|cosθ|愈大，元素愈相似。

3）距离系数

用于Q型聚类分析，计算公式（对于任何两样品）

地球化学找矿

对于正规化数据0≤d≤1，d值越小样品越相似。将计算出的相似性统计量排列成矩阵。

（4）根据相似性统计量进行分类

1）选出相似程度最大（即相关系数、相似性系数最大，距离系数最小）的一对元素或样品联结成一类，填入分类表（表6-4），联结后的元素或样品组成一个新变量（新样品）替换序号较小的变量（样品），去掉序号较大的变量（样品）。

2）将联结成一类的元素或样品均匀化数据加权平均，替换序号较小的一行作为新变量（新样品）的数据，去掉序号较大的一行数据，其余各行不变。得到比原来少一个变量或样品的均匀化数据表。

表6-4 分类统计表

加权平均计算公式：

如第一、二两个元素联结后新变量的标准化数据为，则：

地球化学找矿

N1和N2分别为权，未组合的数据权为1，组合一次权增加1。

3）根据新变量（新样品）的数据，计算新变量（新样品）与其余变量（样品）间的相似性统计量，其余不变，列出新的矩阵。

4）重复上述1），2），3）各步骤，即挑选相似程度最大的变量（或样品）联结归类；加权平均合并数据；计算新变量（新样品）与其他变量（样品）间的相似性统计量，刷新原矩阵，直至全部联结完毕为止。

5）制作谱系图，见图6-3。

图6-3 谱系图（示意）

3计算实例

某地一批超基性岩样品，经分析 Ni，Co，Cu，Cr，S，As含量如表6-5。

表6-5 某地超基性样品Ni，Co，Cu，Cr，S，As 含量

（1）用R型聚类分析对元素进行分类

1）将原始数据转换为对数，并计算各元素对数值的平均值和标准离差，其结果见表6-6。

2）将各样品中各元素含量对数值进行标准化。

3）按照数据标准化公式：

地球化学找矿

于是可得标准化数据表6-7。

表6-7 标准化数据

4）计算相关系数，列出相关系数矩阵R（0），按照相关系数计算公式：

地球化学找矿

于是得相关矩阵R（0）：

地球化学找矿

5）将R（0）中相关系数最大的Co，Cu联结成一类，记为Co′填入分类统计表中，并计算Co′的数据。

按照加权平均计算公式：

地球化学找矿

于是得表6-8。

表6-8 由R（0）得到的Co′值

6）计算新变量Co′与剩余的变量的相关系数，列出新相关矩阵R（1）。

相关系数计算公式同前（以下同），于是得：

地球化学找矿

7）将R（1）中相关系数最大的Ni，Co′联结成一类，记为Ni′填入分类统计表中，并计算Ni′的数据。

Ni′的数据仍按前加权平均的公式计算（以下同），于是得表6-9。

表6-9 由Co′重新计算的Ni′值

8）计算新变量Ni′与剩余的变量的相关系数，列出新相关矩阵R（2）。

于是得：

地球化学找矿

9）将R（2）中相关系数最大的S，As联结成一类，记为填入分类统计表中，并计算S′的数据（表6-10）。

表6-10 S′计算结果

10）计算新变量S′与剩余变量的相关系数，列出刷新的相关矩阵R（3）：

地球化学找矿

11）将R（3）中相关系数最大的 Ni′与 S′联结成一类，记为 Ni″，填入分类统计表中（表6-11）。

表6-11 Ni″计算结果

12）计算新变量Ni″与剩余变量的相关系数，列出刷新的相关矩R（4）。

13）最后将Ni″与Cr联结起来，记入分类统计表6-12。

表6-12 分类统计表

14）制作谱系图（图6-4）。

图6-4 谱系图

从上述谱系图可见，在相关系数02～05的相似水平上，可将述六个元素分为两类：一类是 Cr（亲氧元素）；另一类是 Co，Cu，Ni，As（亲硫元素）。在相关系数06 左右可将亲硫元素分为两组，一组是S，As（阴离子）；一组是Co，Cu，Ni（阳离子），且Co，Cu相关关系更密切。这样R型聚类分析清楚地显示出这些元素在超基性岩石的相互关系。

（2）用Q型聚类分析对样品进行分类

仍以上述超基岩样品分析结果为例。

对样品分类常用距离系数。由于距离系数是对直角坐标系而言，即要求变量要互不相关。故可先用R型聚类分析（式R型因子分析）选出互相独立的变量（在用R型聚类分析时，通常取相关系数绝对值小的变量），然后以距离系数对样品进行分类。

上例R型聚类分析结果，在R＝06 水平左右可将变量分为三组，即Ni′（Ni，Co，Cu）；S′（S，As）；Cr，现以这三组为变量对样品进行分类。

1）将变量数据（对数值）进行合并，得出新的数据表。合并的办法是取该组变量的平均值，于是得表6-13。

表6-13 对变量数据合并后的新的数据

2）将数据正规化。按正规化的公式：

地球化学找矿

于是得表6-14。

表6-14 正规化后的数据表

3）计算距离系数djk，列出初始距离系数矩阵D（0）。

按距离系数公式：

地球化学找矿

于是得：

地球化学找矿

4）将D（0）中距离系数值最小的（5），（6）样品联结成一类，记为（5′）填入分类统计表中，并计算（5′）的数据。

按照加权平均计算公式：

地球化学找矿

于是得表6-15。

表6-15 （5′）的数据表

5）计算（5′）与样品的距离系数，列出刷新距离系数矩阵D（1），于是得：

地球化学找矿

6）将D（1）中距离系数最大的（2），（5′）联结成一类，记为（2′），填入分类统计表中，并计算（2′）的数据。于是得表6-16。

表6-16 （2′）的数据表

7）计算（2′）与剩余样品的距离系数，列出刷新的距离系数矩阵D（2），于是得：

地球化学找矿

8）将D（2）中距离系数最小的（1），（4）联结成一类，记为（1′），填入分类统计表中，并计算（1′）的数据。于是得表6-17。

表6-17 （1′）的数据表

9）计算（1′）与剩余样品的距离系数，列出刷新的距离系数矩阵D（3），于是得：

地球化学找矿

10）将D（3）中距离系数最小的（1′），（2′），联结成一类，记为（1″），填入分类统计表中，并计算（1″）的数据。于是得表6-18。

表6-18 （1″）的数据表

11）计算（1″）与剩余样品的距离系数，列出新的距离系数矩阵D（4），于是得：

地球化学找矿

12）最后将（1″），（3）联结成一类，填入分类统计表6-19。

表6-19 分类统计表

13）制作谱系图（图6-5）。

图6-5 谱系图

从谱系图上可得：在距离系数035～05水平上，可将数个样品分成三类；一类是矿化的蛇纹岩（1）及（4）；另一类是无矿化的蛇纹岩（2）及滑镁岩（5），（6）；样品（3）为单独一类，它是无矿化的蛇纹岩。因此，通过Q型聚类分析很好地将该地含矿岩体和不含矿岩体区分开来。至于样品（3）单独开，还可进一步研究它与其他无矿岩体的差异。

这里需要特别指出的是，运用回归分析、判别分析、聚类分析都是在特定的地质条件下得出的统计规律，因此，在利用这些规律对未知进行判断时，一定要注意地质条件的相似性，切不可把某一地质条件下导出的规律，生搬硬套地用于解决不同地质条件下的问题。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/10320280.html

聚类分析

发表评论

评论列表（0条）