聚类分析

聚类分析,第1张

化探工作中常常要研究元素和样品分类问题。聚类分析则提供了一些数量化的衡量元素或样品相似程度的指示,利用这些指标可将元素样品按其相似程度的大小划分为不同的类,从而揭示元素或样品之间的本质联系,这有助于研究元素共生组合关系和对岩体异常等的分类评价。

根据分类对象不同,聚类分析分为R型聚类分析(对元素进行分类),Q型聚类分析(对样品进行分类)。聚类分析一般采用逐次联结法,具体做法如下。

1转换对数

常将实测数据先转换为对数,因为微量元素多属对数正态分布,而且数据过于离散。

2数据均匀化

数据均匀化化的目的是将大小悬殊的数据化为同一度量的水平上。均匀化的方法常用的有:

(1)标准化

用于R型聚类分析,计算公式:

地球化学找矿

式中:zij为标准化数据;xij为原始数据(对数值);xi为 i个变量的平均值(对数平均值), 为i个变量的标准离差,σi= ;i为变量数(i=1,2,3,…,m);j为样品数(j=1,2,3,…,n)。

(2)正规化

用于Q型聚类分析,计算公式:

地球化学找矿

式中:wij为正规化数据;xij为原始数据(对数值);xi(max)为i个变量的最大值(对数值);xi(min)为i个变量的最小值(对数值);i 为变量数(i =1,2,3,…,m);j 为样品数(j=1,2,3,…,n)。

(3)计算相似性统计量

1)相关系数r

用于R型聚分析,计算公式(任何两元素):

地球化学找矿

数据标准化后:

地球化学找矿

-1≤r≤1,|r|愈大,元素愈相似。

2)相似性系数

用于Q型聚类分析,计算公式(任何二样品):

地球化学找矿

-1≤cosθ≤1,|cosθ|愈大,元素愈相似。

3)距离系数

用于Q型聚类分析,计算公式(对于任何两样品)

地球化学找矿

对于正规化数据0≤d≤1,d值越小样品越相似。将计算出的相似性统计量排列成矩阵。

(4)根据相似性统计量进行分类

1)选出相似程度最大(即相关系数、相似性系数最大,距离系数最小)的一对元素或样品联结成一类,填入分类表(表6-4),联结后的元素或样品组成一个新变量(新样品)替换序号较小的变量(样品),去掉序号较大的变量(样品)。

2)将联结成一类的元素或样品均匀化数据加权平均,替换序号较小的一行作为新变量(新样品)的数据,去掉序号较大的一行数据,其余各行不变。得到比原来少一个变量或样品的均匀化数据表。

表6-4 分类统计表

加权平均计算公式:

如第一、二两个元素联结后新变量的标准化数据为,则:

地球化学找矿

N1和N2分别为权,未组合的数据权为1,组合一次权增加1。

3)根据新变量(新样品)的数据,计算新变量(新样品)与其余变量(样品)间的相似性统计量,其余不变,列出新的矩阵。

4)重复上述1),2),3)各步骤,即挑选相似程度最大的变量(或样品)联结归类;加权平均合并数据;计算新变量(新样品)与其他变量(样品)间的相似性统计量,刷新原矩阵,直至全部联结完毕为止。

5)制作谱系图,见图6-3。

图6-3 谱系图(示意)

3计算实例

某地一批超基性岩样品,经分析 Ni,Co,Cu,Cr,S,As含量如表6-5。

表6-5 某地超基性样品Ni,Co,Cu,Cr,S,As 含量

(1)用R型聚类分析对元素进行分类

1)将原始数据转换为对数,并计算各元素对数值的平均值和标准离差,其结果见表6-6。

2)将各样品中各元素含量对数值进行标准化。

3)按照数据标准化公式:

地球化学找矿

地球化学找矿

于是可得标准化数据表6-7。

表6-7 标准化数据

4)计算相关系数,列出相关系数矩阵R(0),按照相关系数计算公式:

地球化学找矿

于是得相关矩阵R(0):

地球化学找矿

5)将R(0)中相关系数最大的Co,Cu联结成一类,记为Co′填入分类统计表中,并计算Co′的数据。

按照加权平均计算公式:

地球化学找矿

于是得表6-8。

表6-8 由R(0)得到的Co′值

6)计算新变量Co′与剩余的变量的相关系数,列出新相关矩阵R(1)。

相关系数计算公式同前(以下同),于是得:

地球化学找矿

7)将R(1)中相关系数最大的Ni,Co′联结成一类,记为Ni′填入分类统计表中,并计算Ni′的数据。

Ni′的数据仍按前加权平均的公式计算(以下同),于是得表6-9。

表6-9 由Co′重新计算的Ni′值

8)计算新变量Ni′与剩余的变量的相关系数,列出新相关矩阵R(2)。

于是得:

地球化学找矿

9)将R(2)中相关系数最大的S,As联结成一类,记为填入分类统计表中,并计算S′的数据(表6-10)。

表6-10 S′计算结果

10)计算新变量S′与剩余变量的相关系数,列出刷新的相关矩阵R(3):

地球化学找矿

11)将R(3)中相关系数最大的 Ni′与 S′联结成一类,记为 Ni″,填入分类统计表中(表6-11)。

表6-11 Ni″计算结果

12)计算新变量Ni″与剩余变量的相关系数,列出刷新的相关矩R(4)。

13)最后将Ni″与Cr联结起来,记入分类统计表6-12。

表6-12 分类统计表

14)制作谱系图(图6-4)。

图6-4 谱系图

从上述谱系图可见,在相关系数02~05的相似水平上,可将述六个元素分为两类:一类是 Cr(亲氧元素);另一类是 Co,Cu,Ni,As(亲硫元素)。在相关系数06 左右可将亲硫元素分为两组,一组是S,As(阴离子);一组是Co,Cu,Ni(阳离子),且Co,Cu相关关系更密切。这样R型聚类分析清楚地显示出这些元素在超基性岩石的相互关系。

(2)用Q型聚类分析对样品进行分类

仍以上述超基岩样品分析结果为例。

对样品分类常用距离系数。由于距离系数是对直角坐标系而言,即要求变量要互不相关。故可先用R型聚类分析(式R型因子分析)选出互相独立的变量(在用R型聚类分析时,通常取相关系数绝对值小的变量),然后以距离系数对样品进行分类。

上例R型聚类分析结果,在R=06 水平左右可将变量分为三组,即Ni′(Ni,Co,Cu);S′(S,As);Cr,现以这三组为变量对样品进行分类。

1)将变量数据(对数值)进行合并,得出新的数据表。合并的办法是取该组变量的平均值,于是得表6-13。

表6-13 对变量数据合并后的新的数据

2)将数据正规化。按正规化的公式:

地球化学找矿

于是得表6-14。

表6-14 正规化后的数据表

3)计算距离系数djk,列出初始距离系数矩阵D(0)。

按距离系数公式:

地球化学找矿

于是得:

地球化学找矿

4)将D(0)中距离系数值最小的(5),(6)样品联结成一类,记为(5′)填入分类统计表中,并计算(5′)的数据。

按照加权平均计算公式:

地球化学找矿

于是得表6-15。

表6-15 (5′)的数据表

5)计算(5′)与样品的距离系数,列出刷新距离系数矩阵D(1),于是得:

地球化学找矿

6)将D(1)中距离系数最大的(2),(5′)联结成一类,记为(2′),填入分类统计表中,并计算(2′)的数据。于是得表6-16。

表6-16 (2′)的数据表

7)计算(2′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(2),于是得:

地球化学找矿

8)将D(2)中距离系数最小的(1),(4)联结成一类,记为(1′),填入分类统计表中,并计算(1′)的数据。于是得表6-17。

表6-17 (1′)的数据表

9)计算(1′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(3),于是得:

地球化学找矿

10)将D(3)中距离系数最小的(1′),(2′),联结成一类,记为(1″),填入分类统计表中,并计算(1″)的数据。于是得表6-18。

表6-18 (1″)的数据表

11)计算(1″)与剩余样品的距离系数,列出新的距离系数矩阵D(4),于是得:

地球化学找矿

12)最后将(1″),(3)联结成一类,填入分类统计表6-19。

表6-19 分类统计表

13)制作谱系图(图6-5)。

图6-5 谱系图

从谱系图上可得:在距离系数035~05水平上,可将数个样品分成三类;一类是矿化的蛇纹岩(1)及(4);另一类是无矿化的蛇纹岩(2)及滑镁岩(5),(6);样品(3)为单独一类,它是无矿化的蛇纹岩。因此,通过Q型聚类分析很好地将该地含矿岩体和不含矿岩体区分开来。至于样品(3)单独开,还可进一步研究它与其他无矿岩体的差异。

这里需要特别指出的是,运用回归分析、判别分析、聚类分析都是在特定的地质条件下得出的统计规律,因此,在利用这些规律对未知进行判断时,一定要注意地质条件的相似性,切不可把某一地质条件下导出的规律,生搬硬套地用于解决不同地质条件下的问题。


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/10320280.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-07
下一篇2023-05-07

发表评论

登录后才能评论

评论列表(0条)

    保存