
化探工作中常常要研究元素和样品分类问题。聚类分析则提供了一些数量化的衡量元素或样品相似程度的指示,利用这些指标可将元素样品按其相似程度的大小划分为不同的类,从而揭示元素或样品之间的本质联系,这有助于研究元素共生组合关系和对岩体异常等的分类评价。
根据分类对象不同,聚类分析分为R型聚类分析(对元素进行分类),Q型聚类分析(对样品进行分类)。聚类分析一般采用逐次联结法,具体做法如下。
1转换对数
常将实测数据先转换为对数,因为微量元素多属对数正态分布,而且数据过于离散。
2数据均匀化
数据均匀化化的目的是将大小悬殊的数据化为同一度量的水平上。均匀化的方法常用的有:
(1)标准化
用于R型聚类分析,计算公式:
地球化学找矿
式中:zij为标准化数据;xij为原始数据(对数值);xi为 i个变量的平均值(对数平均值), 为i个变量的标准离差,σi= ;i为变量数(i=1,2,3,…,m);j为样品数(j=1,2,3,…,n)。
(2)正规化
用于Q型聚类分析,计算公式:
地球化学找矿
式中:wij为正规化数据;xij为原始数据(对数值);xi(max)为i个变量的最大值(对数值);xi(min)为i个变量的最小值(对数值);i 为变量数(i =1,2,3,…,m);j 为样品数(j=1,2,3,…,n)。
(3)计算相似性统计量
1)相关系数r
用于R型聚分析,计算公式(任何两元素):
地球化学找矿
数据标准化后:
地球化学找矿
-1≤r≤1,|r|愈大,元素愈相似。
2)相似性系数
用于Q型聚类分析,计算公式(任何二样品):
地球化学找矿
-1≤cosθ≤1,|cosθ|愈大,元素愈相似。
3)距离系数
用于Q型聚类分析,计算公式(对于任何两样品)
地球化学找矿
对于正规化数据0≤d≤1,d值越小样品越相似。将计算出的相似性统计量排列成矩阵。
(4)根据相似性统计量进行分类
1)选出相似程度最大(即相关系数、相似性系数最大,距离系数最小)的一对元素或样品联结成一类,填入分类表(表6-4),联结后的元素或样品组成一个新变量(新样品)替换序号较小的变量(样品),去掉序号较大的变量(样品)。
2)将联结成一类的元素或样品均匀化数据加权平均,替换序号较小的一行作为新变量(新样品)的数据,去掉序号较大的一行数据,其余各行不变。得到比原来少一个变量或样品的均匀化数据表。
表6-4 分类统计表
加权平均计算公式:
如第一、二两个元素联结后新变量的标准化数据为,则:
地球化学找矿
N1和N2分别为权,未组合的数据权为1,组合一次权增加1。
3)根据新变量(新样品)的数据,计算新变量(新样品)与其余变量(样品)间的相似性统计量,其余不变,列出新的矩阵。
4)重复上述1),2),3)各步骤,即挑选相似程度最大的变量(或样品)联结归类;加权平均合并数据;计算新变量(新样品)与其他变量(样品)间的相似性统计量,刷新原矩阵,直至全部联结完毕为止。
5)制作谱系图,见图6-3。
图6-3 谱系图(示意)
3计算实例
某地一批超基性岩样品,经分析 Ni,Co,Cu,Cr,S,As含量如表6-5。
表6-5 某地超基性样品Ni,Co,Cu,Cr,S,As 含量
(1)用R型聚类分析对元素进行分类
1)将原始数据转换为对数,并计算各元素对数值的平均值和标准离差,其结果见表6-6。
2)将各样品中各元素含量对数值进行标准化。
3)按照数据标准化公式:
地球化学找矿
地球化学找矿
于是可得标准化数据表6-7。
表6-7 标准化数据
4)计算相关系数,列出相关系数矩阵R(0),按照相关系数计算公式:
地球化学找矿
于是得相关矩阵R(0):
地球化学找矿
5)将R(0)中相关系数最大的Co,Cu联结成一类,记为Co′填入分类统计表中,并计算Co′的数据。
按照加权平均计算公式:
地球化学找矿
于是得表6-8。
表6-8 由R(0)得到的Co′值
6)计算新变量Co′与剩余的变量的相关系数,列出新相关矩阵R(1)。
相关系数计算公式同前(以下同),于是得:
地球化学找矿
7)将R(1)中相关系数最大的Ni,Co′联结成一类,记为Ni′填入分类统计表中,并计算Ni′的数据。
Ni′的数据仍按前加权平均的公式计算(以下同),于是得表6-9。
表6-9 由Co′重新计算的Ni′值
8)计算新变量Ni′与剩余的变量的相关系数,列出新相关矩阵R(2)。
于是得:
地球化学找矿
9)将R(2)中相关系数最大的S,As联结成一类,记为填入分类统计表中,并计算S′的数据(表6-10)。
表6-10 S′计算结果
10)计算新变量S′与剩余变量的相关系数,列出刷新的相关矩阵R(3):
地球化学找矿
11)将R(3)中相关系数最大的 Ni′与 S′联结成一类,记为 Ni″,填入分类统计表中(表6-11)。
表6-11 Ni″计算结果
12)计算新变量Ni″与剩余变量的相关系数,列出刷新的相关矩R(4)。
13)最后将Ni″与Cr联结起来,记入分类统计表6-12。
表6-12 分类统计表
14)制作谱系图(图6-4)。
图6-4 谱系图
从上述谱系图可见,在相关系数02~05的相似水平上,可将述六个元素分为两类:一类是 Cr(亲氧元素);另一类是 Co,Cu,Ni,As(亲硫元素)。在相关系数06 左右可将亲硫元素分为两组,一组是S,As(阴离子);一组是Co,Cu,Ni(阳离子),且Co,Cu相关关系更密切。这样R型聚类分析清楚地显示出这些元素在超基性岩石的相互关系。
(2)用Q型聚类分析对样品进行分类
仍以上述超基岩样品分析结果为例。
对样品分类常用距离系数。由于距离系数是对直角坐标系而言,即要求变量要互不相关。故可先用R型聚类分析(式R型因子分析)选出互相独立的变量(在用R型聚类分析时,通常取相关系数绝对值小的变量),然后以距离系数对样品进行分类。
上例R型聚类分析结果,在R=06 水平左右可将变量分为三组,即Ni′(Ni,Co,Cu);S′(S,As);Cr,现以这三组为变量对样品进行分类。
1)将变量数据(对数值)进行合并,得出新的数据表。合并的办法是取该组变量的平均值,于是得表6-13。
表6-13 对变量数据合并后的新的数据
2)将数据正规化。按正规化的公式:
地球化学找矿
于是得表6-14。
表6-14 正规化后的数据表
3)计算距离系数djk,列出初始距离系数矩阵D(0)。
按距离系数公式:
地球化学找矿
于是得:
地球化学找矿
4)将D(0)中距离系数值最小的(5),(6)样品联结成一类,记为(5′)填入分类统计表中,并计算(5′)的数据。
按照加权平均计算公式:
地球化学找矿
于是得表6-15。
表6-15 (5′)的数据表
5)计算(5′)与样品的距离系数,列出刷新距离系数矩阵D(1),于是得:
地球化学找矿
6)将D(1)中距离系数最大的(2),(5′)联结成一类,记为(2′),填入分类统计表中,并计算(2′)的数据。于是得表6-16。
表6-16 (2′)的数据表
7)计算(2′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(2),于是得:
地球化学找矿
8)将D(2)中距离系数最小的(1),(4)联结成一类,记为(1′),填入分类统计表中,并计算(1′)的数据。于是得表6-17。
表6-17 (1′)的数据表
9)计算(1′)与剩余样品的距离系数,列出刷新的距离系数矩阵D(3),于是得:
地球化学找矿
10)将D(3)中距离系数最小的(1′),(2′),联结成一类,记为(1″),填入分类统计表中,并计算(1″)的数据。于是得表6-18。
表6-18 (1″)的数据表
11)计算(1″)与剩余样品的距离系数,列出新的距离系数矩阵D(4),于是得:
地球化学找矿
12)最后将(1″),(3)联结成一类,填入分类统计表6-19。
表6-19 分类统计表
13)制作谱系图(图6-5)。
图6-5 谱系图
从谱系图上可得:在距离系数035~05水平上,可将数个样品分成三类;一类是矿化的蛇纹岩(1)及(4);另一类是无矿化的蛇纹岩(2)及滑镁岩(5),(6);样品(3)为单独一类,它是无矿化的蛇纹岩。因此,通过Q型聚类分析很好地将该地含矿岩体和不含矿岩体区分开来。至于样品(3)单独开,还可进一步研究它与其他无矿岩体的差异。
这里需要特别指出的是,运用回归分析、判别分析、聚类分析都是在特定的地质条件下得出的统计规律,因此,在利用这些规律对未知进行判断时,一定要注意地质条件的相似性,切不可把某一地质条件下导出的规律,生搬硬套地用于解决不同地质条件下的问题。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)