关于主元分析的步骤

关于主元分析的步骤,第1张

先求凯樱亏协方差矩阵,之后对协方差矩阵求特征值与特征向量,将特征从大到小排列,取其贡献率大于85%~95%的特征值与特征向量作为其主元与负荷,之后根据负荷求得分。

说得有点抽象,你可以参考下面的例子

%% 导入原始数据

[Xrow, Xcol] = size(X)% Xrow:样本个数 Xcol:样本属性个数

%% 数据预处理,进行标准化出理,处理后均值为0方差为1

Xc = mean(X)% 求原始数据的均值

Xe = std(X) % 求原始数据的标准差

X0 = (X-ones(Xrow,1)*Xc) ./ (ones(Xrow,1)*Xe)% 标准阵X0,标颂空准化为均值0,方差1

%% 求标准化矩阵的协方差矩阵

sigma = cov(X0)

%% 特征值分解

[V, D] = eig(sigma)% 求协方差矩阵的特征向量(V)和特征值(D)

lmda = diag(D) % 将主对角线盯神上为特征值的对角阵变换成特征值列向量

[Dt, index] = sort(lmda, 'descend')% 特征值按降序排列,Dt是排列后的数组,index是序号

%% 根据累积主元贡献率选取主元个数

npc = 1

while sum(Dt(1:npc)) / sum(Dt) <0.85

npc = npc + 1

end

%% 计算负荷向量

P_all = V(:, index) % 全部负荷

P_pcs = P_all(:, 1:npc) % 主元负荷

%% 构建主元对角阵

Lambda = diag(Dt(1:npc))

%% 计算得分向量

t_all = X0 * P_all % 全部得分

t_pcs = t_all(:, 1:npc) % 主元得分

例3 用BP网络估计胆固醇含量

这是一个将神经网络用于医疗应用的例子。我们设计一个器械,用于从血样的光谱组成的测量中得到血清的

胆固醇含量级别,我们有261个病人的血样值,包括21种波长的谱线的数据,对于这些病人,我们得到了基于 光谱分类的胆固醇含量级别hdl,ldl,vldl。

(1) 样本数据的定义与预处理。

choles_all.mat 文件中存储了网络训练所需要的全部样本数据。

利用 load 函数可以在工作空间中自动载入网络训练所需的输入数据 p 和目标数据 t,即

load choles_all

sizeofp = size (p)

sizeofp = 21 264

sizeoft = size (t)

sizeoft = 3 264

可见,样本集的大小为 264。为了提高神经网络的训练效率,通常要对样本数据作适当的预处理。首先,利用 prestd 函数对样本数据作归一化处理,使得归一化后的输入和目标数据均服从正态洞脊卜分布,即 [pn,meanp,stdp,tn,meant,stdt] = prestd(p,t)

然后,利用 prepca 函数对归一化后的样本数据进行主元分析,从而消除样本数据中的冗余成份,起到数据降维的目的。

[ptrans,transMat] = prepca(pn,0.001)

[R,Q] = size(ptrans)

R = 4 Q = 264

可见,主元分析之后的样本数据维数被大大降低,输入数据的维数由 21 变为 4。

(2) 对训练样本、验证样本和测试样本进行划分。

为了提高网络的推广能力和识别能力,训练中采用“提前停止”的方法,因此,在训练之前,需要将上面处理后的样本数据适当划分为训练样本集、验证样本集和测试样本集。

(3) 网络生成与训练。 选用两层 BP 网络,其中网络输入维数为 4,输出维纳穗数为 3,输出值即为血清胆固醇的三个指标值大小。网络中间层神经元数目预选为 5,传递函数类型选为 tansig 函数,输出层传递函数选为线性函数 purelin,训练函数设为 trainlm。网络的生成语句如下:

net = newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')

利用 train 函数对所生成的神经网络进行训野培练,训练结果如下:

[net,tr]=train(net,ptr,ttr,[],[],val,test)

见,网络训练迭代至第 20 步时提前停止,这是由于验证误差已经开始变大。利用下面语句可以绘制出训练误差、验证误差和测试误差的变化曲线,如图 4.50 所示。由图可见,验证误差和测试误差的变化趋势基本一致,说明样本集的划分基本合理。由训练误差曲线可见,训练误差结果也是比较满意的。

(4) 网络仿真。 为了进一步检验训练后网络的性能,下面对训练结果作进一步仿真分析。利用 postreg函数可以对网络仿真的输出结果和目标输出作线性回归分析,并得到两者的相关系数,从而可以作为网络训练结果优劣的判别依据。仿真与线性回归分析如下:

an = sim(net,ptrans)

a = poststd(an,meant,stdt)

for i=1:3

figure(i)

[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))

end

%导入原始测量数据

load choles_all

%对原始数据进行规范化处理,prestd是对输入数据和输出数据进行规范化处理,

%prepca可以删除一些数据,适当地保留了变化不小于0.01的数据

[pn,meanp,stdp,tn,meant,stdt]=prestd(p,t)

[ptrans,transMat]=prepca(pn,0.001)

[R,Q]=size(ptrans)

%将原始数据分成几个部分作为不同用途四分已用于确证,四分一用于测试,二分一用于训练网络

iitst=2:4:Q

iival=4:4:Q

iitr=[1:4:Q 3:4:Q]

%vv是确证向量,.P是输入,.T是输出,vt是测试向量

vv.P=ptrans(:,iival)

vv.T=tn(:,iival)

vt.P=ptrans(:,iitst)

vt.T=tn(:,iitst)

ptr=ptrans(:,iitr)

ttr=tn(:,iitr)

%建立网络,隐层中设计5个神经元,由于需要得到的是3个目标,所以网络需要有3个输出

net=newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')

%训练网络

net.trainParam.show=5

[net,tr]=train(net,ptr,ttr,[],[],vv,vt)

%绘出训练过程中各误差的变化曲线

plot(tr.epoch,tr.perf,'r',tr.epoch,tr.vperf,':g',tr.epoch,tr.tperf,'-.b')

legend('训练','确证','测试',-1)

ylabel('平方误差')

xlabel('时间')

pause

%将所有数据通过网络(包括训练,确证,测试),然后得到网络输出和相应目标进行线性回归,

%对网络输出进行反规范化变换,并绘出个各级别的线性回归结果曲线

an=sim(net,ptrans)

a=poststd(an,meant,stdt)

%得到3组输出,所以进行3次线性回归

for i=1:3

figure(i)

[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))

end

网络输出数据和目标数据作线性回归后,前面两个输出对目标的跟踪比较好,相应的R值接近0.9。而第三个输出却并不理想,我们很可能需要在这点上做更多工作。可能需要使用其它的网络结构(使用更多的隐层神经元),或者是在训练技术上使用贝页斯规范华而不实使用早停的方法。

把隐层数目改为20个时,网络训练的3种误差非常接近,得到的结果R也相应提高。但不代表神经元越多就越精确。

多层神经网络能够对任意的线性或者非线性函数进行逼近,其精度也是任意的。但是BP网络不一定能找到解。训练时,学习速率太快可能引起不稳定,太慢则要花费太多时间,不同的训练算法也对网络的性能有很大影响。BP网络对隐层的神经元数目也是很敏感的,太少则很难适应,太多则可能设计出超适应网络。

简介

主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解。新的映射空间的变量由原始数据变量的线性组合构成,从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交,则消除了变量间的关联性,简化了原始过程特性分析的复杂程度。

编辑本段

基本思路

主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合。从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关。其内容包括主元的定义和获取,以野厅雀及通过主元的数据重构。

编辑本段

定义

假设一个要研究的系统仅包含两个变量 x1 , x2 。将两个变量的样本点表示在一个平面图上,可以看出所有的样本点集中在一个扁型的椭圆区域内。因为样本点之间的差异显然是由于 x1 , x2 的变化而引起的。我们可以看出在沿着椭圆横轴的方伏缓向上( y1 )的变动较大,而纵轴方向上( y2 )的变动较小。这说明了样本点的主要变动都体现在横轴方向上,比如 85%以上,那么这时就可以将 y 2忽略而只考虑y1 。这样两个变量就可以简化为一个变量了。我们称 y1 , y 2分别为 x1 , x2 的第一主元和第二主元。一般情况下,如果样本有 p 个变量,若样本之间的差异能由 p 个变颂早量的 K 个(K<p)个主元成分来概括,那么就能用 K 个主元来代替 p 个变量。

编辑本段

主元得分向量

主元分析中数据总体的协方差阵往往是未知的,这需要利用过程的正常运行数据进行估计。假设采集得到过程数据样本为 X ∈ R n ×p,其中 n是样本的数量,p 为过程变量的个数。为了避免变量的不同量纲的影响,需首先对数据进行标准化处理,即将各个变量转化为均值为 0,方差为 1 的数据。

编辑本段

确定方法

目前在主元个数的选择上,有两种比较普遍的方法,一种使主元回归检验法,一种是主元贡献率累积和百分比法(CPV)。

编辑本段

检测统计量

检测统计

从统计的角度讲,要检测数据中是否包含过程的故障信息,可以通过建立统计量进行假设检验,判断过程数据是否背离了主元模型。通常的方法是主元子空间建立 Hotelling T2 统计量进行统计检验;在残差子空间中建立 Q 统计量进行统计检测。

百度百科上有的

http://baike.baidu.com/view/3656019.htm


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/12351633.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-22
下一篇2023-05-22

发表评论

登录后才能评论

评论列表(0条)

    保存