关于主元分析的步骤_软件运维

先求凯樱亏协方差矩阵，之后对协方差矩阵求特征值与特征向量，将特征从大到小排列，取其贡献率大于85%~95%的特征值与特征向量作为其主元与负荷，之后根据负荷求得分。

说得有点抽象，你可以参考下面的例子

%% 导入原始数据

[Xrow, Xcol] = size(X)% Xrow：样本个数 Xcol：样本属性个数

%% 数据预处理，进行标准化出理，处理后均值为0方差为1

Xc = mean(X)% 求原始数据的均值

Xe = std(X) % 求原始数据的标准差

X0 = (X-ones(Xrow,1)*Xc) ./ (ones(Xrow,1)*Xe)% 标准阵X0,标颂空准化为均值0，方差1

%% 求标准化矩阵的协方差矩阵

sigma = cov(X0)

%% 特征值分解

[V, D] = eig(sigma)% 求协方差矩阵的特征向量（V）和特征值（D）

lmda = diag(D) % 将主对角线盯神上为特征值的对角阵变换成特征值列向量

[Dt, index] = sort(lmda, 'descend')% 特征值按降序排列，Dt是排列后的数组，index是序号

%% 根据累积主元贡献率选取主元个数

npc = 1

while sum(Dt(1:npc)) / sum(Dt) <0.85

npc = npc + 1

end

%% 计算负荷向量

P_all = V(:, index) % 全部负荷

P_pcs = P_all(:, 1:npc) % 主元负荷

%% 构建主元对角阵

Lambda = diag(Dt(1:npc))

%% 计算得分向量

t_all = X0 * P_all % 全部得分

t_pcs = t_all(:, 1:npc) % 主元得分

例3 用BP网络估计胆固醇含量

这是一个将神经网络用于医疗应用的例子。我们设计一个器械，用于从血样的光谱组成的测量中得到血清的

胆固醇含量级别，我们有261个病人的血样值，包括21种波长的谱线的数据，对于这些病人，我们得到了基于光谱分类的胆固醇含量级别hdl,ldl,vldl。

(1) 样本数据的定义与预处理。

choles_all.mat 文件中存储了网络训练所需要的全部样本数据。

利用 load 函数可以在工作空间中自动载入网络训练所需的输入数据 p 和目标数据 t，即

load choles_all

sizeofp = size (p)

sizeofp = 21 264

sizeoft = size (t)

sizeoft = 3 264

可见，样本集的大小为 264。为了提高神经网络的训练效率，通常要对样本数据作适当的预处理。首先，利用 prestd 函数对样本数据作归一化处理，使得归一化后的输入和目标数据均服从正态洞脊卜分布，即 [pn,meanp,stdp,tn,meant,stdt] = prestd(p,t)

然后，利用 prepca 函数对归一化后的样本数据进行主元分析，从而消除样本数据中的冗余成份，起到数据降维的目的。

[ptrans,transMat] = prepca(pn,0.001)

[R,Q] = size(ptrans)

R = 4 Q = 264

可见，主元分析之后的样本数据维数被大大降低，输入数据的维数由 21 变为 4。

(2) 对训练样本、验证样本和测试样本进行划分。

为了提高网络的推广能力和识别能力，训练中采用“提前停止”的方法，因此，在训练之前，需要将上面处理后的样本数据适当划分为训练样本集、验证样本集和测试样本集。

(3) 网络生成与训练。选用两层 BP 网络，其中网络输入维数为 4，输出维纳穗数为 3，输出值即为血清胆固醇的三个指标值大小。网络中间层神经元数目预选为 5，传递函数类型选为 tansig 函数，输出层传递函数选为线性函数 purelin，训练函数设为 trainlm。网络的生成语句如下：

net = newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')

利用 train 函数对所生成的神经网络进行训野培练，训练结果如下：

[net,tr]=train(net,ptr,ttr,[],[],val,test)

见，网络训练迭代至第 20 步时提前停止，这是由于验证误差已经开始变大。利用下面语句可以绘制出训练误差、验证误差和测试误差的变化曲线，如图 4.50 所示。由图可见，验证误差和测试误差的变化趋势基本一致，说明样本集的划分基本合理。由训练误差曲线可见，训练误差结果也是比较满意的。

(4) 网络仿真。为了进一步检验训练后网络的性能，下面对训练结果作进一步仿真分析。利用 postreg函数可以对网络仿真的输出结果和目标输出作线性回归分析，并得到两者的相关系数，从而可以作为网络训练结果优劣的判别依据。仿真与线性回归分析如下：

an = sim(net,ptrans)

a = poststd(an,meant,stdt)

for i=1:3

figure(i)

[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))

end

%导入原始测量数据

load choles_all

%对原始数据进行规范化处理,prestd是对输入数据和输出数据进行规范化处理，

%prepca可以删除一些数据，适当地保留了变化不小于0.01的数据

[pn,meanp,stdp,tn,meant,stdt]=prestd(p,t)

[ptrans,transMat]=prepca(pn,0.001)

[R,Q]=size(ptrans)

%将原始数据分成几个部分作为不同用途四分已用于确证，四分一用于测试，二分一用于训练网络

iitst=2:4:Q

iival=4:4:Q

iitr=[1:4:Q 3:4:Q]

%vv是确证向量，.P是输入，.T是输出，vt是测试向量

vv.P=ptrans(:,iival)

vv.T=tn(:,iival)

vt.P=ptrans(:,iitst)

vt.T=tn(:,iitst)

ptr=ptrans(:,iitr)

ttr=tn(:,iitr)

%建立网络，隐层中设计5个神经元，由于需要得到的是3个目标，所以网络需要有3个输出

net=newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')

%训练网络

net.trainParam.show=5

[net,tr]=train(net,ptr,ttr,[],[],vv,vt)

%绘出训练过程中各误差的变化曲线

plot(tr.epoch,tr.perf,'r',tr.epoch,tr.vperf,':g',tr.epoch,tr.tperf,'-.b')

legend('训练','确证','测试',-1)

ylabel('平方误差')

xlabel('时间')

pause

%将所有数据通过网络（包括训练，确证，测试），然后得到网络输出和相应目标进行线性回归，

%对网络输出进行反规范化变换，并绘出个各级别的线性回归结果曲线

an=sim(net,ptrans)

a=poststd(an,meant,stdt)

%得到3组输出，所以进行3次线性回归

for i=1:3

figure(i)

[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))

end

网络输出数据和目标数据作线性回归后，前面两个输出对目标的跟踪比较好，相应的R值接近0.9。而第三个输出却并不理想，我们很可能需要在这点上做更多工作。可能需要使用其它的网络结构（使用更多的隐层神经元），或者是在训练技术上使用贝页斯规范华而不实使用早停的方法。

把隐层数目改为20个时，网络训练的3种误差非常接近，得到的结果R也相应提高。但不代表神经元越多就越精确。

多层神经网络能够对任意的线性或者非线性函数进行逼近，其精度也是任意的。但是BP网络不一定能找到解。训练时，学习速率太快可能引起不稳定，太慢则要花费太多时间，不同的训练算法也对网络的性能有很大影响。BP网络对隐层的神经元数目也是很敏感的，太少则很难适应，太多则可能设计出超适应网络。

简介

主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心，是基于原始数据空间，通过构造一组新的潜隐变量来降低原始数据空间的维数，再从新的映射空间抽取主要变化信息，提取统计特征，从而构成对原始数据空间特性的理解。新的映射空间的变量由原始数据变量的线性组合构成，从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交，则消除了变量间的关联性，简化了原始过程特性分析的复杂程度。

编辑本段

基本思路

主元分析法的基本思路是：寻找一组新变量来代替原变量，新变量是原变量的线性组合。从优化的角度看，新变量的个数要比原变量少，并且最大限度地携带原变量的有用信息，且新变量之间互不相关。其内容包括主元的定义和获取，以野厅雀及通过主元的数据重构。

编辑本段

定义

假设一个要研究的系统仅包含两个变量 x1 ， x2 。将两个变量的样本点表示在一个平面图上，可以看出所有的样本点集中在一个扁型的椭圆区域内。因为样本点之间的差异显然是由于 x1 ， x2 的变化而引起的。我们可以看出在沿着椭圆横轴的方伏缓向上（ y1 ）的变动较大，而纵轴方向上( y2 )的变动较小。这说明了样本点的主要变动都体现在横轴方向上，比如 85％以上，那么这时就可以将 y 2忽略而只考虑y1 。这样两个变量就可以简化为一个变量了。我们称 y1 ， y 2分别为 x1 ， x2 的第一主元和第二主元。一般情况下，如果样本有 p 个变量，若样本之间的差异能由 p 个变颂早量的 K 个(K<p)个主元成分来概括，那么就能用 K 个主元来代替 p 个变量。

编辑本段

主元得分向量

主元分析中数据总体的协方差阵往往是未知的，这需要利用过程的正常运行数据进行估计。假设采集得到过程数据样本为 X ∈ R n ×p，其中 n是样本的数量，p 为过程变量的个数。为了避免变量的不同量纲的影响，需首先对数据进行标准化处理，即将各个变量转化为均值为 0，方差为 1 的数据。

编辑本段

确定方法

目前在主元个数的选择上，有两种比较普遍的方法，一种使主元回归检验法，一种是主元贡献率累积和百分比法（CPV）。

编辑本段

检测统计量

检测统计

从统计的角度讲，要检测数据中是否包含过程的故障信息，可以通过建立统计量进行假设检验，判断过程数据是否背离了主元模型。通常的方法是主元子空间建立 Hotelling T2 统计量进行统计检验；在残差子空间中建立 Q 统计量进行统计检测。

百度百科上有的

http://baike.baidu.com/view/3656019.htm

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/yw/12351633.html

关于主元分析的步骤

发表评论

评论列表（0条）