
说得有点抽象,你可以参考下面的例子
%% 导入原始数据
[Xrow, Xcol] = size(X)% Xrow:样本个数 Xcol:样本属性个数
%% 数据预处理,进行标准化出理,处理后均值为0方差为1
Xc = mean(X)% 求原始数据的均值
Xe = std(X) % 求原始数据的标准差
X0 = (X-ones(Xrow,1)*Xc) ./ (ones(Xrow,1)*Xe)% 标准阵X0,标颂空准化为均值0,方差1
%% 求标准化矩阵的协方差矩阵
sigma = cov(X0)
%% 特征值分解
[V, D] = eig(sigma)% 求协方差矩阵的特征向量(V)和特征值(D)
lmda = diag(D) % 将主对角线盯神上为特征值的对角阵变换成特征值列向量
[Dt, index] = sort(lmda, 'descend')% 特征值按降序排列,Dt是排列后的数组,index是序号
%% 根据累积主元贡献率选取主元个数
npc = 1
while sum(Dt(1:npc)) / sum(Dt) <0.85
npc = npc + 1
end
%% 计算负荷向量
P_all = V(:, index) % 全部负荷
P_pcs = P_all(:, 1:npc) % 主元负荷
%% 构建主元对角阵
Lambda = diag(Dt(1:npc))
%% 计算得分向量
t_all = X0 * P_all % 全部得分
t_pcs = t_all(:, 1:npc) % 主元得分
例3 用BP网络估计胆固醇含量这是一个将神经网络用于医疗应用的例子。我们设计一个器械,用于从血样的光谱组成的测量中得到血清的
胆固醇含量级别,我们有261个病人的血样值,包括21种波长的谱线的数据,对于这些病人,我们得到了基于 光谱分类的胆固醇含量级别hdl,ldl,vldl。
(1) 样本数据的定义与预处理。
choles_all.mat 文件中存储了网络训练所需要的全部样本数据。
利用 load 函数可以在工作空间中自动载入网络训练所需的输入数据 p 和目标数据 t,即
load choles_all
sizeofp = size (p)
sizeofp = 21 264
sizeoft = size (t)
sizeoft = 3 264
可见,样本集的大小为 264。为了提高神经网络的训练效率,通常要对样本数据作适当的预处理。首先,利用 prestd 函数对样本数据作归一化处理,使得归一化后的输入和目标数据均服从正态洞脊卜分布,即 [pn,meanp,stdp,tn,meant,stdt] = prestd(p,t)
然后,利用 prepca 函数对归一化后的样本数据进行主元分析,从而消除样本数据中的冗余成份,起到数据降维的目的。
[ptrans,transMat] = prepca(pn,0.001)
[R,Q] = size(ptrans)
R = 4 Q = 264
可见,主元分析之后的样本数据维数被大大降低,输入数据的维数由 21 变为 4。
(2) 对训练样本、验证样本和测试样本进行划分。
为了提高网络的推广能力和识别能力,训练中采用“提前停止”的方法,因此,在训练之前,需要将上面处理后的样本数据适当划分为训练样本集、验证样本集和测试样本集。
(3) 网络生成与训练。 选用两层 BP 网络,其中网络输入维数为 4,输出维纳穗数为 3,输出值即为血清胆固醇的三个指标值大小。网络中间层神经元数目预选为 5,传递函数类型选为 tansig 函数,输出层传递函数选为线性函数 purelin,训练函数设为 trainlm。网络的生成语句如下:
net = newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')
利用 train 函数对所生成的神经网络进行训野培练,训练结果如下:
[net,tr]=train(net,ptr,ttr,[],[],val,test)
见,网络训练迭代至第 20 步时提前停止,这是由于验证误差已经开始变大。利用下面语句可以绘制出训练误差、验证误差和测试误差的变化曲线,如图 4.50 所示。由图可见,验证误差和测试误差的变化趋势基本一致,说明样本集的划分基本合理。由训练误差曲线可见,训练误差结果也是比较满意的。
(4) 网络仿真。 为了进一步检验训练后网络的性能,下面对训练结果作进一步仿真分析。利用 postreg函数可以对网络仿真的输出结果和目标输出作线性回归分析,并得到两者的相关系数,从而可以作为网络训练结果优劣的判别依据。仿真与线性回归分析如下:
an = sim(net,ptrans)
a = poststd(an,meant,stdt)
for i=1:3
figure(i)
[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))
end
%导入原始测量数据
load choles_all
%对原始数据进行规范化处理,prestd是对输入数据和输出数据进行规范化处理,
%prepca可以删除一些数据,适当地保留了变化不小于0.01的数据
[pn,meanp,stdp,tn,meant,stdt]=prestd(p,t)
[ptrans,transMat]=prepca(pn,0.001)
[R,Q]=size(ptrans)
%将原始数据分成几个部分作为不同用途四分已用于确证,四分一用于测试,二分一用于训练网络
iitst=2:4:Q
iival=4:4:Q
iitr=[1:4:Q 3:4:Q]
%vv是确证向量,.P是输入,.T是输出,vt是测试向量
vv.P=ptrans(:,iival)
vv.T=tn(:,iival)
vt.P=ptrans(:,iitst)
vt.T=tn(:,iitst)
ptr=ptrans(:,iitr)
ttr=tn(:,iitr)
%建立网络,隐层中设计5个神经元,由于需要得到的是3个目标,所以网络需要有3个输出
net=newff(minmax(ptr),[5 3],{'tansig' 'purelin'},'trainlm')
%训练网络
net.trainParam.show=5
[net,tr]=train(net,ptr,ttr,[],[],vv,vt)
%绘出训练过程中各误差的变化曲线
plot(tr.epoch,tr.perf,'r',tr.epoch,tr.vperf,':g',tr.epoch,tr.tperf,'-.b')
legend('训练','确证','测试',-1)
ylabel('平方误差')
xlabel('时间')
pause
%将所有数据通过网络(包括训练,确证,测试),然后得到网络输出和相应目标进行线性回归,
%对网络输出进行反规范化变换,并绘出个各级别的线性回归结果曲线
an=sim(net,ptrans)
a=poststd(an,meant,stdt)
%得到3组输出,所以进行3次线性回归
for i=1:3
figure(i)
[m(i),b(i),r(i)] = postreg(a(i,:),t(i,:))
end
网络输出数据和目标数据作线性回归后,前面两个输出对目标的跟踪比较好,相应的R值接近0.9。而第三个输出却并不理想,我们很可能需要在这点上做更多工作。可能需要使用其它的网络结构(使用更多的隐层神经元),或者是在训练技术上使用贝页斯规范华而不实使用早停的方法。
把隐层数目改为20个时,网络训练的3种误差非常接近,得到的结果R也相应提高。但不代表神经元越多就越精确。
多层神经网络能够对任意的线性或者非线性函数进行逼近,其精度也是任意的。但是BP网络不一定能找到解。训练时,学习速率太快可能引起不稳定,太慢则要花费太多时间,不同的训练算法也对网络的性能有很大影响。BP网络对隐层的神经元数目也是很敏感的,太少则很难适应,太多则可能设计出超适应网络。
简介主元分析法(PCA)是目前基于多元统计过程控制的故障诊断技术的核心,是基于原始数据空间,通过构造一组新的潜隐变量来降低原始数据空间的维数,再从新的映射空间抽取主要变化信息,提取统计特征,从而构成对原始数据空间特性的理解。新的映射空间的变量由原始数据变量的线性组合构成,从而大大降低了投影空间的维数。由于投影空间统计特征向量彼此正交,则消除了变量间的关联性,简化了原始过程特性分析的复杂程度。
编辑本段
基本思路
主元分析法的基本思路是:寻找一组新变量来代替原变量,新变量是原变量的线性组合。从优化的角度看,新变量的个数要比原变量少,并且最大限度地携带原变量的有用信息,且新变量之间互不相关。其内容包括主元的定义和获取,以野厅雀及通过主元的数据重构。
编辑本段
定义
假设一个要研究的系统仅包含两个变量 x1 , x2 。将两个变量的样本点表示在一个平面图上,可以看出所有的样本点集中在一个扁型的椭圆区域内。因为样本点之间的差异显然是由于 x1 , x2 的变化而引起的。我们可以看出在沿着椭圆横轴的方伏缓向上( y1 )的变动较大,而纵轴方向上( y2 )的变动较小。这说明了样本点的主要变动都体现在横轴方向上,比如 85%以上,那么这时就可以将 y 2忽略而只考虑y1 。这样两个变量就可以简化为一个变量了。我们称 y1 , y 2分别为 x1 , x2 的第一主元和第二主元。一般情况下,如果样本有 p 个变量,若样本之间的差异能由 p 个变颂早量的 K 个(K<p)个主元成分来概括,那么就能用 K 个主元来代替 p 个变量。
编辑本段
主元得分向量
主元分析中数据总体的协方差阵往往是未知的,这需要利用过程的正常运行数据进行估计。假设采集得到过程数据样本为 X ∈ R n ×p,其中 n是样本的数量,p 为过程变量的个数。为了避免变量的不同量纲的影响,需首先对数据进行标准化处理,即将各个变量转化为均值为 0,方差为 1 的数据。
编辑本段
确定方法
目前在主元个数的选择上,有两种比较普遍的方法,一种使主元回归检验法,一种是主元贡献率累积和百分比法(CPV)。
编辑本段
检测统计量
检测统计
从统计的角度讲,要检测数据中是否包含过程的故障信息,可以通过建立统计量进行假设检验,判断过程数据是否背离了主元模型。通常的方法是主元子空间建立 Hotelling T2 统计量进行统计检验;在残差子空间中建立 Q 统计量进行统计检测。
百度百科上有的
http://baike.baidu.com/view/3656019.htm
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)