
支持向量机(Support Vector Machine,SVM)分类过程是基于Vapnik和Cher- vonenkis提出的统计学习理论(Statistical Learning Theory,SLT),Vapnik对SVM进行了详细的讨论(Vapnik,1995;Shah et al,2003;Mahesh et al,2004;李海涛等,2007;张兵等,2011)。支持向量机(SVM)分类的主要思想是寻找最优分离超平面(Optimal Separating Hyperplane,OSH),将两类样本无错误的分开,并使分类空隙最大,如图22所示。记H为最优分离超平面,H1和H2之间的距离M为分类间隔。
图22 最优分离超平面和支持向量机的最大边缘
支持向量机用来解决非线性问题,它是通过如图22(a)所示的核函数Φ(x)表示的非线性变换把非线性问题转换成高维数的线性问题,在这种线性变换特征空间中可以获得最优分离超平面,支持向量机方法正是基于这种从线性可分情况下的最优分类面提出的。结合二分类问题,可以通过线性超平面把给定数据集划分成两类,如图22(b)所示。因此,支持向量机针对两种感兴趣区域的最大边缘,并在它们之间设置了一个线性分离超平面,以此拓展到高维空间线性分离超平面发展成为最优分离超平面。
图22中实心点和空心点分别表示两类的样本,H为分类线,H1和H2分别为过各类样本中距离分类线最近的点且平行于分类线的直线,它们之间的距离叫做分类空隙或分类间隔(margin)。所谓最优分类线就是要求分类线不但能将两类正确分开,而且要使分类间隔最大。前者是保证经验风险最小(为0),分类间隔最大实际上就是使推广性的界中的置信范围最小,从而使真实风险最小。推广到高维,最优分类线就成为最优分类面。
支持向量机的目标就是寻求一个超平面,它能否联合核函数来分离数据,以便于使所有具有相同标签的点能归类到超平面的同一侧。假设训练数据集是线性可分的k个训练样本组成,这些样本表示为(xi,yi)(i =1,…,k),其中x∈Rn是各个样本的n维数据矢量,并且属于两类中标以yi∈ {-1,+1}的任何一类(类别标签)。支持向量机就是找到n维空间中由g(x)=w·x+b定义的线性判定函数。分类超平面(OSH)方程如下:
高光谱遥感影像信息提取技术
假如矢量w和尺度b能够确定的话,判定函数式(25)和式(26)能够被满足,则这些训练的模式被称为可线性分离:
高光谱遥感影像信息提取技术
即使两类所有样本都满足|g(xi)|≥1,距离分类面最近的样本的|g(xi)|=1,这样分类间隔就等于2/w,因此使间隔最大等价于使w(或||w‖2)最小;而要求分类线对所有样本正确分类,就是要求它满足:
高光谱遥感影像信息提取技术
因此,满足条件式(24)且使‖w‖2最小的分类面就是最优分类面。过两类样本中距离分类面最近的点且平行于最优分类面的超平面H1、H2上的训练样本就是式(24)中使等号成立的那些样本,称之为支持向量(Support Vectors)。因为它们支撑了最优分类面,如图22中H1、H2上标出的点。
根据上面的讨论,最优分类面问题可以表示成如下的二次规划问题,即在条件式(27)的不等式约束下,求函数
高光谱遥感影像信息提取技术
的最小值。为此,可以定义如下的拉格朗日(Lagrange)函数:
高光谱遥感影像信息提取技术
其中,ai>0为Lagrange系数,下面对w和b求Lagrange函数的极小值。把式(29)分别对w和b求偏微分并令它们等于0,就可以把原问题转化为如下这种较简单的对偶问题,在约束条件:
高光谱遥感影像信息提取技术
对ai求解下列函数的最大值:
高光谱遥感影像信息提取技术
若 为最优解,则
高光谱遥感影像信息提取技术
上式表明最优分类面的权系数向量是训练样本向量的线性组合。
这是一个不等式约束下二次函数求极值问题,存在唯一解。且根据Kuhn-Tucker条件,这个优化问题的解须满足:
高光谱遥感影像信息提取技术
因此,对多数样本ai将为零,取值不为零的 对应于使式(27)等号成立的样本即支持向量,它们通常只是全体样本中的很少一部分。
基于最优分类面的分类规则就是解上述问题得到的最优分类函数:
高光谱遥感影像信息提取技术
式中:sgn()为符号函数。由于非支持向量对应的ai均为零,因此式(214)中的求和实际上只对支持向量进行。b是分类的域值,可以由任意一个支持向量用式(27)求得,或通过两类中任意一对支持向量取中值求得。最优分类面是在线性可分的前提下得到的,在线性不可分的情况下,就是某些训练样本不能满足条件式(27)时得到的最优分类面,称之为广义最优分类面。因此可以在式(27)中增加一个松弛项εi≥0,成为:
高光谱遥感影像信息提取技术
广义最优分类面问题可以进一步演化为在条件式(215)的约束下求下列函数的极小值:
高光谱遥感影像信息提取技术
式中:C>0是某个指定的常数,它用来控制对错分样本惩罚的程度,实现在错分样本的比例与算法复杂度之间的折中。
广义最优分类面的对偶问题与线性可分情况下几乎完全相同,只是约束条件式(210)变为:
高光谱遥感影像信息提取技术
实际求解最优化问题和计算分类平面时,只涉及训练样本之间的内积运算(xi,yi),即只需计算核函数K(x · x′)。目前常用的核函数有线性核函数、多项式核函数、高斯径向基核函数(RBF核函数)和Sigmoid核函数等。
import numpy as np
from sklearn import svm
x_train = nparray([[124, 127], [136, 174], [138, 164],
[138, 182], [138, 19], [14, 17],
[148, 182], [154, 182], [156, 208],#Af型蠓虫
[114, 182], [118, 196], [12, 186],
[126, 2], [128, 2], [13, 196]])#Apf型蠓虫
y_train = nparray([0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1])#Af型蠓虫标签为0,Apf型蠓虫标签为1
model = svmSVC(C=10, kernel='linear', degree=3, gamma='auto')#定义SVM模型
modelfit(x_train, y_train)#进行模型训练
x_test = nparray([[124, 18], [128, 184], [14, 204]])
y_test = modelpredict(x_test)
print("y_predict:", y_test)
w = modelcoef_
print("w:", w)
b = modelintercept_
print("b:", b)
原文:Multivariate pattern analysis of MEG and EEG: A comparison of representational structure in time and space
MEG和EEG的多变量模式分析:表征性结构在时间和空间的比较
亮点 :系统比较了MEG和EEG在采用SVM的RSA分析时的结果差异,其比较思路和技术细节值得参考,例如给出了采用方法的详尽理由,包括优点辨析和成功条件。也展示了如何用RSA结合EEG/MEG和fMRI进行研究。可以加深理解MEG、EEG差异,以及RSA分析方法的使用逻辑和注意问题。
内容为个人思考补充
脑磁图MEG和脑电图EEG来进行多变量模式分析可以揭示认知背后的高时间分辨率的神经机制,但问题是 MEG和EEG的神经活动采样存在系统的差异 。
Method :为了解释这个问题,在被试观看 日常物体的图像 时进行了同步的脑磁图MEG/脑电图EEG研究。对脑磁图和脑电图数据进行多变量分类分析(multivariate classification analyses),互相比较时间进程下的结果,并对功能磁共振成像数据进行单独的空间分析。
Result :脑磁图和脑电图显示的视觉处理的毫秒级时空变化基本一致。除了产生收敛的结果外,也发现了脑磁图和脑电图对于视觉表征部分独特的方面。 相较于EEG,在MEG这些独特的成分较早出现 。通过fMRI识别这些独特成分的来源, 无论脑磁图还是脑电图都来自于高级视觉皮层,而脑磁图还显示了来自低水平视觉皮层的成分 。
Conclusion :总之,对MEG和EEG数据的多变量分析提供了一个关于神经处理的趋同和互补的观点,并促使在MEG和EEG研究中更广泛地采用这些方法。
16名健康人类志愿者(7名女性,年龄mean ± sd = 241 ± 45)
刺激集包括92张彩色照片(Kiani等人,2007;Kriegeskorte等人,2008b;Cichy等人,2014,2016b),包括人类和非人类的面部和身体,以及分隔在灰色背景上的自然和人工物体(图1a)。
被试观看在屏幕中心呈现的图像(视觉角度4度),时间为500毫秒,并叠加一个浅灰色的固定十字。共15次测试,每次持续290秒。在每次测试中,每个图像都以随机顺序呈现两次,试验间隔(ITI)被随机设置为10或11秒,概率相同。被试被要求保持固定,并在每3至5次试验中随机显示回形针图像时按下按钮并眨眼(平均4次)。回形针图像不是92个图像集的一部分,回形针试次被排除在进一步分析之外。
同时采集MEG和 EEG 信号。MEG 306个通道,EEG 74个通道。
先用Maxfilter software,采用默认参数处理清除不良数据。之后用BrainStorm进行预处理,分段是-100 到 900ms,采用30Hz低通滤波
以下分析为揭示两种数据对于不同实验材料和概念水平进行分类的精度
使用了多种采样方式
1)全部74个EEG通道;2)全部306个MEG通道;3)74个MEG通道的随机子集和同样数量的EEG通道路;4)380(306+74)个所有MEG和EEG通道等
首先确认了单个实验条件下,区分MEG和EEG激活模式的时间进程。分类采用了SVM线性支持向量机,使用libsvm软件,固定正则化参数,C=1
Feature selection分类方法是时间分辨的,从MEG和EEG通道的测量结果中分别创建了每一毫秒的模式向量。特别是,对于每个时间点t(从-100到900毫秒,以1毫秒为单位), 每个试验的特定条件下通道激活值作为模式向量 (M =3015个run,每个材料重复两次),从而产生30个原始模式向量。
Pattern assembly & partitioningAverage为了减少计算负荷,提升信噪比,按照随机顺序再次平均了每组(k=5)的M向量,得到了M/k=6 个的平均模式向量。
Pairwise classification对于所有成对的条件组合,在平均的模式向量上训练和测试SVM分类器。详细来讲,M/k-1个模式向量被分配到一个训练集来训练SVM。保留的模式向量被分配到测试集,用来评估训练后的SVM的性能(%解码准确率)。
训练和测试程序重复100次,随机分配原始模式向量到平均模式向量。对于减少通道数据集的情况,这也涉及到对每个迭代的通道进行重新取样,以获得解码准确的无偏估计。
RDM对于每个时间点,将跨迭代的平均分类结果存储在92 92大小的矩阵中,按分类条件的行和列进行索引。这个解码矩阵是对称的,有一个未定义的对角线(因为条件内没有分类)。
评估了何时MEG和EEG激活模式可以在 上级(有生命与无生命,自然与人工)、中级(身体与面孔) 和下级(人与动物的身体和面孔)这三个水平区分五种不同物体类型。为此,根据矩阵元素索引的条件对,将92 92解码矩阵划分为相关分类的类别内和类别间。类别间减去类别内的解码准确度的平均值 作为 类别的聚类衡量标准 ,表明关于类别成员的信息超过单一图像的可辨别性。
以下分析为揭示MEG和EEG测量的差异之处
为了揭示MEG和EEG数据的多变量模式分析所发现的视觉表征的共同与独特之处,使用了表征相似性分析(RSA)。将 解码准确率作为异质性(dissimilarity)测量指标:解码准确率越高,分类条件的激活模式就越不相似。
使用由 线性SVM确定的解码准确率作为距离测量的优点 是:i)它可以自动选择包含鉴别性信息的通道,从而避免了基于人类的选择的需要,因为这种选择可能带来偏见;ii)它可能对噪音很强的通道不那么敏感,而不是对所有通道的贡献进行同样权重的测量,如相关性分析。
MEG和EEG解码矩阵被解析为 表征差异矩阵(RDMs) ,这允许在两种模式之间进行直接比较。其基本思想是,如果EEG和MEG测量类似的信号,那么在EEG中唤起类似模式的两个物体也应该在MEG中唤起类似的模式。
RDMs的有效比较要求它们 由独立的数据构建 (Henriksson等人,2015)。否则,与实验条件无关的trial by trial信号波动,如认知状态(注意力、警惕性)或外部噪声(运动、电磁噪声)将膨胀、扭曲,并使EEG和MEG之间的相似性产生偏差。
为了独立构建MEG和EEG的RDMs,我们将数据分成两半,将偶数和奇数试验分配到不同的集合 。然后我们用RSA比较了(Spearman's R)来自split half 1与split half 2的RDMs,在MEG和EEG测量模式内部和之间进行比较(Fig 3A)。重要的是, 由于相同试验的脑电图和脑电图数据在每次分割中都被分组,脑电图和脑电图测量模式内部和之间的比较同样受到逐次试验波动的影响,因此具有很好的可比性 (如果脑电图和脑电图分别记录于记录在单独的session,就不会出现这种情况强调了两个数据需要同时获得而不能分别获取的必要性)。
比较不同成像模式(MEG与EEG)的RDMs,只显示了视觉表征的共同方面。比较成像模式内的RDMs(MEG vs MEG,EEG vs EEG)获取的信度估计就包含了其共同和独特方面。
因此, 模式内相似性减去跨模式相似性的差异 揭示了用MEG或EEG测量的视觉表征的独特方面。在这个分析中,时间分辨的分类与上述单个图像分类类似,但为了减少试次,再次平均模式向量时平均k=3个的模式向量。
与已有数据进行对比Cichy, RM, Pantazis, D, Oliva, A, 2014 Resolving human object recognition in space and time Nat Neurosci 17, 455–462
15名参与者在记录fMRI数据时观看了相同的92幅图像集。每个参与者在两个不同的日子里完成了两个测试,每个测试由10-14次trial组成,每次持续384秒。在每次运行中,每幅图像都被展示一次,图像顺序是随机的。在每次试验中,图像显示500毫秒。保持被试注意的任务所有试验中的25%是无效试验,在此期间只呈现灰色背景,固定的注视点变暗了100毫秒。被试被要求用按下按钮的方式来报告固定交叉亮度的变化。
两个兴趣区(ROI):初级视觉区 V1(primary visual area)和下颞叶皮质IT(inferior temporal cortex)。
使用基于相关性的异质性测量为每个被试单独构建fMRI的RDMs。
构建相似性矩阵对于每个ROI,提取并串联每个图像条件的fMRI 体素激活值 。然后,计算每对图像条件的模式向量之间的所有成对相关系数(皮尔逊的R),并将结果存储在一个92 92的对称矩阵中,按比较条件的行和列索引。
转换指标通过1-R,将相关相似性测量转换为差异性测量。选择这种距离测量的原因是,
1)它是fMRI分析中的常见选择;
2)已被证明能够与MEG数据成功融合;
3)计算速度快;并允许直接比较基于相同fMRI数据的结果。
为了进一步的分析,对所产生的异质性的测量进行了平均,产生 每个被试和ROI一个RDM 。
为了确定在MEG和EEG中观察到的时间动态的空间来源,并将它们相互比较,使用了基于RSA的MEG/EEG-fMRI融合方法(Cichy等人,2014,2017,2016b,a)。
采取这一分析的目的是绑定特定的(无时间)的fMRI空间点与(无空间)的MEG/EEG时间点的表征相似性,如果条件在fMRI和MEG信号空间中唤起类似的模式,那么时间和空间的点就被联系起来。
这种方法的成功关键是取决于,在物体视觉过程中表征几何学在空间和时间上的快速变化,从而空间分辨率的fMRI RDMs可以与时间分辨率的MEG RDMs独特地联系起来。
最后,为了比较基于不同MEG和EEG数据集的融合结果,我们基于一个通道采样的结果中减去基于另一个通道采样的结果,来获得特定被试的融合结果。
对于每个ROI和被试,计算每个时间点特定的fMRI RDM和平均的MEG或EEG RDM之间的相似性,从而得到表征相似性时间进程。(Fig 4A)
对每个fMRI被试,在时间点从-100到+500毫秒以5毫秒为单位,分别进行了Searchlight分析。对于每个体素v,在以体素v为中心、半径为4个体素的球体中提取特定条件的t-value 模式(searchlight at v),并将它们排列成 模式向量 。
用1减去每对条件的Pearson's R 来计算模式向量之间的成对不相似性,从而得出fMRI RDM。然后计算探照灯特定的fMRI RDM和被试平均的MEG或EEG RDMs之间的相似性(Spearman's R)。
对大脑中的每个体素重复这一分析,得到了fMRI和MEG或EEG在每个时间点的表征相似性的三维图。对所有的时间点重复同样的方法,我们得到了一系列的三维地图,揭示了在物体感知过程中人脑的时空激活,这些激活分别由MEG和EEG记录。
置换检验和bootstrap
对于每个时间点,对解码矩阵的所有元素进行了平均,产生了所有实验条件下特定条件下解码准确性的大平均时间过程(Fig 1C)。观察到MEG/EEG 的所有四个主要通道采样的显著效果。这表明, 原则上MEG和EEG信号都可以进行同样的多元分析 ,并再现了Cichy等人(2014)基于脑电图的结果。
鉴于MEG和EEG在解码单一图像方面的定性和定量差异,调查了MEG和EEG在揭示不同分类抽象水平的物体类别处理信息方面是否也有差异。
按照Cichy等人(2014)的方法,我们将解码准确率矩阵划分为两个分区:图像属于统一类别浅灰,不同类别深灰。
平均子类之内和之间的解码正确率(decoding accuracies)的比较作为检验类别的聚类标准。其原理是,为了揭示多于单个图像信息的类别信息,必须从表明单个图像和类别之间(不同的子类)的差异的信息中减去表明单个图像之间的差异的信息(相同的子类)。这就产生了对一个表征的明确测量,即类别信息可以以线性方式读出(DiCarlo和Cox,2007)。
发现在MEG和EEG的sensor的所有四个采样中,所有五个细分类别的信息都有明显的信号(Fig 2A-E,中间部分,除了EEG中的自然性)。
从差异的角度来看,仅发现微小的统计差异。且潜伏期无显著差异。
最后,基于MEG&EEG与MEG采样的结果比较显示,除自然性外,所有情况下都有差异(Fig 2A-E)。
平均单幅图像解码准确性和特定类别的信号是汇总统计,只能部分反映脑电图和EEG数据中丰富的多变量信息。如果考虑到解码矩阵所捕获的整个表征空间结构,那么脑电图和EEG是如何比较的呢?为了进行研究,在完整的解码矩阵上使用了表征相似性分析(RSA)
Fig 5B,发现了一个正性显著的表征相似性时间过程,表明视觉表征的某些方面被两种模式都捕捉到了。同时也存在一个显著高于跨模式表征的相似性,表明MEG和EEG也分别解决了视觉表征的部分独特方面。
MEG和EEG独特信号的时间进程是不同的:MEG的峰值延迟明显早于EEG的峰值延迟。
发现了两个脑区在所有通道采样方式的情况下显著的fMRI和MEG/EEG的表征相似性(Fig4 BD)
在比较 MEG和EEG的差异和共同之处时,
首先,比较峰值潜伏期,没有发现显著差异
其次,比较减去EEG或MEG的结果(Fig4 CE)观察哪种模式和fMRI相似性更高。发现MEG为基础的融合相似性一致的强于EEG为基础的融合。
第三,进一步进行偏相关分析。发现MEG 在V1脑区的独特成分比EEG更敏感(Fig 5)
基于MEG和EEG的与fMRI数据的融合都揭示了腹侧视觉流中表征相似性的逐级前馈(feedward cascade 前馈级联)早期的表征关系在枕极(occipital pole)类似,以可比较的动态变化沿腹侧视觉通路迅速扩散。(Fig6B)
总体而言结果表明,MEG和EEG都很适合与fMRI数据进行基于RSA的融合,以揭示皮质信息流,但没有揭示MEG/EEG对视觉表征独特方面的进一步敏感性来源。
总的来说,几乎所有在一种测量模式中产生重要结果的分析在另一种模式中也产生了重要结果(EEG的自然性分类是唯一例外)。
通过基于分类的时间进程对脑电图和EEG进行比较,以及直接通过表征相似性分析,产生了对神经表征的共同和独特方面的敏感性证据。
MEG和EEG与fMRI的融合使独特的方面得到了空间定位:两种模式都捕捉到了高水平视觉皮层中表征的独特方面,而MEG也捕捉到了低水平视觉皮层中的表征。可能是由于低级视觉区位于浅层来源,而高级视觉区是深层来源。因为低级视觉区神经元活动更早出现,所以MEG更早的峰值,也可以被解释为MEG对浅层神经源更敏感。
并且在通道数保留很少(32)时,大部分效应仍然可以被观察到,说明了RSA可以应用于只有少量通道时的情景。
EEG效应弱于MEG,说明MEG在需要时间分辨率时是更优选
支持向量机是一个功能请打并且全面的机器学习模型,它能够执行线性或非线性、回归,甚至是异常值检测任务。它是机器学习领域最受欢迎的模型之一。SVM特别适用于中小型复杂数据集的分类。
一、线性SVM分类
可以将SVM分类器视为在类别之间拟合可能的最宽的街道,因此也可以叫做大间隔分类。
注意,在街道意外的地方增加更多训练实例,不会对决策边界产生影响,也就是说它完全由街道边缘的实例所决定。SVM对特征的缩放非常敏感。
二、软间隔分类
1、硬间隔分类:如果严格地让所有实例都不在街道上,并且位于正确的一边
2、硬间隔分类的两个问题:(1)它只在数据是线性可分离的时候才有效
(2)它对于异常值非常敏感
3软间隔分类:避免这些问题,最好使用更灵活的模型。目标是尽可能在保持街道宽度和限制间隔违例(即位于街道之上,升值在错误一边的实例)之间找到良好的平衡。
4Scikit-Learn 的SVM类中,可以通过超参数C来控制这个平衡:C值越小,则街道越宽,但是间隔违例也会越多。
5三种分类器的比较
(1)LinearSVC(C=1,loss="hinge")
(2)SVM(kernel = "linear",C = 1),但是这个要慢得多,特别是对于大型训练集而言
(3)SGDClassifier(loss="hinge",alpha=1/(mC)),适用于常规梯度下降来训练线性SVM分类器。,不会像LinearSVC那样快速收敛,但是对于内存处理不了的大型数据集或是线性分类任务,它非常有效。
三、非线性SVM
在许多情况下,线性SVM分类器是有效的,并且通常出人意料的好,但是,有很多数据集远不是线性课分离的。处理非线性数据集的方法之一是添加更多特征,比如多项式特征,在某些情况下,这可能导致数据集变得线性可分离。
1多项式核——添加多项式
添加多项式特征实现起来非常简单,并且对所有的机器学习算法有效。但是,如果多项式太低阶,处理不了费换成那个复杂的数据集,而高阶则会创造出戴昂的特征,导致模型太慢。
使用SVM时,可以运用数学技巧——核技巧
它产生的结果就跟添加了许多多项式特征,甚至是非常高阶的多项式特征一样,但实际上并不需要真的添加。
2添加相似特征——用相似特征替代
(1)解决非线性问题的另一种技术是添加相似特征。这些特征经过相似函数计算得出,相似函数可以测量每个实例与一个特定地标之间的相似程度。
例:
在x1 =-2和x2 = 1处添加两个地标。接下来,采用高斯径向基函数(RBF)作为相似函数:
这是一个从0到1变化的钟形函数。实例x1=-1:它与第一个地标的距离为1,与第二个地标的距离为2因此它的新特征为 074, 030
(2)怎么选择地标:
最简单的方法时在数据集里面一个实例的位置上创建一个地标。缺点是:一个有m个实例n个特征的训练集会被转换成一个m个实例
3如何选择核函数
有那么多的核函数,该如何决定使用哪一个?有一个经验法则是,永远先从现行核函数开始尝试(LinearSVC 比 SVC(kernel =“linear”)快得多),特别是训练集非常大或特征非常多的时候。如果训练集不太大,你可以试试高斯RBF核, 大多数情况下它都非常好用。
4计算复杂度
(1)liblinear库为线性SVM实现了一个优化算法,LinearSVC正是基于该库的。这个算法不支持核技巧,不过它与训练实例的数量和特征数量几乎线性相关:其训练时间复杂度大致为O(m x n)
(2)SVC是基于libsvm库的,这个库的算法支持核技巧。训练时间复杂度通常在 和 之间,这意味着如果训练实例的数量变大,它会慢得可怕,所以这个算法完美适用于复杂但是中小型的训练集。但是,它还是可以良好适应地特征数量的增加,特别是应对稀疏特征。
四、SVM回归
SVM回归要做的是让尽可能多的实例位于街道上,在同时街道的同时还限制间隔违例,SVM回归要让尽可能多的实例位于街道上,同时限制间隔为例。街道的宽度由超参数 控制。
五、工作原理
线性SVM是通过简单地计算决策函数 来预测新实例x的分类。如果结果为正,则预测类别 是正类(1),否则为负类(0)
训练线性SVM分类器即意味着找到W和b的值,从而使这个间隔尽可能宽的同时,避免(硬间隔)或是限制(软间隔)间隔违例
(1)训练目标
要最小化||w||来得到尽可能大的间隔。但是,如果我们想要避免任何间隔违例(硬间隔),那么就要使所有正类训练集的决策函数大于1,负类训练集的决策函数小于-1。因此,我们可以将硬间隔线性SVM分类器的目标,看做一个约束优化问题,对所有实例:
公式:硬间隔线性SVM分类器的目标
使得
虽然 最小化和 结果相同,但是 有一个简单好用的导数。而 在W =0 时,是不可微的。优化算法在可微函数上的工作效果要好得多。
(2)软间隔
要达到软间隔的目标,需要引入一个松弛变量 , 衡量的是第i个实例多大程度上允许间隔违例。现在有两个相互冲突的目标:使松弛变量越小越好从而减少间隔违例,同时还要使 最小化以增大间隔。这正是超参数C的用武之地:允许我们在两个目标之间权衡。
SVM是Support Vector Machine 的缩写,翻译过来就是支持向量机,属于一种机器学习算法,类似于人工神经网络,但是分类的效果好于神经网络,而且算法固定,不会出现网络输出不收敛或者随机性较大的情况。
svm本身是一个二元分类器,你要进行多元分类,必须构造多分类算法,常见的是 一对一 和 一对多 算法。网上关于支持向量机的论文很多,常用的计算工具有基于 MATLAB 的 OSU-SVM 工具包 和 LS-SVM 工具包,效果都还不错。
1支持向量机(SVM)概述
(1)支持向量机(Support Vector Machines,SVM)是一种二元分类模型,它是一类模型的统称,其中包括:
①线性可分支持向量机;
②线性支持向量机;
③非线性支持向量机。
(2)核心思想:
训练阶段在特征空间中寻找一个超平面,它能(或尽量能)将训练样本中的正例和负例分离在它的两侧,预测时以该超平面作为决策边界判断输入实例的类别。寻找超平面的原则是,在可分离的情况下使超平面与数据集间隔最大化。
(3)支持向量机的分类示意图为:
简单来说,SVM的原理就是在平面内找到一条直线,使得这两类不同的样本点分开,并且保证能够尽可能远的远离这条直线。用向量表示两类样本点之间的分类间隔(Margin)为:
支持向量机的目的是使r最大,等价于使||w||/2最小。而几何向量使分类间隔最大问题可以转化为运筹学上的约束优化问题。因为涉及太多复杂公式,此处省略。
只要理解了SVM的原理,并且学会利用sklearn库调用SVM模块,就达到了数据分析的目的。
2SVM算法实现
(1)重要参数说明:
①kernel :核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’ 。
·kernel='linear'时为线性核,C越大分类效果越好,但有可能会过拟合(defaul C=1);
·kernel='poly'时为多项式核函数;
·kernel='rbf'时(default)为高斯核,gamma值越小,分类界面越连续;gamma值越大,分类界面越“散”,分类效果越好,但有可能会过拟合。
②decision_function_shape:
·decision_function_shape='ovr'时,为one v rest,即一个类别与其他类别进行划分;
·decision_function_shape='ovo'时,为one v one,即将类别两两之间进行划分,用二分类的方法模拟多分类的结果。
(2)程序实现过程:
注
在分类型模型评判的指标中,常见的方法有如下三种:
①混淆矩阵(也称误差矩阵,Confusion Matrix)
混淆矩阵是评判模型结果的指标,属于模型评估的一部分。此外,混淆矩阵多用于判断分类器(Classifier)的优劣,适用于分类型的数据模型,如分类树(Classification Tree)、逻辑回归(Logistic Regression)、线性判别分析(Linear Discriminant Analysis)等方法。
混淆矩阵的一级指标:
通过混淆矩阵可以计算出评估模型的几个指标(二级指标):
三级指标:F1-score
其中,P代表Precision,R代表Recall。
F1-Score指标综合了Precision与Recall的产出的结果。F1-Score的取值范围从0到1的,1代表模型的输出最好,0代表模型的输出结果最差。
Ps:当分类结果多于两种时,需要将结果转化为上面的类型。
详细内容参考博文>
以上就是关于支持向量机分类法全部的内容,包括:支持向量机分类法、基于SVM技术的蠓虫分类问题、【文献阅读】MEG和EEG的多变量模式分析对比等相关内容解答,如果想了解更多相关内容,可以关注我们,你们的支持是我们更新的动力!
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)