因为正态分布有两个参数,均数和标准差,均数用来描述曲线的位置,标准差用来描述曲线的形状,标准差越大,说明观察资料越分散,靠近两边的观察值越多,峰值越低,曲线越低平。
一般的正态分布都可以通过变量变换变成标准正态分布(u分布),变换的公式为$u=(X-mu)/(sigma)$,如果从正态分布总体中抽取多个样本均数,这些样本均数的分布也是正态分布资料,均数为μ,标准差为$sigma_barX$,表达式为$u=(bar X-mu)/(sigma_bar X)$,但是$sigma_bar X$经常不知道,所以用$S_bar X$来代替,就得到了t分布。
$t=(bar X-mu)/(S_bar X)$,t分布由于都以0为中心,故只有一个参数就是自由度$nu$,自由度越大,样本含量越多,抽取出来的这个总体和原来的总体越接近,所以t分布当自由度越大时,峰值越高,越接近标准正态分布。当自由度无穷大时,理论上和标准正态分布重合。
图形特征
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。
关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线。
标准差和均值的量纲(单位)是一致的,在描述一个波动范围时标准差比方差更方便。比如一个班男生的平均身高是170cm,标准差是10cm,那么方差就是100cm^2。可以进行的比较简便的描述是本班男生身高分布是170±10cm,方差就无法做到这点。
再举个例子,从正态分布中抽出的一个样本落在[μ-3σ, μ+3σ]这个范围内的概率是99.7%,也可以称为“正负3个标准差”。如果没有标准差这个概念,我们使用方差来描述这个范围就略微绕了一点。万一这个分布是有实际背景的,这个范围描述还要加上一个单位,这时候为了方便,人们就自然而然地将这个量单独提取出来了。
标准差 ,也称均方差,是各数据偏离平均数的距离的平均数,它是离均差平方和平均后的方根,用σ表示.标准差是方差的算术平方根.标准差能反映一个数据集的离散程度.平均数相同的,标准差未必相同.这个就是规定而已,就是把各数据偏离平均数的距离的平均数起了个名字.基本没有多大意义的.
欢迎分享,转载请注明来源:优选云