初识R语言—统计篇之正态分布和抽样分布

初识R语言—统计篇之正态分布和抽样分布,第1张

2夏皮罗检验(shapirotest)
当w接近1,p > 005时,说明数据符合正态分布,这个检验只适合于3-5000个数据,样本数量不在这个范围内的话,会报错

补充从b站麦子那里学到的另外三种判断是不是正态分布的可视化方法

标准正态分布的概率密度函数中F(x)代表的是正态分布中数值<x的概率

案例1中的做法是先把数据标准化,然后查表进行计算,也可以通过R进行计算

- 中心极限定理

1 读取,计算均值,箱图观察

2 查看数据分布
21 hist直方图

22 qqnorm散点图

3 Shapiro-Wilk正态性检验

4 方差齐性检验

意义:方差分析就是在大家误差水平差不多的条件下看控制和对照组是不是有显著差异。那方差其实就是误差水平了。当方差不一致的时候,这个方法就没法分辨出究竟是控制造成的差异还是,内在的波动造成的差异。
参考: >

数据准备

t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布。t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
t检验的适用条件为样本分布符合正态分布。
R中检验正态分布的函数:
shapirotest()
结果p值要是小于005,样本分布是非正态分布,如果大于005,样本分布是正态分布。
t检验可分为单总体检验和双总体检验,以及配对样本检验。
单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。

个人理解的应用实例:已知一个玉米品种的产量是8000 kg/ha,在一个田间试验中测定这个玉米品种的产量,单样本t检验要做的就是检验田间试验测定的产量与已知产量是否相等。

单样本t检验的假设:
H0:样本均值与已知的总体均值相等。
H1:样本均值与已知的总体均值不相等。
t统计量的计算:

m:样本平均值;
:已知总体的均值;
S:样本标准差,自由度df=n-1。
n:样本量。
单样本t检验R调用函数:
ttest(x, mu, alternative = "twosided")
x:数据向量;
mu:理论平均值。默认为0,可根据自己统计计算需求更改;
alternative:备择假设。允许值为“twosided”(默认),也可以根据需要设置为“greater”或“less”之一。

结果解释:p值小于005,结论是v1的平均值与理论值15有显著差异。

检验两个样本平均数与其各自所代表的总体的差异是否显著。
个人理解的应用实例:检验两个玉米品种产量是否存在差异。
ttest(y ~ x, data)
其中的y是一个数值型变量,x是一个二分变量。
ttest(y1, y2)
其中的y1和y2为数值型向量(即各组的结果变量)。可选参数data的取值为一个包含了这些变量的矩阵或数据框。
t检验默认假定方差不相等,并使用Welsh的修正自由度。你可以添加一个参数varequal=TRUE以假定方差相等,并使用合并方差估计。默认的备择假设是双侧的(即均值不相等,但大小的方向不确定)。你可以添加一个参数alternative="less"或alternative="greater"来进行有方向的检验。

结果解读:得到结果中P值小于005,说明要拒绝原假设(两品种v1值无差异),接受备择假设,即两品种v1值差异显著。

非独立样本的t检验假定组间的差异呈正态分布。
个人理解的应用实例:一个玉米品种接受两个施氮处理,两个施氮处理下玉米的产量是否存在差异。
ttest(y1, y2, paired=TRUE)
其中的y1和y2为两个非独立组的数值向量。

结果解读:不同氮素水平的比较显示p值小于005,说明v1值在两个氮水平间差异显著;而两个年份下v1值无显著差异。

如果想在多于两个的组之间进行比较,应该怎么做?如果能够假设数据是从正态总体中独立抽样而得的,那么你可以使用方差分析(ANOVA)。ANOVA是一套覆盖了许多实验设计和准实验设计的综合方法。

参考资料:

对实验数据检验方差相等的正态分布总体均值是否相等。判断各因素对试验指标影响是否显著。根据影响实验指标条件的个数可以区分为:单因素方差分析,双因素方差分析,多因素方差分析
boxplot(目标变量~变量,data=数据框)

箱子中的黑线是中值,箱体是下边缘为1/4分位数,上边缘为3/4分位数。上下两侧为最小值和最大值。

第一列为均值差异,第二列为置信区间,最后为P值(校正后)

上方存在相同字母的组间差异不显著

做配对样本的t检验t检验t检验分为单总体检验和双总体检验。单总体t检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。当总体分布是正态分布,如总体标准差未知且样本容量小于30,那么样本平均数与总体平均数的离差统计量呈t分布。单总体t检验统计量为:双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。双总体t检验又分为两种情况,一是独立样本t检验,一是配对样本t检验。独立样本t检验统计量为:S1和S2为两样本方差;n1和n2为两样本容量。(上面的公式是1/n1+1/n2不是减!)1/n1-1/n2的话无法计算相同的样本空间配对样本t检验统计量为:适用条件(1)已知一个总体均数;(2)可得到一个样本均数及该样本标准差;(3)样本来自正态或近似正态总体。t检验步骤以单总体t检验为例说明:问题:难产儿出生体重n=35,=342,S=040,一般婴儿出生体重μ0=330(大规模调查获得),问相同否?解:1建立假设、确定检验水准αH0:μ=μ0(零假设,nullhypothesis)H1:μ≠μ0(备择假设,alternativehypothesis,)双侧检验,检验水准:α=0052计算检验统计量3查相应界值表,确定P值,下结论查附表1,t005/234=2032,t005,按α=005水准,不拒绝H0,两者的差别无统计学意义


欢迎分享,转载请注明来源:内存溢出

原文地址:https://54852.com/yw/10544338.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-05-09
下一篇2023-05-09

发表评论

登录后才能评论

评论列表(0条)

    保存