Statistics course summary

2 min read

1 一元统计总结

1.1 集中趋势

1.1.1 百分位数

根据百分位求分数

计算指数i=m100×ni=m100×n,不是整数i向上取整找到对应的数,是整数求i与i+1对应的数的均值。

1.1.2 百分位分数

其实就是百分位数,只是有分组的

Pm=L+m100+NFbf+i

  • Pm是第m个百分位分数
  • L是Pm所在组的下限
  • f是Pm所在组的次数
  • Fb是小于L的累积次数

1.1.3 百分等级分数

知道原始分数,求百分数

PR=Fb+f(PmL)iN×100

  • PR是百分等级分数
  • L是某特定原始变量所在组的下限
  • f是某特定原始变量所在组的次数
  • Fb是小于L的累积次数
  • i是组距

1.2 离散程度

1.2.1 方差

S2=ni=1(XiˉX)2n1=ni=1X2in1ˉX2

1.2.2 变异系数

CVσ=σμ

1.3 偏态和峰度

测量有不同的方法,上课讲的是下面两个。

1.3.1 偏态

偏度a3=ni=1(XiˉX)3nS3

1.3.2 峰度

峰度a4=ni=1(XiˉX)4nS4

1.4 相关分析

1.4.1 积差相关

r=ni=1(XiˉX)(YiˉY)ni=1(XiˉX)2ni=1(YiˉY)2

1.4.2 等级相关

没有相同的等级的时候比较简单

rk=16ni=1D2in(n21)

有没有相同的等级的时候都可以用下面的方法计算,有相同等级的需要计算等级的平均值。其实和积差相关的方法是一样的。

rR=x2+y2D22x2y2

1.4.3 肯德尔和谐系数

就是用等级的方差除以如果所有人评价都一致时的方差(此时方差最大)。

如果是评分是一致的,被评事物的等级和的方差达到最大,此时和谐系数为1

W=ni=1R2i(ni=1Ri)2n112K2(n3n)

  • K是评价者数目
  • n是被评价事务数目

1.4.4 点二列相关

rpb=¯Xp¯XqStpq

1.4.5 φ系数

φ=|adbc|(a+b)(c+d)(a+c)(b+d)

1.5 随机变量及其分布

1.5.1 二项分布

np,nq5的时候近似正态分布,可以直接用正态分布的临界值

1.6 参数估计

1.6.1 常见的抽样分布和理论分布的关系

样本平均数的分布ˉXN(μ,σ2n)

样本方差的分布(n1)S2σ2χ2(n1)

样本比例的分布ˆpN(p,pqn)

两个独立样本方差比的分布1F=S21S22F(n11,n21)

相关系数的分布,无论总体相关系数和n如何,都可以进行Fisher-Z变换,Zr=12ln1+r1r,标准误SEr=1n3

1.7 区间估计

1.7.1 两个总体均值

如果总体方差已知,SE=σ21n1+σ22n2

如果总体方差未知,方差齐性 SE=Sp1n1+1n2Sp=df1S21+df2S22df1+df2

方差不齐的时候需要校正自由度,但是如果样本量都很大的时候就不用了,df=(SE1+SE2)2SE21n11+SE22n21

其中SE1=S21n1SE2=S22n2

1.7.2 两个总体比例之差

Z=ˆp1ˆp2peqe(1n1+1n2) ,其中pe=n1ˆp1+n2ˆp2n1+n2

1.7.3 正态总体方差

((n1)S2χ2α2(n1),(n1)S2χ21α2(n1))

注意分母中的(n-1)是卡方的自由度,不是乘数。

1.7.4 正态总体方差比

(S21S22×1Fα2(n11,n21),S21S22×Fα2(n21,n11))

1.7.5 相关系数

进行Fisher-Z变换,Zr=12ln1+r1r,标准误SEr=1n3,以此得到估计的区间后再变换回相关系数r=e2Zr1e2Zr+1

1.8 假设检验

1.8.1 非参检验

非参数检验不能处理交互作用

1.8.1.1 两个独立样本的差异显著性检验

  • 秩和检验(Mann-Whitney U检验)
    • 两个样本量都小于10,找小的样本的秩和T,查表
    • 样本量大于10,T服从正态分布,拿小样本的进行Z检验
  • 中数检验法
    • 两个样本是否有相同的中数
    • 混合排列找中数,根据大于和小于中数的个数列出四格表,然后卡方检验

1.8.1.2 两个相关样本的差异显著性检验

  • 符号检验法
    • 零假设是差值的中数为零
    • 样本量小于25时,对于差值只记符号,零不计(也不算到N中)。找出符号中小的数量,查表大于临界值则不显著
    • 样本量大于25时,正负服从二项分布,进行一点矫正(+0.5)计算z分数
  • 符号等级检验法(Wilcoxon T检验)
    • 同时考虑到差值的符号和大小
    • 样本量小于25时,对差值的绝对值进行排列,计算正的差值的和T+和负的差值的和T-然后查表
    • 样本量大于25时,对T进行z检验

1.8.1.3 方差分析

  • 克-瓦氏单项方差分析(Kruskal-Wallis检验,独立测量方差分析)
    • 3组,每组n小于等于5,混合在一起排等级,计算等级之和T,然后计算统计量H并查表。H的分布接近卡方分布。
    • 组数大于3,n大于5时,可以查卡方表
  • 弗里德曼双向等级方差分析(Friedman检验,重复测量方差分析)
    • 每个区组(被试)的几个条件排列等级,求每个条件的等级和,计算等级卡方值,然后查表(df=k-1),或者卡方分布表

1.9 列联分析

1.9.1 k个分组

计算卡方值,使用实际与预期差的平方除以预期,然后求和.

χ2=ki=1(fiei)2ei

自由度是k-1

1.9.2 RC列联表

自由度df=(R1)(C1)

1.10 回归分析

b1=ni=1(xiˉx)(yiˉy)ni=1(xiˉx)2=XY(X)(Y)nX2(X)2n

b0=ˉyb1ˉx

方程的显著性 SST=SSR+SSE(yˉy)2=(ˆyˉy)2+(yˆy)2

其中ˆy是预测值,y是实际值,ˉy是实际值的平均值。

预测的置信区间

  • 估计值(均值)的置信区间 ^Y0±tα2(n2)MSe[1n+(X0ˉX)2ni=1(XiˉX)2]
  • 观测值的置信区间 ^Y0±tα2(n2)MSe[1+1n+(X0ˉX)2ni=1(XiˉX)2]

潇月师姐的总结