1 一元统计总结
1.1 集中趋势
1.1.1 百分位数
根据百分位求分数
计算指数i=m100×ni=m100×n,不是整数i向上取整找到对应的数,是整数求i与i+1对应的数的均值。
1.1.2 百分位分数
其实就是百分位数,只是有分组的
Pm=L+m100+N−Fbf+i
- Pm是第m个百分位分数
- L是Pm所在组的下限
- f是Pm所在组的次数
- Fb是小于L的累积次数
1.1.3 百分等级分数
知道原始分数,求百分数
PR=Fb+f(Pm−L)iN×100
- PR是百分等级分数
- L是某特定原始变量所在组的下限
- f是某特定原始变量所在组的次数
- Fb是小于L的累积次数
- i是组距
1.2 离散程度
1.2.1 方差
S2=n∑i=1(Xi−ˉX)2n−1=n∑i=1X2in−1−ˉX2
1.2.2 变异系数
CVσ=σμ
1.3 偏态和峰度
测量有不同的方法,上课讲的是下面两个。
1.3.1 偏态
偏度a3=n∑i=1(Xi−ˉX)3nS3
1.3.2 峰度
峰度a4=n∑i=1(Xi−ˉX)4nS4
1.4 相关分析
1.4.1 积差相关
r=n∑i=1(Xi−ˉX)(Yi−ˉY)√n∑i=1(Xi−ˉX)2n∑i=1(Yi−ˉY)2
1.4.2 等级相关
没有相同的等级的时候比较简单
rk=1−6n∑i=1D2in(n2−1)
有没有相同的等级的时候都可以用下面的方法计算,有相同等级的需要计算等级的平均值。其实和积差相关的方法是一样的。
rR=∑x2+∑y2−∑D22√∑x2∑y2
1.4.3 肯德尔和谐系数
就是用等级的方差除以如果所有人评价都一致时的方差(此时方差最大)。
如果是评分是一致的,被评事物的等级和的方差达到最大,此时和谐系数为1
W=n∑i=1R2i−(n∑i=1Ri)2n112K2(n3−n)
- K是评价者数目
- n是被评价事务数目
1.4.4 点二列相关
rpb=¯Xp−¯XqSt√pq
1.4.5 φ系数
φ=|ad−bc|√(a+b)(c+d)(a+c)(b+d)
1.5 随机变量及其分布
1.5.1 二项分布
np,nq≥5的时候近似正态分布,可以直接用正态分布的临界值
1.6 参数估计
1.6.1 常见的抽样分布和理论分布的关系
样本平均数的分布ˉX∼N(μ,σ2n)
样本方差的分布(n−1)S2σ2∼χ2(n−1)
样本比例的分布ˆp∼N(p,pqn)
两个独立样本方差比的分布1F=S21S22∼F(n1−1,n2−1)
相关系数的分布,无论总体相关系数和n如何,都可以进行Fisher-Z变换,Zr=12⋅ln1+r1−r,标准误SEr=1√n−3
1.7 区间估计
1.7.1 两个总体均值
如果总体方差已知,SE=√σ21n1+σ22n2
如果总体方差未知,方差齐性 SE=Sp√1n1+1n2,Sp=df1S21+df2S22df1+df2
方差不齐的时候需要校正自由度,但是如果样本量都很大的时候就不用了,df=(SE1+SE2)2SE21n1−1+SE22n2−1
其中SE1=S21n1,SE2=S22n2
1.7.2 两个总体比例之差
Z=ˆp1−ˆp2√peqe(1n1+1n2) ,其中pe=n1ˆp1+n2ˆp2n1+n2
1.7.3 正态总体方差
((n−1)S2χ2α2(n−1),(n−1)S2χ21−α2(n−1))
注意分母中的(n-1)是卡方的自由度,不是乘数。
1.7.4 正态总体方差比
(S21S22×1Fα2(n1−1,n2−1),S21S22×Fα2(n2−1,n1−1))
1.7.5 相关系数
进行Fisher-Z变换,Zr=12⋅ln1+r1−r,标准误SEr=1√n−3,以此得到估计的区间后再变换回相关系数r=e2Zr−1e2Zr+1
1.8 假设检验
1.8.1 非参检验
非参数检验不能处理交互作用
1.8.1.1 两个独立样本的差异显著性检验
- 秩和检验(Mann-Whitney U检验)
- 两个样本量都小于10,找小的样本的秩和T,查表
- 样本量大于10,T服从正态分布,拿小样本的进行Z检验
- 中数检验法
- 两个样本是否有相同的中数
- 混合排列找中数,根据大于和小于中数的个数列出四格表,然后卡方检验
1.8.1.2 两个相关样本的差异显著性检验
- 符号检验法
- 零假设是差值的中数为零
- 样本量小于25时,对于差值只记符号,零不计(也不算到N中)。找出符号中小的数量,查表大于临界值则不显著
- 样本量大于25时,正负服从二项分布,进行一点矫正(+0.5)计算z分数
- 符号等级检验法(Wilcoxon T检验)
- 同时考虑到差值的符号和大小
- 样本量小于25时,对差值的绝对值进行排列,计算正的差值的和T+和负的差值的和T-然后查表
- 样本量大于25时,对T进行z检验
1.8.1.3 方差分析
- 克-瓦氏单项方差分析(Kruskal-Wallis检验,独立测量方差分析)
- 3组,每组n小于等于5,混合在一起排等级,计算等级之和T,然后计算统计量H并查表。H的分布接近卡方分布。
- 组数大于3,n大于5时,可以查卡方表
- 弗里德曼双向等级方差分析(Friedman检验,重复测量方差分析)
- 每个区组(被试)的几个条件排列等级,求每个条件的等级和,计算等级卡方值,然后查表(df=k-1),或者卡方分布表
1.9 列联分析
1.9.1 k个分组
计算卡方值,使用实际与预期差的平方除以预期,然后求和.
χ2=k∑i=1(fi−ei)2ei
自由度是k-1
1.9.2 RC列联表
自由度df=(R−1)(C−1)
1.10 回归分析
b1=n∑i=1(xi−ˉx)(yi−ˉy)n∑i=1(xi−ˉx)2=∑XY−(∑X)(∑Y)n∑X2−(∑X)2n
b0=ˉy−b1ˉx
方程的显著性 SST=SSR+SSE⟺∑(y−ˉy)2=∑(ˆy−ˉy)2+∑(y−ˆy)2
其中ˆy是预测值,y是实际值,ˉy是实际值的平均值。
预测的置信区间
- 估计值(均值)的置信区间 ^Y0±tα2(n−2)√MSe[1n+(X0−ˉX)2n∑i=1(Xi−ˉX)2]
- 观测值的置信区间 ^Y0±tα2(n−2)√MSe[1+1n+(X0−ˉX)2n∑i=1(Xi−ˉX)2]