是分析分类型变量 vs 数值型变量的一种统计方法

基本原理#

方差分析，是由Fisher在进行实验设计时为解释实验数据而首先引入的。方差分析是分析各分类自变量对数值因变量的影响的一种统计方法。
影响的效应大小体现为因变量的误差里有多少是由于自变量造成的。

误差分解#

总误差=处理误差 + 随机误差
SST = SSA + SSE

方差分析的基本假定#

正态性：要求每种处理对应的总体都服从正态
方差齐性
独立性。对独立性要求比较严格，正态性和方差齐性要求比较宽松

单因素方差分析#

数学模型
$<span class="arithmatex"><span class="MathJax_Preview">y_{ij} = \mu_i + \epsilon_{ij}=\mu + \alpha_i + \epsilon_{ij}</span><script type="math/tex">y_{ij} = \mu_i + \epsilon_{ij}=\mu + \alpha_i + \epsilon_{ij}$
即第i个处理的第j个观测值，可以表示成第一个处理的均值与随机误差之和。 $\mu$ 表示不考虑处理因素时候的总体的平均值， $\alpha_i$ 相对于是因素效应。
$<span class="arithmatex"><span class="MathJax_Preview">H_0: \alpha_1 = \alpha_2=\alpha_3=0, H_1: \alpha_i中至少一个不是0</span><script type="math/tex">H_0: \alpha_1 = \alpha_2=\alpha_3=0, H_1: \alpha_i中至少一个不是0$

最终的检验统计量是F检验 $F=MSA/MSE$

多重比较#

如果单因素方差分析之后发现是显著的，不同水平之间是有差异的，那么我们还会想知道究竟是哪几个水平之间有明显差异。这个时候就要做多重比较。

这里介绍多重比较中的一种方式-最小显著差异法LSD
1. 提出假设，H0: 第i个和第j个的水平不同
2. 计算检验统计量 $|\bar y_i - \bar y_j|$
3. 计算LSD
$<span class="arithmatex"><span class="MathJax_Preview">LSD = t_{a/2}(n-k)\sqrt{MSE(1/n_i + 1/n_j)}</span><script type="math/tex">LSD = t_{a/2}(n-k)\sqrt{MSE(1/n_i + 1/n_j)}$
4. 作出决策：如果 $|\bar y_i - \bar y_j|$ > LSD 则拒绝H0

双因素方差分析#

只考虑主效应#

数学模型：类似单因素形式
$<span class="arithmatex"><span class="MathJax_Preview">y_{ijk} = \mu + \alpha_i + \beta_j + \epsilon_{ijk}</span><script type="math/tex">y_{ijk} = \mu + \alpha_i + \beta_j + \epsilon_{ijk}$

假设检验问题：
- 检验因素A的假设： $H0: \alpha_i = 0$
- 检验因素B的假设： $H_0: \beta_j =0$

主效应+交互效应#

$<span class="arithmatex"><span class="MathJax_Preview">y_{ijk} = \mu + \alpha_i + \beta_j + \eta_{ij} +\epsilon_{ijk}</span><script type="math/tex">y_{ijk} = \mu + \alpha_i + \beta_j + \eta_{ij} +\epsilon_{ijk}$
假设检验问题：
- 检验因素A的假设： $H0: \alpha_i = 0$
- 检验因素B的假设： $H_0: \beta_j =0$
- 检验交互项 $H_0: \eta_{ij}=0$

总误差=因素A的处理误差+ 因素B的处理误差 + AB交互的误差 + 随机误差

SST = SSA + SSB + SSAB + SSE

检验统计量
$F_A=MSA/MSE$
$F_B=MSB/MSE$
$F_{AB}=MSAB/MSE$