跳转至

【应用场景】当只有一个分类变量的时候,可以利用卡方检验来判断各个类别的观察频数与某一期望频数是否相同。比如不同地区的产品销量是否符合均匀分布。

1. 一个分类变量的拟合优度检验#

卡方拟合优度检验#

数据的基本形式是频数分布形式。

区域 人数
A 100
B 120
C 100

$$ X^2=\sum \frac{(f_0 - f_e)^2}{f_e} - X^2(k-1)$$
其中k为类别个数。
在该例子中,区域属性有3个类别,如果区域对于人数没有影响的话,那么每个区域应该差不多,即f_e是320/3. 带入计算卡方检验统计量

上述例子是按照均匀分布来对比的,当然也可以根据实际需求情况设定别的期望频数。

2.两个分类变量的独立性检验#

列联表卡方检验#

以2分类的列联表为例:

通过 失败 总计
实验A a b m
实验B c d n
总计 r s N

H0:实验A和实验B对于是否通过没有差异, H1: 实验A和实验B有显著差异

在零假设成立的条件下,即A和B没有差异,那么对通过和失败的概率估计是r/N 和s/N。所以实验A的理论的通过人数和失败人数分别是rm/N,sm/N。 同理,实验B的理论的通过人数和失败人数分别是rn/N,sn/N

一般地
$$ X^2=\sum\sum \frac{(f_0 - f_e)^2}{f_e} - X^2((r-1)(c-1))$$

卡方检验是皮尔逊1900年提出来的,这里简单回顾下其基本原理。

注意问题#

在应用卡方检验的时候,要求样本量要足够大,特别是每个单元格的期望频数不能太小,一般要大于5,不然可能结果会不太准。

列联系数#

假设前面的卡方独立性检验没通过,即两个变量之间存在一定的相关性,那么如何刻画这个相关性的呢?

\phi 系数#

主要适用于2x2的列联表,系数方位是0-1
\phi = \sqrt {X^2/n}
Cramer's V 系数
对超过2x2列联表的修正,系数范围是0-1
\phi = \sqrt{\frac{X^2}{n* min(r-1, c-1)}}

列联系数
主要用于大于2x2的列联表。

C = \sqrt{\frac{X^2}{X^2 + n}}