跳转至

【TOC】统计学

统计学的相关知识点在ds中使用的会比较多。

统计学是一门研究数据怎么收集、整理、分析、解释数据,并从数据中得出结论的学科。按照应用范围分可以有数理统计、经济统计、生物统计生物统计-生存分析等方向。

基础统计学主要包含两大研究内容:描述统计学、推断统计学

1. 描述统计学#

涉及数据收集、处理和描述的统计方法。我们在日常工作中面对数据的时候,如何去描述和刻画这些数据就需要用到描述统计相关的内容。

1.1 数据收集#

数据收集来源可以有很多,比如:
- 公开渠道、统计年鉴等等
- 调查问卷,可以通过抽样技术的方法进行抽样调查,对于调查问卷获取的数据,还需要对结果的信度和效度做检验调查问卷的信度、效度
- 实验方式:通过实验设计的方式来获取一些实验数据

如果通过实验设计的方式,那么可以进行ab-test等试验评估方式;
如果是观测性研究,那么可能需要使用@因果推断

1.2 数据的描述#

可以用一些基础的统计量进行数据的描述,比如:

水平的度量#

平均数、中位数/分位数、众数
- 如果数据左偏,则均值 < 中位数 < 众数
- 右偏, 众数 < 中位数 < 均值

波动的度量#

  • 极差
  • 四分位差
  • 方差和标准差
  • 变异系数 v=s/\bar x

偏度#

衡量数据分布的不对称性,也叫做偏态、偏度系数,他表示的是概率分布密度曲线相对于平均值的不对称程度。定义如下(3阶距)
$$SK = E[(\frac{X-\mu}{\sigma})^3] $$
如果SK > 0, 正偏,右偏态
如果SK < 0, 负偏,坐偏态

峰度#

4阶距K = E[(\frac{X-\mu}{\sigma})^4] - 3 如果K > 0, 尖峰分布,数据的分布相对集中
K< 0,扁平分布,数据分布相对分散

概率分布#

概率分布

1.3 数据的处理与分析#

在一般进行数据分析的时候,除了进行基础的描述性统计量、数据可视化展现之后,可能还会对变量之间的基本关系去做一些分析探索。比如
- 分类型变量是否有关联。可以使用分类变量的推断相关的方法
- 分类变量vs数值变量之间的关系以及是否显著,可以使用方差分析的方法
- 数值型vs数值型: 相关系数、回归分析 #todo

2 推断统计学#

利用样本数据来推断总体特征的统计学方法。内容包括:

2.1 参数估计#

参数估计

2.2 假设检验#

假设检验按照大类可分为参数检验、非参数检验
- 参数假设检验 比较常见,主要是对常见分布的均值、比例、方差等的参数检验
- 非参数检验