方差与协方差¶
方差 (Varience)¶
概率论方差¶
方差用 \(Var(X)\) 或 \(D(X)\) 表示
离散型随机变量: \(D(X) = \sum\limits_{k=1}^{\infty}(x_k-E(X))^2p_k\)
连续型: \(D(X) = \int_{-\infty }^{+\infty }(x-E(X))^2f(x)\mathrm{d}x\)
方差公式: \(D(X) = E((X-E(X))^2) = E(X^2)-E(X)^2\)
样本方差¶
在实际环境里是无法穷举所有例子,所以只能找出部分的样本数据,基于这部分样本进行测算。
\(Var(X) = \frac{\sum\limits_{i=1}^{n}(x_i-\bar{x})^2}{n-1}\)
为什么分母是n-1?
\(\bar{X}\) 并不是期望 \(\mu\),所以需要修正!!!直觉上,我们拥有 \(n-1\) 个有效数据和 \(\bar{x}\),第 \(n\) 个数据能直接算出
我们现在不知道随机变量 \(X\) 的数学期望 \(\mu\), 如果除以 \(n\), 会得到:
方差的无偏估计为 \(\frac{1}{n}\sum\limits_{i=1}^{n}(x_i-\mu)^2\), 左边并不等于此式。
而我们可以证明 (详见知乎上的这篇文章):
方差的性质¶
\(D(X+Y) =D(X) + D(Y) + 2(E(XY)-E(X)E(Y)) = D(X) + D(Y) + 2E((X-E(X))(Y-E(Y)))\)
当 \(X\) 与 \(Y\) 相互独立时,\(E((X-E(X))(Y-E(Y))) = 0\),那么当 \(E((X-E(X))(Y-E(Y)))\neq 0\) 时,\(X\) 与 \(Y\) 不相互独立,存在一定关系,引入⬇️
协方差 (Covariance) 和相关系数¶
概率论协方差¶
仿照方差的定义:
协方差:
且有:
统计学样本协方差¶
仿照样本方差的定义:
协方差:
协方差的性质¶
\(Cov(X, Y) = E(XY) - E(X)E(Y)\)
\(Cov(aX, bY) = abCov(X,Y)\)
\(Cov(X + Y, Z) = Cov(X,Z) + Cov(Y, Z)\)
相关系数¶
\(\rho_{XY}\) 的含义:
当 \(\rho_{XY} = 0\) 时,称 \(X, Y\) 不相关。
Note
相关系数反映的是两变量间的线性关系,但是变量间除了线性关系还有其它关系,这时候相关系数就不能作为一种度量了
协方差矩阵¶
\(X, Y\) 表示两个变量空间,即样本有 \(x\) 和 \(y\) 两种特征,而 \(X\) 就是包含所有样本的 \(x\) 特征的集合,\(Y\) 就是包含所有样本的 \(y\) 特征的集合。
一个包含两个特征的矩阵,其协方差矩阵应该为 \(2\times 2\) 阶的:
独立性与相关性¶
\(E(XY) = E(X) E(Y) \Rightarrow Cov(X,Y)=0 \Rightarrow \rho_{XY} = 0 \Rightarrow X, Y\) 不相关
独立 \(\Rightarrow\) 不相关
Cauchy-Schwarz 不等式¶
形式1: \(|cov(X,Y)|^2 \leqslant D(X) D(Y)\)
证明:
形式2: \(|E(XY)|^2 \leqslant E(X^2) E(Y^2)\)
证明:
Reference