加入收藏 | 设为首页 | 会员中心 | 我要投稿 李大同 (https://www.lidatong.com.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

漫步数理统计三十——依概率收敛

发布时间:2020-12-14 03:08:15 所属栏目:大数据 来源:网络整理
导读:本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。 定 义 1 : { X n } 是一系列随机变量, X 是定义在样本空间上的随机变量。我们说 X n 依概率收敛到 X ,如果对于 ? 0 lim n → ∞ P [ | X n ? X | ≥ ? ] = 0 或者等价的 lim n → ∞ P [ | X n

本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。

1 {Xn} 是一系列随机变量, X 是定义在样本空间上的随机变量。我们说 Xn 依概率收敛到 X ,如果对于 ?>0

limnP[|Xn?X|?]=0

或者等价的

limnP[|Xn?X|<?]=1

如果成立,我们一般写成

XnPX

如果 XnPX ,我们常说 Xn?X 的差收敛到0。极限随机变量 X 经常是一个常数;例如 X 是一个退化的随机变量。

说明依概率收敛的一种方法是用切比雪夫定理,具体会在下面的证明中给出,为了强调我们是一系列随机变量,我们在随机变量上给出下标,像 Xˉ 写成 Xˉn

1 (弱大数定理) {Xn} 是一系列独立同分布的随机变量,均值为 μ ,方差为 σ2< Xˉn=n?1ni=1Xi ,那么

XˉnPμ

回忆一下 Xˉn 的均值与方差分别为 μ,σ2/n ,因此根据切比雪夫定理,对于任意的 ?>0

P[|Xˉ?μ|?]=P[|Xˉ?μ|](?n/σ)(σ/n)σ2n?20

||

这个定理说明,当 n 取向 时, Xˉ 分布的所有质量收敛到 μ 。也就时候对于大的 n Xˉ 接近 μ ,但是多接近呢?例如如果我们用 Xˉn 估计 μ ,那么估计误差是多少?这个问题留到下篇博文讲解。

还有一个强大数定理,它弱化了定理1的假设:随机变量 Xi 独立且都有有限的均值 μ ,因此强大数定理是一阶矩定理,而弱大数定理需要二阶矩存在。

还有些关于依概率收敛的定理,我们在后面会用到,首先是两个关于依概率收敛对线性封闭的定理。

2 假设 XnPX,YnPY ,那么 Xn+YnPX+Y

?>0 已给定,利用三角不等式可得

|Xn?X|+|Yn?Y||(Xn+Yn)?(X+Y)|?

因为 P 是单调的,所以我们有

P[(Xn+Yn)?(X+Y)?]P[|Xn?X|+|Yn?Y|?]P[|Xn?X|?/2]+P[|Yn?Y|?/2]

根据定理的假设,后两项收敛到0,从而得证。 ||

3 假设 XnPX a 是一个常数,那么 aXnPaX

如果 a=0 ,结论明显成立。假设 a0 ,令 ?>0 ,那么

P[|aXn?aX|?]=P[|a||Xn?X|?]=P[|Xn?X|?/|a|]

根据假设最后一项趋于0。 ||

4 假设 XnPa 且函数 g a 点连续,那么 g(Xn)Pg(a)

?>0 ,那么因为 g a 点连续,所以存在 δ>0 使得如果 |x?a|<δ,|g(x)?g(a)|<? ,所以

|g(x)?g(a)|??|x?a|δ

代入 Xn 可得

P[|g(Xn)?g(a)|?]P[|Xn?a|δ]

根据假设,最后一项在 n 时趋于0,得证。 ||

这个定理给出了许多有用的结论。例如,如果 XnPa ,那么

X2n1/XnXnPa2P1/a,a0Pa,a0

实际上,如果 XnPX g 是连续函数,那么 g(Xn)Pg(X) ,下面的定理就用了这个结论。

5 假设 XnPX,YnPY ,那么 XnYnPXY

利用上面的结论,我们有

XnYn=12X2n+12Y2n?12(Xn?Yn)2P12X2+12Y2?12(X?Y)2=XY

现在回到采样与统计的讨论,考虑这么一种情况,随机变量 X 的分布有未知参数 θΩ ,我们要基于样本找到一个统计量来估计 θ ,上篇博文我们介绍了无偏性,现在介绍一致性:
2 X 是cdf为 F(x,θ),θΩ 的随机变量, X1,,Xn X 分布的样本且 Tn 表示一个统计量。我们说 Tn θ 的一致估计,如果

TnPθ

如果 X1,,Xn 是有限均值 μ 和方差 σ2 分布的随机样本,那么根据弱大数定理,样本均值 Xˉ μ 的一致估计。

1 X1,,Xn 表示均值为 μ 方差为 σ2 分布的随机样本,定理1说明 XˉPμ 。为了说明样本均值依概率收敛到 σ2 ,假设 E[X41]< ,这样的话 var(S2)< 。根据前面的结论可得:

S2n=1n?1i=1n(Xi?Xˉn)2=nn?1(1ni=1nX2i?Xˉ2n)P1?[E(X21)?μ2]=σ2

因此样本方差是 σ2 的一致估计。

不像上面的例子,有时候我们可以用分布函数得出收敛,如下例所示:

2 X1,,Xn 是均匀分布 (0,θ) 的随机样本, Yn=max{X1,,Xn} ,从 Yn 的cdf中很容易看出 YnPθ 且样本最大值是 θ 的一致估计。注意无偏估计 ((n+1)/n)Yn 也是一致的。

接下里扩展下例2,根据定理1可得 Xˉn θ/2 的一致估计,所以 2Xˉn θ 的一致估计,注意 Yn,2Xˉn 依概率收敛到 θ 的区别。对 Yn 而言我们用的是 Yn 的cdf,但对 2Xˉn 而言,我们用的是弱大数定理。事实上 2Xˉn 的cdf非常复杂。在许多情况下,统计量的cdf无法得到但是我们可以用近似理论来建立结论。其实还有许多其他 θ 的估计量,那么哪个是最好的呢?后面的文章会继续介绍。

一致性是估计量非常重要的性质,当样本数量增大时差的估计量不可能靠近目标。注意这对无偏性是不成立的。例如我们不用样本方差来估计 σ2 ,假设用 V=n?1ni=1(Xi?Xˉ)2 ,那么 V σ2 的一致估计,但是是有偏的,因为 E(V)=(n?1)σ2/n ,所以 V 的偏置为 σ2/n ,当 n 时该项消失。

(编辑:李大同)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章
      热点阅读