Introduction¶
约 2245 个字 预计阅读时间 7 分钟
概率论基本定义¶
概率空间¶
一个标准的概率空间由三元组 \((\Omega, \mathcal{F}, P)\) 定义,它为概率论提供了严格的公理化基础。
- 样本空间 \(\Omega\): 所有可能结果的集合。
- 事件域 \(\mathcal{F}\) (\(\sigma\)-代数): \(\Omega\) 的一些子集构成的集合,它满足:
- \(\Omega \in \mathcal{F}\);
- 若 \(A \in \mathcal{F}\),则其补集 \(A^c \in \mathcal{F}\);
- 若可数个事件 \(A_1, A_2, \dots \in \mathcal{F}\),且两两互不相容,则它们的并集 \(\bigcup_{i} A_i \in \mathcal{F}\)。 \(\mathcal{F}\) 中的元素称为可测事件,我们只为这些事件分配概率。
- 概率测度 \(P\): 定义在 \(\mathcal{F}\) 上的一个函数,为每个事件 \(A \in \mathcal{F}\) 分配一个实数 \(P(A)\),且满足:
- 非负性: 对于任意 \(A \in \mathcal{F}\),有 \(P(A) \ge 0\)。
- 规范性: \(P(\Omega) = 1\)。
- 可列可加性: 对于 \(\mathcal{F}\) 中任意两两互不相容的事件序列 \(A_1, A_2, \dots\),有 \(P\big(\bigcup_{i} A_i\big) = \sum_{i} P(A_i)\)。
随机试验¶
一个实验如果满足以下三个条件,则称之为随机试验:
- 可以在相同条件下重复进行;
- 每次试验的可能结果不止一个,并且能事先明确所有可能结果;
- 进行一次试验之前,不能确定哪一个结果会出现。
样本空间¶
随机试验所有可能结果的集合,记为 \(S\) 或 \(\Omega\)。
- 例子:抛一枚硬币的样本空间 \(S = \{\text{正面},\ \text{反面}\}\)。
样本点¶
样本空间中的每一个元素,即随机试验的一个可能的基本结果。
随机事件¶
样本空间 \(S\) 的一个子集,简称事件。通常用大写字母 A, B, C... 表示。
- 基本事件:由一个样本点组成的单点集。
- 必然事件:整个样本空间 \(S\)。
- 不可能事件:不包含任何样本点的空集 \(\varnothing\)。
概率¶
即概率测度 \(P\),是满足概率空间公理的函数。
条件概率¶
设 \(A, B\) 是两个事件,且 \(P(B) > 0\),称
为在事件 \(B\) 发生的条件下,事件 \(A\) 发生的条件概率。
独立性¶
如果两个事件 \(A, B\) 满足:
则称事件 \(A\) 与 \(B\) 相互独立。
随机变量¶
定义在样本空间 \(S\) 上的实值函数 \(X = X(\omega),\ \omega \in S\)。它表示随机试验的结果。
- 离散型随机变量:所有可能取的值是有限个或可列无限个。
- 连续型随机变量:可能取的值充满一个区间。
概率分布¶
描述随机变量取各个值的可能性大小的函数。
- 概率质量函数:对于离散型随机变量 \(X\),函数 \(p(x_i) = P(X = x_i)\) 为其概率质量函数。
- 概率密度函数:对于连续型随机变量 \(X\),如果存在非负可积函数 \(f(x)\),使得对任意实数 \(a, b\) (\(a < b\)),有 \(P(a < X \le b) = \int_a^b f(x)\,dx\),则 \(f(x)\) 称为 \(X\) 的概率密度函数。
分布函数¶
设 \(X\) 是一个随机变量,\(x\) 是任意实数,函数 $$ F(x) = P(X \le x) $$ 称为 \(X\) 的分布函数,也称为累积分布函数。
分布函数 \(F\) 满足以下必要性质:
- 极限性质:
- 非减性:对于任意 \(x_1 < x_2\),有
- 右连续性:对于任意实数 \(x_0\),有
补充说明:分布函数的左极限 \(F(x_0^-)=\lim_{x\to x_0^-}F(x)\) 一般与 \(F(x_0)\) 不相等,二者的差表示 \(X\) 在点 \(x_0\) 的质量(点概率):
数学期望¶
随机变量 \(X\) 的平均值或“中心位置”的度量。
- 离散型:\(E(X) = \sum_{i} x_i p(x_i)\),若级数绝对收敛。
- 连续型:\(E(X) = \int_{-\infty}^{\infty} x f(x)\,dx\),若积分绝对收敛。
方差¶
度量随机变量与其数学期望的偏离程度。
方差的算术平方根称为标准差。
矩与中心矩¶
对于随机变量 \(X\),定义其 \(k\) 阶(原点)矩为:
特别地,\(M_1 = E[X]\) 就是期望(通常简记为 \(\mu\))。
\(k\) 阶中心矩定义为:
中心矩度量随机变量相对于其均值的偏离程度。
MGF(矩母函数):
矩的存在性:若 \(E[|X|^k] < \infty\),则称 \(k\) 阶矩存在。高阶矩可能不存在(如 Cauchy 分布连一阶矩都不存在)。
矩的深入理解与应用
矩在整个课程中会反复出现,这里预览一些核心思想:(以下都是机翻,还没整理)
1. 矩是分布的摘要
-
均值与方差:我们已经广泛使用了均值和方差。在高层次上,中心矩可以告诉你概率质量如何围绕均值分布。
-
偏度(Skewness):对于任何对称分布,第三中心矩为零。一般来说,如果第三中心矩非零,说明分布是偏斜的,其符号告诉你它偏向均值的哪一侧。
例如,高斯分布的第三中心矩为零。
-
峰度(Kurtosis):标准高斯分布的第四中心矩为 3。第四中心矩大于 3 的分布称为尖峰态(leptokurtic)(比高斯在均值附近更尖峰),小于 3 的称为扁峰态(platykurtic)(比高斯更平坦)。
-
矩的比较:解释高阶矩的一个典型方法是将它们与相应的高斯矩进行比较。
2. 矩可用于推理收敛性
我们不会在课程中过多涉及,但证明中心极限定理的一个典型方法是证明:
的所有矩收敛到标准正态分布的相应矩。然后诉诸这样一个事实:矩收敛 + 一些正则性条件 \(\Longrightarrow\) 分布收敛。
从概念上讲,这"降低"了证明数字序列(即矩)收敛以证明分布收敛。
3. 矩给出估计量
我们稍后会再次看到这一点,但作为一个简单的例子:
假设 \(X_1, \dots, X_n\) 从高斯分布 \(\mathcal{N}(\mu, \sigma^2)\) 中独立同分布抽取,我想估计高斯的参数 \(\mu\) 和 \(\sigma\)。一个简单(且非常通用)的策略是匹配矩。我们可以计算:
样本矩为:
因此我们可以尝试求解方程:
以获得 \(\mu\) 和 \(\sigma\) 的估计。这是提出参数估计量的一般方法之一,即"匹配"样本矩(易于估计)与未知分布的矩。
4. 矩给出尾界
我们已经看到了 Chebyshev 不等式:
为了推导 Chebyshev 不等式,我们对数据取平方并使用了 Markov 不等式。我们也可以取更高的幂来得到:
因此,如果我们的分布具有较小的高阶中心矩,那么通过在上述表达式中选择更高的 \(k\) 值,我们通常会获得更紧的控制。
Chernoff 方法:这种技术的一个更常用(特别是用于显示指数集中)的改进称为 Chernoff 技术。假设我们首先对随机变量进行中心化(减去其均值)。然后观察到:
在上述表达式中,\(E\exp(uX)\) 就是 \(X\) 的 MGF,\(u\) 是我们可以选择的自由参数以使界变紧。
Chernoff 技术的说明:对于均值为 0 的高斯随机变量,我们可以计算 MGF:
因此 Chernoff 方法给出:
右侧通过选择 \(u = t/\sigma^2\) 最小化,这给出界:
这是显示高斯具有指数尾的一种更简单的方法。我还要补充一个重要说明:
亚高斯随机变量:上述练习的一个简单结论是,如果某个(不一定是高斯的)随机变量 \(Y\) 的 MGF 被高斯的 MGF 支配,即如果某个(不一定是高斯的)随机变量 \(Y\) 满足:
对于某个 \(\sigma\) 值,那么它也会满足尾界:
事实证明,一大类随机变量实际上满足上述条件:它们被称为亚高斯随机变量,包括有界随机变量等。
高层次理解:MGF 可用于理解随机变量的尾部,重要的是,如果 MGF 较小,则随机变量具有较轻的尾部。因此,矩再次帮助我们理解分布的尾部。
一些常见的分布¶
下面列出一些常见的离散与连续分布及其概率质量函数(pmf)或概率密度函数(pdf):
离散分布¶
-
离散均匀分布(Discrete uniform):在 \(k\) 个类别 \(\{x_1, x_2, \dots, x_k\}\) 上 $$ p_X(x) = \frac{1}{k},\qquad x\in{x_1,\dots,x_k}. $$
- 期望:\(E(X) = \frac{1}{k}\sum_{i=1}^k x_i\)
- 方差:\(\operatorname{Var}(X) = \frac{1}{k}\sum_{i=1}^k x_i^2 - \left(\frac{1}{k}\sum_{i=1}^k x_i\right)^2\)
-
Bernoulli 分布:表示一次带偏置的掷币(取值 \(0,1\)),记作 \(\operatorname{Ber}(p)\): $$ p_X(x)=p^x(1-p)^{1-x},\qquad x\in{0,1}. $$
- 期望:\(E(X) = p\)
- 方差:\(\operatorname{Var}(X) = p(1-p)\)
-
Binomial 分布:\(n\) 次独立伯努利试验中成功次数,记作 \(\operatorname{Bin}(n,p)\): $$ p_X(x)=\binom{n}{x}p^x(1-p)^{n-x},\qquad x=0,1,\dots,n. $$
- 期望:\(E(X) = np\)
- 方差:\(\operatorname{Var}(X) = np(1-p)\)
-
几何分布(第一成功次数,取值从 1 开始),记作 \(\operatorname{Geom}(p)\): $$ p_X(x)=p(1-p)^{x-1},\qquad x=1,2,\dots. $$
- 期望:\(E(X) = \frac{1}{p}\)
- 方差:\(\operatorname{Var}(X) = \frac{1-p}{p^2}\)
-
泊松分布(Poisson):平均值为 \(\lambda\),记作 \(\operatorname{Pois}(\lambda)\): $$ p_X(x)=\frac{\lambda^x e^{-\lambda}}{x!},\qquad x=0,1,2,\dots. $$
- 期望:\(E(X) = \lambda\)
- 方差:\(\operatorname{Var}(X) = \lambda\)
连续分布¶
-
连续均匀分布(Uniform):在区间 \([a,b]\) 上:
\[\begin{equation} f_X(x)=\begin{cases}\dfrac{1}{b-a},&x\in[a,b], \\ 0,&\text{otherwise.}\end{cases} \end{equation}\]- 期望:\(E(X) = \frac{a+b}{2}\)
- 方差:\(\operatorname{Var}(X) = \frac{(b-a)^2}{12}\)
-
正态(高斯)分布:具有位置参数 \(\mu\)(均值)和尺度参数 \(\sigma\)(标准差),记作 \(\mathcal{N}(\mu,\sigma^2)\),其 pdf 为 $$ f_X(x)=\frac{1}{\sqrt{2\pi}\,\sigma}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right). $$
- 期望:\(E(X) = \mu\)
- 方差:\(\operatorname{Var}(X) = \sigma^2\)
-
Cauchy 分布:具有位置参数 \(x_0\) 和尺度参数 \(\gamma > 0\),记作 \(\operatorname{Cauchy}(x_0, \gamma)\),其 pdf 为 $$ f_X(x) = \frac{1}{\pi\gamma\left[1 + \left(\frac{x-x_0}{\gamma}\right)^2\right]}. $$
- 期望:不存在(积分不收敛)
- 方差:不存在
注:标准 Cauchy 分布对应 \(x_0=0, \gamma=1\)。Cauchy 分布是一个经典例子,说明并非所有分布都有有限的期望和方差。其"厚尾"特性使得一阶矩及更高阶矩均不存在。
随机变量的变换¶
问题描述¶
设随机变量 \(X\) 有 pdf/pmf \(f_X\) 和 CDF \(F_X\),对于某个函数 \(r\),定义 \(Y = r(X)\)(如 \(Y = X^2\) 或 \(Y = e^X\))。如何计算 \(Y\) 的 pdf/pmf 或 CDF?
离散情况¶
若 \(X\) 是离散型随机变量,则 \(Y\) 也是离散型,其 pmf 为:
示例:若 \(X \in \{-1, 0, 1\}\),概率分别为 \(1/4, 1/2, 1/4\),令 \(Y = X^2\),则 \(Y\) 取值 \(\{0, 1\}\),且 \(p_Y(0) = 1/2\),\(p_Y(1) = 1/2\)。
连续情况(可逆变换)¶
若变换 \(r\) 可逆,记 \(s = r^{-1}\),则 \(Y\) 的 pdf 为:
其中 \(\left|\frac{ds(y)}{dy}\right|\) 称为雅可比(Jacobian),修正变换导致的区间伸缩。
示例:若 \(X \sim U[0,1]\),\(Y = X^2\)。由 \(s(y) = \sqrt{y}\),得:
直观解释:对于很小的 \(\Delta\),有
而 \(Y \in [y_0 - \Delta, y_0 + \Delta]\) 等价于 \(X \in [s(y_0 - \Delta), s(y_0 + \Delta)]\),即
比较两式即得上述公式。
期望的不等式¶
在概率论中,经常需要对某些期望进行上界估计。以下两个不等式非常有用:
Cauchy-Schwarz 不等式¶
对于任意两个随机变量 \(X, Y\)(假设相应的期望存在),有:
应用:可以用来证明相关系数 \(\rho(X,Y) = \frac{\operatorname{Cov}(X,Y)}{\sigma_X \sigma_Y}\) 满足 \(|\rho(X,Y)| \le 1\)。
Answer
使用 Cauchy-Schwarz 不等式验证两个随机变量之间的相关系数被限制在 \([-1, 1]\) 之间。
设 \(X, Y\) 是两个随机变量,均值分别为 \(\mu_X, \mu_Y\),标准差分别为 \(\sigma_X, \sigma_Y\)。定义中心化随机变量:
则协方差 \(\operatorname{Cov}(X,Y) = E[X'Y']\),且 \(E[(X')^2] = \sigma_X^2\),\(E[(Y')^2] = \sigma_Y^2\)。
对 \(X'\) 和 \(Y'\) 应用 Cauchy-Schwarz 不等式:
因此:
两边同时除以 \(\sigma_X \sigma_Y\)(假设方差非零),得:
即 \(|\rho(X,Y)| \le 1\),也就是 \(-1 \le \rho(X,Y) \le 1\)。
等号成立的条件:当且仅当 \(X'\) 和 \(Y'\) 线性相关时等号成立,即存在常数 \(a\) 使得 \(Y' = aX'\)(或 \(Y - \mu_Y = a(X - \mu_X)\))。此时 \(\rho = \pm 1\)(符号取决于 \(a\) 的正负)。
Jensen 不等式¶
首先回顾凸函数的定义:函数 \(g\) 是凸函数,当且仅当对任意 \(x, y\) 和 \(\alpha \in [0,1]\),有:
几何上,凸函数的任意两点之间的连线完全位于函数曲线的上方。
Jensen 不等式:对于凸函数 \(g\) 和随机变量 \(X\)(假设相应的期望存在),有:
直观理解:Jensen 不等式实际上是凸性定义在概率测度下的推广。
常见应用:
- 由于 \(g(x) = x^2\) 是凸函数,有 \((E[X])^2 \le E[X^2]\),即 \(\operatorname{Var}(X) = E[X^2] - (E[X])^2 \ge 0\)。
- 由于 \(g(x) = e^x\) 是凸函数,有 \(e^{E[X]} \le E[e^X]\)(矩母函数的性质)。
- 由于 \(g(x) = -\log x\) 是凸函数(\(x > 0\)),有 \(-\log(E[X]) \le E[-\log X]\),即 \(\log(E[X]) \ge E[\log X]\)。
矩母函数¶
定义¶
随机变量 \(X\) 的矩母函数(Moment Generating Function, MGF)定义为:
一般情况下,MGF 可能不存在(与期望类似),并且对于较大的 \(t\) 值可能发散。我们通常只在 \(t\) 的某个邻域(包含 0)内考虑 MGF。
为什么叫"矩母函数"¶
MGF 的名称来源于它在 \(t=0\) 处的导数可以给出各阶矩。具体地:
类似地,\(k\) 阶导数给出 \(k\) 阶矩:
因此,MGF 包含了随机变量的所有矩信息。
重要性质¶
性质 1:独立随机变量和的 MGF
若 \(X_1, \dots, X_n\) 独立,且 \(Y = \sum_{i=1}^n X_i\),则:
证明:由独立性,\(E[e^{t(X_1+\cdots+X_n)}] = E[e^{tX_1} \cdots e^{tX_n}] = E[e^{tX_1}] \cdots E[e^{tX_n}]\)。
这个性质使得计算独立随机变量和的各阶矩变得非常容易。
性质 2:MGF 的唯一性
若两个随机变量 \(X\) 和 \(Y\) 的 MGF 在 0 的某个邻域内存在且相等,则 \(X\) 和 \(Y\) 具有相同的分布。
这意味着 MGF 完全决定了分布。
例子¶
例 1:Bernoulli 分布
设 \(X \sim \operatorname{Ber}(p)\),计算其 MGF 并用它求期望。
直接计算:
求一阶导数并在 \(t=0\) 处求值:
即 \(E[X] = p\),与我们已知的结果一致。
例 2:指数分布
设 \(X\) 服从参数为 \(\lambda\) 的指数分布(均值为 \(1/\lambda\)),其 pdf 为:
计算 MGF(当 \(t < \lambda\) 时):
注意:当 \(t \ge \lambda\) 时,积分发散,MGF 不存在。