概率论的一般原理和方法

数论是一门学科,也是我的人生。有人把酒论英雄,我用数字描天下。
打印 被阅读次数

不管理科还是工科,甚至有的文科专业,如金融学、经济学、心理学,都要学习概率论;因为未来的决策都要参考过去的数据,而且,怎么做出偏差较小的回归分析,需要掌握统计方法;而概率论是统计的基础。在超微观世界的粒子物理学里,一切都是随机的;Paul发现了不确定性准则,Schrodinger用波函数(其模为概率密度)写出了电子的运动方程。随机现象的量化表述需要概率。

概率论作为一门数学理论,最早出现在17世纪。1654年,巴黎的赌博者Le Chevalier询问了Blaise Pascal关于赌博中一些特定可能性的问题;比如,如果一个游戏在中突被打断,每一个玩家成为最终赢家的概率有多大?Pascal与Fermat通信讨论了这些问题,还写了一本书阐述二项式系数与二项概率分布的规则。现代概率论研究的是随机变量及其分布规律。

一个随机现象(或试验R, 如一个粒子的运动)的每一种可能结果,叫做一个基本事件(样本点);所有基本事件的集合叫做样本空间S。基本事件的组合,就是复合事件;所有事件的集合,也就是S的所有子集的集合,就是S的幂集P(S)。S的某些子集组成一个集簇F;如果满足(1) S在F中,空集E也在F中;(2)F中任意可数个集合的并集还在F中,(3)F中任意有限个集合的交集也在F中,(4)如果A在F,则它在S中的补集A*=SA也在F中;则F称为一个随机事件空间。

当S为有限集时,如果每个样本点的出现是等可能的,每个子集A都是一个事件;其概率可以定义为 |A|/|S|,这里|A|表示A中所含样本点的个数。当S为三维空间中的一个有界区域时,如一个封闭的立体、或一块有限的曲面、或一段有限的曲线,如果每个样本点落在域中每一位置是等可能的,如果事件A是一块连续的子区域,其概率定义为 m(A)/m(S),这里的m(A)是A的几何度量(体积,面积或长度);如果A是不连续的子集,m(A)可以用Lebesgue测度。

对于一般的随机事件空间F,我们可以给出概率的公理化定义。定义一个函数p: F → [0, 1],如果满足 (1) p(S) = 1,(2)对于两两互不相交(互斥)的可数个集合Ai, p(UAi) = sigma{p(Ai): i = 1, 2, …}。由此可以推知以下性质:(a)p(E) = 0 (E 为空集或不可能事件);(b) p(A*) = 1 – p(A), (c) p(AUB) = p(A) + p(B) – P(AB),其中AB表示A与B的交集。此等式还可以用归纳法推广到有限个集合的并集。(d)若A包含于B,则p(A) ≤ p(B)。(e)如果A1包含A2,A2又包含A3,…, An包含A(n+1),…, 且它们没有交集,则limp(An) = 0当n趋于无穷大时。

两个事件A, B,如果满足p(AB) = p(A)p(B), 就称为互相独立的。当p(A) 不为0时,比值p(AB)/p(A)称作B在A发生的前题下的条件概率,记作p(B|A)。类似地有,p(A|B) = p(AB)/p(B)。事件B独立于A, 也可以表示为P(B|A) = p(B);当B独立于A时,自然也有A独立于B。我们有全概率公式:如果B包含于Ai (i = 1, 2, …, n)的并集,而且Ai两两互斥,则必有 P(B) = sigma{p(Ai)p(B|Ai): i = 1, 2, …, n}。由此还可以推出Bayes的后验概率公式。

在一些情形,试验的结果取决于前面试验的结果,我们说事件具有了时序性或形成了随机过程。俄罗斯数学家Andrei Markov引进了概率向量、状态转移矩阵,并探讨了稳定性。空间F中的所有子集/事件存在一种一维的时序关系:每个子集A都对应于一个实数t;t的取值范围可以是离散的(包括有限),也可以是连续的区间。这时的F称为一个随机过程,或者时间序列。过程A(t) →A(s)表示事件A(t)后紧接着事件A(s)(这有别于逻辑的蕴含或集合的包含关系); 它发生的概率为p(A(s)|A(t))。

比起赋予每个事件一个概率,我们有更简单、更方便的办法来讨论随机事件:随机变量及其概率分布与条件分布。一个随机变量就是样本空间S上的一个实函数。严格来说,设(S,F,P)是一个概率空间,X(s)是S上的一个实值函数,如果对任意实数x,集合 {s: X(s)

随机变量可以分为三大类:(1)离散型。它只能取有限个或者可数无穷个值;其分布函数可以用离散的和式表出。常见的离散分布有:两点分布(Bernoulli分布)、超几何分布、二项分布、Poisson分布(二项分布的极限情形)、几何分布。当然,概率函数P(X = xi)是可以随变定义的,可在实际中,也就是上述几种,或者它们的线性组合。

(2)绝对连续型,也就是说,cdf(x)几乎处处连续可微,从而有一个几乎处处连续的概率密度函数pdf(t):cdf(x) = S{pdf(t)dt: t ≤ x},这里的S是积分,可以是Riemann积分,或者Lebesgue积分;也就是某种连续和。密度函数具有这些性质:(i)取值在0与1之间,(ii)在整个实轴上的积分为1,(iii)概率P(a

(3)既非离散也非绝对连续。比如用一个离散型的Cdf1(x), 与一个绝对连续型的cdf2(x),按照比例r混合:r cdf1(x) + (1-r) cdf2(x),那就既不能列举,也没有一个连续的密度函数。需要引进一般的不可数和式,才能处理这类变量。不过在实际问题当中,这类变量出现的机率很小,就忽略不论了。

随机变量既是函数,就可以进行运算:给定任何一个实函数f: R →R,和任何一个随机变量X,f(X)也是一个随机变量;它的分布函数可以由cdfX(x)及f确定。给定两个随机变量X和Y,也可以对它们进行加、减、乘、除;这些变量的分布需要用随机向量的联合分布来表示。

给定概率空间(S,F,P)上的任意n给随机变量X1, X2, …, Xn,如果对任意一组实数 (r1, r2, …, rn),集合{s: X1(s)

在联合分布函数中,如果单独某个变量取为正无穷大,结果就是其它变量的边际(Marginal)分布函数;比如cdfX(x) = cdf(x, ∞),cdfY(y) = cdf(∞, y)。

两个随机变量X和Y,称为是相互独立的,如果对于任意两个实数集R的子集A和B,总有P(X∈A, YB) = P(X∈A) P(Y∈B)。n个随机变量的相互独立性可以类似定义,但要区别于“两两相互独立”的概念。这种独立性的定义很难操作,我们可以用分布函数来判定。

两个随机变量X和Y是相互独立的,当且仅当,P(a ≤ X ≤ b, c ≤ Y ≤ d) = P(a ≤ X ≤ b) P(c ≤ Y ≤ d), 对所有实数 a ≤ b 及 c ≤ d 成立。或者说,cdf(x, y) = cdfX(x) cdfY(y)。

也可以用密度函数来判定:(1)若 X 和 Y 是离散型的,则X 与 Y 相互独立的充要条件是它们的联合概率函数 pX,Y 满足 pX,Y(x, y) = pX (x) pY (y) 对所有实数 x, y 成立。(2)若 X 和 Y 是绝对连续型的,则X 与 Y 相互独立的充要条件是它们的联合密度函数 fX,Y 满足 fX,Y(x, y) = fX (x) fY (y) 对所有实数 x, y 成立。

第三种表述方式是条件概率。对于离散型的二维随机向量(X, Y),Y在给定条件X = x下的分布列为pY|X(y|x) = : P(Y = y|X = x) = P(X = x, Y = y)/P(X = x);对于绝对连续型的二维随机向量(X, Y),Y在给定条件X = x下的分布密度为fY|X (y | x) = fX,Y (x, y)/fX (x) ,其中, fX(x) = S{fX,Y(x, y)dy: -∞ Y|X(y|x) = pY(y),或者 fY|X (y | x) = fY (y)对所有实数x, y成立。

在概率论中,对随机变量的分布函数的表述,还可以用一些数字特征来进行;有期望值、方差,以及各阶矩,生成函数或特征函数。它们包含了分布的全部信息,或者说,离散型和绝对连续性变量的分布函数,可以由这些数字特征唯一确定:通过矩生成函数或者特征函数,我们就可以知道那是一个什么分布。

一个随机变量X的期望值E(X)定义为 S{x d(cdfX(x): x ∈ R)}.如果X是离散的,这是一个级数;若为绝对连续型,这是一个黎曼积分;如果cdfX(x)是一个Lesbesgue可测函数的话,这就是一个Lesbegue积分。在量子力学中,这是一个Feynman积分;你要定义自己的积分也未偿不可,只要它能够收敛到一个有限的数。X的k阶矩就是E(X^k);k阶中心矩是E((X – E(X))^k);k=2时是方差;方差的算术平方根就是标准方差。

期望算子具有一些奇妙的性质:(1)E(c) = c对任意常数c;(2)线性性:E(aX + bY) = aE(X) + bE(Y),对任何常数a, b;(3)二次多项式E((X – t)^2)当t = E(X)时取得最小值,(4) 如果X与Y相互独立,则有E(XY) = E(X)E(Y),或者协方差Cov(X, Y) =: E([X – EX](Y – EY)) = 0。协方差与X及Y的标准方差的比值,称为X与Y的相关系数。这是回归分析中的一个重要指标。

随机变量X的生成函数定义为E(t^X),t是一个实参数。矩生成函数为MX(s) = E(e^(sX)),s为实参数;如果两个随机变量的矩生成函数相等,那么它们必有相同的分布(函数)。MX(s)有时可能不收敛,我们可以代之以特征函数CX(t) = E(e^(itX)),由于e^(itX)的模为1,CX总可以收敛到有限数(要求密度函数在函数空间L^1(R)之中),而且也满足唯一性的要求。

在概率论的应用中,我们需要考虑来自同一个母体的抽样分布:设X1, X2, …, Xn是一个独立、同分布的、大小为n的样本(随机变量),我们构造一个统计量Y = h(X1, X2, …, Xn),其中h是任意实函数,但通常取为样本的各种均值。在一些特殊情形,Y的分布函数可以精确算出;但在大多数情况下,精确分布是不可能算出的,只能考虑近似分布。对于不同的样本大小n,我们构造出了一个随机变量的序列Yn;当n趋向于无穷大时,Yn的极限分布通常很简单。我们有诸多的中心极限定理。

在实际情况中,母体的分布(参数)是未知的。我们可以收集一个样本(X1,X2, …, Xn),用一组观测值 (r1, r2, …, rn) 去估计随机变量Y。比如,样本均值可以作为母体均值的估计;如果当n趋向于无穷大时,统计量Yn趋向于所要估计的参数,这个估计量Y就是一致的(consistent)。关于一致性估计,我们有强大数定律和弱大数定律。如果E(Y)等于待估计的参数,这种估计还是无偏的。

登录后才可评论.