人类在对数量的认识上有三次飞跃。一是从正数到负数,二是从数值到变量,三是从静量到极限。变量尽管可以取不同的数值,但它本身还是静态的,没有体现变化的过程。从哲学上说,自然界的一切量都在随着时刻变化,没有人两次踏进同一条河;宇宙空间与时间是交织着的、不可分的。一个量的时间变化率(或者更高阶的时间变化率)才有可能是常量,即与时刻无关。为了理解瞬时变化率的概念,必须把时刻想像为连续的,即时间间隔Δt可以无限细分,或者趋向于零。至于Planck的最短时间间隔或者最小空间间隔,那是一个实验物理学家的认识极限,数学家们眼里的世界都是连续的、可以无限细分的。
数学是研究数与形的,但是“形”可以按照“维数”归结为点集:一条曲线是有连续的点构成,一个曲面由连续的曲线生成,一块立体则由连续的曲面层叠而成。再往上,三维立体堆积而成四维空间,比如我们的时空。维数,其实就是人类为了描述一个实体,所需要的自由变量的个数。有人说,人的大脑是26维的;也有人说,那是10维的;没有人能够弄得清楚。在数学上,任何一个k维形体,都可以用从R^k出发的对应(映射、变换或者函数)来表示。其中,R是实数集,一个具有连续基数的数域。关键是函数表达式的收敛性:你不能随手写一个连续和式,就声称那代表了一个世界里的所有东西,得有某种收敛性才行:最终要导出一个完备空间或者紧致空间。
在整个数学领域中,有三种收敛性的概念:(1)按照点间距离或者向量的范数收敛,即序列极限;(2)按照几何体的度量(如体积、面积等)或测度收敛,即体极限;(3)按照任意邻域包含所有后续项(映射是从一个有向集到一个拓扑空间)定义的网极限。前两种是分析学中的收敛概念,第三种是拓扑学中的概念,由Moore 和Smith在1922年引进;它包含了前两种收敛性。但是,只有当那个有向集是有限维的时候,才能开展分析学。
人类从自然数出发,引进0和负数,经过加、减、乘、除四种基本运算,得到了有理数集Q。有理数的个数是可数无穷大ω,因为它们可以被排成一列,即与自然数一一对应。有理数集形成了一个最小的无限数域;它是“无缝的“,即任何两个有理数之间还有一个有理数;但还有一些数,不可能由自然数经过有限次的四则运算得到,即是无理数,比如sqrt(2)。人们希望,我们的数系可以与一条直线上的点一一对应,可直线是连续的:日取其半,万世不竭;于是就有了Dedekind分割:把全体有理数分成两个不相交的非空集合A和B,使得A中的任何一个数都小于B中的任何一个数。如果A有最大的数,或者B有最小的数,此分割就得到一个有理数;如果A无最大数,而且B无最小数,就确定了一个无理数。比如,A = {x Q: x^2 < 2} ,B = {y Q: y^2 > 2} ,就确定了sqrt (2) 。有理数和无理数统称为实数。
实数集的基数是连续的c(Continuum)。我们有连续统公理:在ω与c之间,不存在其它的基数。比c更大的一个基数是2^c,即实数集的幂集,它与所有实函数之间有个一一对应。有理数集在实数集中是” 稠密的 “,即任何一个实数都是某个有理数列的极限。此外,还有其它7条互相等价的基本公理,用来描述实数集的完备性、紧致性和可分性。单调有界定理是其中之一,这是微积分中唯一提到的公理。
在实数集中,两个点(数x, y)之间的距离就是它们的差:|x – y|。在k维空间F^k(F是一个数域)中,一般采用欧氏距离来表示两个点之间的接近程度。但在一般的拓扑空间里,距离函数可以是任何满足三条公理(对称性、正定性、三角不等式)的任何一个二元实函数。这是法国数学家Frechet于1906年首先提出的;这三条公理也合符人们对距离的基本认知。在一致拓扑空间中,伪距离把正定性也去掉了;只要求一簇满足可分离性的二元函数。在爱因斯坦的相对时空中,两个事件之间的距离定义为:sqrt[ (cΔt)^2 – (Δx)^2 – (Δy)^2 - (Δz)^2],除了非负性之外,其它公理都不满足,只是在Lorentz变换下,此式保持不变。可见,距离没有普遍的标准;也只有如此才能表达时空的扭曲和变化多端。
按照距离函数趋向于零,采用代数化的epsilon-N定义。给定空间中的可数无穷多个点{Pn},当n趋向于可数无穷大时,{Pn}无限趋近于某个有限点P,指的是在按照某种距离函数d(Pn, P)接近于0。极限点的存在性,由空间的完备性保证。
在一个向量空间中(一定含有零向量),范数是一个一元实函数,要求满足正定性、三角不等式、齐次性(即,||ax|| = |a| ||x||,a是数,x是向量)。有了范数,便可定义距离:d(x, y) = ||x – y||;它满足距离三公理。但是,仅有距离,不能定义范数,因为向量空间需要有一种线性(代数)结构。
在P-adic数的理论中,引进了赋值的概念:有理数集上的一个实函数,满足正定性、可乘性[f(xy) = f(x)f(y)]、次可加性[ f(x + y) ≤ f(x) + f(y), 类似于三角不等式]。对于一个有理数a = (m/n)p^k,m,n, k为整数,m, n与素数p互质,它的p-adic赋值定义为 p^(-k)。两个有理数a, b之间的距离按照 (a – b)的p-adic赋值来定义;可以证明,在此距离下,p-adic扩张是一个完备集。
点列是离散的,它的极限(收敛性)可以按距离来定义。对于一个连续的形体,我们要用无穷细分、也就是微元的概念。最早出现的是黎曼积分,那是人们对于几何形体的度量的自然想法。先定义了矩形(直角形)的面积,再导出直(多)边形的面积,然后用直边形去接近曲边形(如圆)的面积;对于3维图形的体积也是如此。那些用来表示各个维度的自变量的微小几何度量,如角度、长度、面积、体积(3维以上都叫做体积),就叫做微元;二阶或以上微元的和式,都趋向于零,可以忽略不计。微元前面的系数,可以理解为依附于此微元上的某种量的密度。在黎曼积分中,密度必须要是连续的才可积,至少是(充要条件),不连续点的集合具有零测度。
测度是几何度量的推广,有多种不同的测度,这里说说Lebesgue测度。在k维欧氏空间R^k中的点集,可不只有连续区域。在一维实数集R的区间 [0, 1] 构造出来的Cantor集,惊掉了所有人的下巴:把它三等分,去掉中间的三分之一;再对剩下的区间如此操作,无穷尽地进行下去。最后剩下的部分就是Cantor集。被去掉的区间的总长度为1;Cantor集的测度是0,还是一个无穷闭集。
一个有限区间(闭、开、或者半闭半开)的测度就是它的长度;不相交的可数个区间的测度,等于所有区间长度之和。一个集合的外测度,就是所有包含它的开区间的测度的下确界;内测度则是所有包含于此集合的有界闭集的测度的上确界。当外测度等于内测度时,该集就称为Lebesgue可测的。不可测集合的结构是如此复杂,以至于不能赋予任何有意义的度量。Giuseppe Vitali在1905年还真是构造出了不可测的集合。可测函数由其取值范围来定义:如果集合E{x: f(x) ≥ r} 或者 F{x: f(x) < r}对所有实数r可测,函数f就是可测的。可测函数可以用一个简单函数列来逼近;可测函数在可测集上Lebesgue可积:int{f(x)dm: x E}可定义,其中m是Lebesgue测度。一些著名的黎曼不可积函数,如Dirichlet函数、黎曼函数,都是Lebesgue可积的。
Feynman积分是一个物体的作用(表示物体结构或能量信息的函数)沿所有连续曲线的和。为了保证收敛性,每一项需要乘以一个收敛因子。利用测度微元的思想,可以化为一个复围道积分。在复变函数中,解析函数的表示就彻底自由了!如果再加上相对论的考量,引入四元数,弦的运动方程就可解,而不仅仅是基本粒子的概率幅度表示。
在概率统计中,随机变量的序列有四种收敛性: (1)按照概率收敛,(2)以概率1收敛,(3)按分布收敛,(4)按照均值(期望值)收敛。概率其实就是随机事件空间上的一种测度。对于连续型的随机变量,可以定义概率密度,概率可以用积分表式示。离散型的随机变量的概率,可以用和式表示。混合型的概率分布函数,用事件空间上的连续和表示:概率密度乘以空间度量的微元,然后对所有基本事件相加。和式的收敛性由分布密度的非负性、组合系数的非负性且和为1保证。
一个空间里某种现象的发生的概率其实是未知的,我们需要通过抽样去发现其统计规律。一个统计量,就是不含未知参数、只依赖于观测值的可测函数。我们可以去估计样本的均值、方差、各阶矩等等,用它们去接近母体的相关参数。对于独立同分布的样本,可以证明,它的Z-Score, 当样本数趋向于无穷大时,Z-score按分布收敛于标准正态分布。也许我们可以把任何分布的Z-score近似地看成正态分布;但其均值与方差还是需要无偏一致统计量去估计。
一个大四学生上学期学了一门课,《概率论在工程中的应用》;他的感觉是,几乎要用尽所有的大学数学知识;其实呢,统计学的方法都没有涉及。我在大学里学《概率统计》时,那个女老师只会抄黑板,不会做任何原理的解释;之后我就自己去把每一个细节弄清楚。现在,在一个纯粹数学家的眼里,概率论已经很完善了—没有什么可以值得研究的了。在物理学中,人们追求一个大一统的理论;但在数学中,这是不可能的:没有一组式子能够描尽天下所有现象,也没有一组映射,能够实现所有的变换。