相关系数小知识

陈立功的文学城博客:驰纵骋横,谈今博古,飞花扬月,行文交友
打印 被阅读次数

                                                                  相关系数小知识
 
        对于非统计背景的人士来说,读有关涉及统计测量的文章可能会遇到一些理解上的困难。如果能有一定的统计常识,就能很好地提高自己的阅读和理解水平。这里,我用最浅显的语言讲解有关相关系数的理论知识。
        所谓相关系数,指的是两个相互有关的随机变量(或随机现象或事物)之间的随机关系的统计测量,例如人类体重和身高之间的关系就可以用相关系数来描述。一般而言,身高高则体重重,但并非每个身高较高的人的体重都一定比一个身高较其矮的人的体重重。这类不确定的相关关系就是统计相关系数试图要解释的现象。
        在统计学上,相关系数的理论测量范围是闭区间[-1, 1]。这个区间可以被分解为三个临界连续的子区间:[-1,0)、[0]和(0,1]。其中,[-1,0)表示负相关,即一个变化增加,而另一个则变小;0表示无关,即一个无论怎样变化,另一个基本不变;而(0,1]表示正相关,即一个变化增加时,另一个也增加。然而,一个在数值上不等于0的相关系数(例如-0.1581或0.1675)可能在统计学上等于0,这就是关于相关系数的显著性检验的问题。因此,一个相关系数是否等于0需要由一个显著性检验的概率来判断。如果这个概率值很小,则等于0的可能性就很小;反之,如果这个概率值较大,则相关系数等于0的可能性就比较大。例如,如果一个相关系数的检验概率值是0.0048,就意味着该相关系数等于0的随机可能性只有大约0.48%。这是一个极小的可能性,也就是说,如果按照一定的观察、测量和计算分析的方法得到了一个相关系数及其检验概率值0.0048,得到该相关性的结论犯错误的可能性只有0.48%。
         在统计学上,有时候即使一个相关系数的绝对值在0.3,它等于0的可能性也许会达到50%甚至更高。因此,仅有相关系数的数值结果是远远不够的,必须有一个显著性检验的概率值才能对相关性作出合理的概率解释。如果没有检验概率值,就不能仅仅依据相关系数的正负性质和数值大小对相关性作出判断。因此,如果一个相关系数的绝对值趋近于1,且检验概率值趋近0,则该相关性的结论就有很高的可信度。
        那么,为什么除了要测量出相关系数,还要测量一个检验概率呢?这是因为,我们对两个可能相关的事物间的相关性是通过对该同类事物的一个随机部分的群体测量得到的。我们通常不能获得对该群体的全部个体作出测量以得到一个终极结论,因为该群体中的个体数量一般是无限,例如研究成年男性的体重和身高之间的关系时就面对着这样的困境。因此,基于一个随机部分群体的测量必然不是总体的真实结果,而是含有一个随机误差在内的结果。可以设想,如果换一个随机部分群体,又会得到一个不一样的结果,这些随机部分群体之间的差异我们称之为随机误差,而检验概率的作用就是要判断这个随机误差在任何一次随机群体测量中发生的可能性。
        在长期的统计测量实践活动中,人们从概率论的角度提出了以下约定成俗的概率判断规则:
        如果针对一个相关系数的检验概率等于或大于0.05,即100次随机抽样判断中有至少5次以上的差异主要由随机误差引起,或者说随机误差占总误差的可能性达到5%的水平或以上,那么,我们就不能说该相关系数在统计上具有显著性;反之,如果检验概率小于5%,那么,我们就可以说随机误差的发生是一个“小概率事件”,而一个如此小的概率意味着该事件(即该相关系数中的随机误差)几乎不可能发生,因而我们说该相关系数在统计学上有显著意义。这种建立在一个检验概率上的推论又被称为概率推断(probabilistic inference)
        那么,人们会问:你所说的相关系数中的随机误差是指的对什么的随机误差?这是一个非常好的问题。回答是这样的:我们对相关系数的检验是建立在以下两个假设基础上的:
         1)无效假设:相关系数等于0;
         2)备选假设:相关系数不等于0。
顾名思义,第二个假设是为了防备无效假设被拒绝后作结论时的备选方案。由此可见,一个相关系数中的随机误差是指的对于一个为0的理论相关系数的误差。因此,上述概率推断又被称为假设检验(hypothesis test)。
         一般来说,最常用的相关系数有两类。一个是Pearson线性相关系数,它是对两个可连续测量的变量之间的关系的衡量,例如上面提到的体重与身高之间的关系;另一个是Spearman等级相关系数,它是对用等级划分手段进行测量的变量之间的相关关系的衡量,例如“对黑猩猩的差异性”与“文明创造能力”这两个数值量化结果之间的相关关系。
        值得在此指出的是,在人种色度与文明创造能力的相关性研究中,被研究的对象包括了迄今为止的一切人种、一切时代、一切文明成果,因此,它不是对一个“随机部分”的随机测量,而是关于该研究总体的全部测量,因此,其相关系数是一个在该研究设定的测量条件下的迄今为止的真值。而“迄今为止”仅仅是一个随机时间点的选择,并不代表未来的结论,因此,该相关系数仍然是一个随机测量的结果,需要由一个来假设检验来作出概率推断。

登录后才可评论.