}

【女子与数学 (2)gender gap】

女子与数学 (2)gender gap

【上一篇 https://blog.wenxuecity.com/myblog/80301/202406/21236.html? 】

写这篇文章的动机,并不是因为近来刷屏的姜萍,而是网友的一篇博文《数学,无关性别》。说的是她回国以后得知上初三的表哥的女儿,在数学上遇到了困难,尝试请一位重点中学数学老师帮忙,而这位老师冷淡地表示,女生数学掉链子,无能无力……

同作者一样,我不同意那位老师的态度,但我却这样回:

“数学有点不同于其他学科,事情真的比较复杂、难说。

在完全自由的选择和类似的努力下,性别差异的确明显。我曾经近距离、数年之间(因某种契机)深入了解过我们这个学区最好的约20多个 math kids,包括我自己的两个孩子,我觉得总体上性别差异明显。但这其中确有几个个女生数学也是优秀的,其中两个大学里继续学STEM。所以,对于个体来讲不一定。

数学上最优秀者,两性的比例大约是 1:10,这在任何别的学科都是没有的,不能被歧视、偏见、自信心不足等来充分解释。

…… 我可以写一篇说这个问题,但不愿意趟这涉嫌“歧视”的浑水,被人扔砖头。”

她的回答中有两点,我认为非常中肯:1. 就应付大学以前的数学考试而言,她觉得学习数学“开窍”很重要。2. 她不知道女孩是不是从小就被灌输了性别的差异,因而从思想深处就对数学生出了惰性和怯意。

此外,她鼓励我写有关此问题的文章,不要管别人说什么......

好吧,既然我有一些数据、观察和有关的一些思考,就写出来,言者无罪。

性别差异(gender gap)这种说法早就有,但经常是非常宽泛的,比如平均而言男人比女人力气大,暴力犯罪率高,从政人数多,这些都是gender gap。(BTW,两性的智商平均值没有差异,尽管两性在IQ测验的分项上各有所长。)这里,我们将“性别差异”范围仅限于数学的能力或特长。

2009年,总部设在巴黎的国际组织“经济合作与发展组织”(简称经合组织; Organisation for Economic Cooperation and Development,OECD)开始了一项为期3年,每三年重复的“国际学生评价计划”(Programme for International Student Assessment (PISA)),通过测验评价几十个国家的15岁学生的数学和语言能力。本计划的初衷主要是提供一个量化的、显示不同国家初等教育水平的可比较数据,从而帮助各国制定教育政策。

PISA测验的结果,除了反映各国的差距之外,也反映出了显著性的性别差异 — 1. 在大部分国家,女孩的数学分数低于男孩;2. 在所有国家,男孩的阅读水平低于女孩。这是其中一年的全部结果:



另一个反映性别差异的是SAT成绩。下图左侧是40年间的SAT数学成绩的对比。男生的平均成绩始终比女生高30-40分。(但注意y坐标是从450而不是0开始,在视觉上“放大”了差异。)右图是两性在不同分数段出现的频率,同样表明男生在高分段比例高。(在700分以上,男女比约3 :2 )。



然而,统计表明在SAT阅读考试上,两性是没有显著差异的,有的年份女生还略有优势。下图是纽约州的Vassar College跨越10年,对其入校新生SAT的统计结果。尽管这所学校比较好,SAT的平均分比美国平均值要高很多,但趋势是一样的,即SAT阅读两性没有显著差异,但数学成绩男性平均高15-25分。SAT两个项目的结果表明,不能把女生数学分数稍低归结为教育机会不均等。



现在我们已经知道有关现象了。为了更全面的分析,我们做一个简单的数学模型,并希望它与现实中的广泛的观察和测量相吻合。我尽量简单地说,争取解释清楚:

在自然界、人类社会、以及心理学和教育学中,大量测量值表现为正态分布(normal distribution)比如人的身高、寿命、血压、考试成绩、智商等。正态分布有严格的定义,这里不多说。正态曲线呈左右对称的钟型,两头低,中间高。均值附近出现的频率最高,离均值越远,出现频率越低。均值μ和标准差σ是正态分布的两个特别重要的参数。均值反映了分布在x轴的位置,标准差反映了离散的程度。如果σ 的值大,则分布比较发散,曲线比较扁平。

下图左显示了正态分布的特点,如在正负1个标准差之内,出现频率高达68.2%,而大于3个标准差出现的频率只有0.1%。举个例子:根据定义,标准智商测验的均值是100,标准差是15。因此智商在85-115的人占了68.2%。而智商超过145的人只有0.1% , 因为45是3倍的标准差。



上图右是理解gender gap的关键:红色虚线钟形图是整个人群(男女合并)的分布曲线。如果男性比女性有优势,那么男性的曲线将右移,而女性的曲线将左移。这个shift有多大呢,我对前面PISA和SAT的数据进行了分析(不细说了),我的计算结果是gender gap大约是0.3个标准差。也就是说男性的曲线较两性总和的曲线(红色虚线)右移0.15σ,而女性则左移0.15σ。

这样一个模型,它是不是大致准确呢?我们来看4种不同标准/水准下,两性究竟表现出什么样的gender gap:

A、基本水准:定义为-1.5 σ以上。即经过一定的努力,一般的数学课至少可以及格。(注意,A包含B,C和D,但上面的描述,是仅限于刨去B、C、D的情况)

B、优秀水准:定义为+1.5 σ以上。这样的学生数学考试经常能得A,可以选AP数学,SAT数学经一定准备,能考700分以上。他们可能参加数学竞赛,但获得优胜比较难。他们在大学里可以学STEM,但不是拔尖的学生。(B包含C和D,但上面的描述,是仅限于刨去C、D的情况。)

C、英才水准:定义为+3 σ以上。这是数学的精英,他们 AP数学和SAT数学都不费劲就能够获得接近满分的成绩,在低级别的数学竞赛中经常获奖。到大学里,他们也是STEM专业的优等生。

D、天才水准:定义为+6 σ以上。这是数学上的最尖端者,他们是在数学上有重大建树、获得数学大奖(包括菲尔兹奖)级别的天才。

好,现在我们来分别看。在下图中,我们着重看右边那个曲线下的绿色部分(大于z分值的发生概率),我用大字明确写在图的最右边。依照该模型,作为总体,有93.32%的学生数学可以基本合格(比如可以及格)。由于根据有关数据推算的正负0.15 σ的shift,相当于对男性而言,数字变成了-1.65 σ以上,而女性变更成了-1.35 σ,对应为男生95.05%和女生91.15%数学可以基本合格。也就是说,达到数学基本要求的比例为1.04 :1,两性是很接近的,女生与男生达到数学基本要求的人数差不多。



再看看“优秀水准”的情况,这样的个体占整个人群中的6.68%。根据与上面同样的换算方式,男女的比例,实际上是比较1.35 σ以上的频数和1.65 σ以上的频数,这时男女比例比上面一个图增加了,大约是 1.8 :1。这个结果,与SAT数学考700分以上、数学课大多得A、选修数学AP等情况下,男女生的比例是基本吻合的。



【注:有关“C、英才水准”和“D、天才水准”的话题,我们留待下一篇再说。】

向看官致歉,本篇内容比较干,比较boring。而且在没有机理的情况下说数据,可能会被批评为有bias,甚至有“歧视”之嫌。这个问题的确比较复杂,男性比女性在数学上表现略强,可能是社会期待、个人信心以及生物原因综合的结果。当要求较低时,女生几乎与男生一样好,也许是因为努力和训练可以弥补轻微的劣势。看官去看第一张图,整个东亚地区,包括日,韩、新加坡、香港、上海,在那个比较简单的PISA数学测试下,gender gap都是比较小的,我猜想一个原因可能是东亚文化强调用功,而女孩比男孩更自控一些。然而,用功的作用,在需要天赋的一些高难度操作中,作用就有限了。在国际奥林匹克数学竞赛(IMO)选手中,男生比例很高,也许正是因为这个原因

人做某件事情的动机的强弱,不仅取决于获得成功后的喜悦和回报,而且取决于对成算的判断和为获得成功所需付出的代价。因此,尽管桃子对所有人都是好吃的,但“下山摘桃子”与“上山摘桃子”的劲头是不同的。假如那山有两千多米高,一名登山运动员飕飕就上去了,水蜜桃吃着舒坦!我老唐气喘吁吁,爬了不到五百米就give up了。你们说我没吃到桃子是因为自信心不够强?

唐宋韵 发表评论于
回复 'luck86' 的评论 :
同意,大部分的gender gap不是科学问题,或不单单用科学就能解释和解决。
luck86 发表评论于
人是社会性的,也是历史性的,离开这点谈gender差异,就是最严谨的数学方法和最大量的数据分析也不能得出肯定的结论。也不要用医学或进化论去解释,人类到目前为止了解的东西是微乎其微。
唐宋韵 发表评论于
回复 '新林院' 的评论 :
不是同一组题的粗分,而是十几个项目换算后的分数的加权,保证两性均值相同。
因此,在validation阶段,只要改变不同分项粗分换算成标准分时的系数或权重就可以“再平衡”了。比如对词汇和拼图两项的权重稍作调整。。。当然,这是一项复杂的工作,不是拍脑袋或者知道一点统计学就瞎来的。
另外,智商测验有很多种。像Wechsler智商测验这种高效度的测验,是主试者与被试者一对一的测验,不是一般的纸笔测验。
新林院 发表评论于
过去我一直以为智力测验出题时是 gender agnostic。
第一次听说智力测验的设计目标之一,是让同一组题目,让男的平均值=女的平均值。涨知识了。

另外,标准差的区别也许能解释一些现象。
女人标准差小,说明分布曲线高而窄,集中在中间,傻瓜少,神童也少。
男人标准差大,说明分布曲线矮而宽,两侧相对多,傻瓜多,神童也多。
男人的分布曲线宽,分布曲线的最左端的傻瓜里,男人比女人多得多。
监狱里关的,差不多都是男的,是不是说明傻瓜里男人比女人多得多?
男人的分布曲线宽,也导致分布曲线的最右端的神童里也基本上都是男人。
古今中外,以发明者命名的数学定理,差不多都是男人的名字,如欧几里得、牛顿。
即使让一个数学系的学生随便说出来一个以女人命名的数学定理,恐怕也很少人能说出来。
这是不是说明神童里基本上都是男人?
学懂从小学到研究生的数学内容,男女都有能力。
但要突破前人的数学成就,历史上也就几千人,这里面绝大多数都是男的。
并不是想说明男女谁更棒。只是根据已知的数据,看能不能解释一些现象。
唐宋韵 发表评论于
回复 '油翁' 的评论 :
谢谢油翁点评。
油翁 发表评论于
唐宋韵的文章通过数据和逻辑解释了性别在数学能力上的差异,幽默地比喻了自信心和努力的关系,值得认可。
唐宋韵 发表评论于
再解释一点:韦氏测验分两大部分共11个分项,粗分要经过换算,最后变成标准分。而且分项也有成绩在报告中。光看总智商是很有局限的,即使看到IQ高,也不知道强在什么地方,所以要细看分项。

【新林院】
您的意思是不是下面的?
“智力测验的设计目标之一,是让同一组题目,让男的平均值=女的平均值。”
换句话说,如果这两个平均值不一样的话,智力测验的设计者会调整题目,使两个平均值更接近。
是这个意思吗?
唐宋韵 发表评论于
回复 '新林院' 的评论 :
是这个意思。
不管怎样,过若干年读会有新版。出于种种原因,特别是文明社会人的智商倾向于越来越高(称为 Flynn Effect),而且有的问题对新一代已经不适用了,所以常模总是要调整。
最新版的韦氏IQ测验 WAIS-5,将在今年10月份公布。
新版本是个非常严肃的巨型课题,不是发现一点小问题、小不平衡,就改动。
新林院 发表评论于
唐宋韵 写道【当一个智力测验做常模的时候,或者在另外一个国家或文化进行validation的时候,男女样本在各个年龄段,在理想情况下是相等的(可以想见这个工作量相当大)。也就是说这个“标尺”的平均值在做norm的样本下两性是平衡的(这是智力测验的设计目标之一)。】
我不肯定您的意思。
您的意思是不是下面的?
“智力测验的设计目标之一,是让同一组题目,让男的平均值=女的平均值。”
换句话说,如果这两个平均值不一样的话,智力测验的设计者会调整题目,使两个平均值更接近。
是这个意思吗?
唐宋韵 发表评论于
这篇文章本是在谈数学能力,以及可能的性别差异,但下面网友都在与我讨论智商,这对于其他网友易产生疑惑,我多说两句——
智商(IQ)反映一般性的的思维能力和语言能力,它与数学能力不是一回事。后者是很难定义的。研究表明两者的相关性小于0.4,最多算是中等相关。
就我本人而言,我也认为两者很不一样。比如,我下面回答网友时,我谈到IQ的大致情况是两性均值相同,但男性标准差大。而我上面的文章的文字和图很清楚,对于数学的性别不同,我是假定标准差相同,但均值有0.3个标准差的不同。。。
唐宋韵 发表评论于
回复 '新林院' 的评论 :
谢谢您的信息。当一个智力测验做常模的时候,或者在另外一个国家或文化进行validation的时候,男女样本在各个年龄段,在理想情况下是相等的(可以想见这个工作量相当大)。也就是说这个“标尺”的平均值在做norm的样本下两性是平衡的(这是智力测验的设计目标之一)。
然而,当以这一的标尺去测量新的人群时,就会有各种可能的不同,既可能是常模的问题,也可能是被测查的人群的取样问题。
如果被测人群的取样没有问题,IQ分出现系统的、反复的男比女高,那么有两个解决办法,1. 对IQ测验进行调整和re-validation,即对智商测验的题目、特别是言语智商和操作智商的分项进行再平衡;2. 像国际象棋、围棋那样,男女有不同版的IQ。这么做可能性几乎为0.
新林院 发表评论于
唐宋韵 写道【男女的智商平均值是相同的,都是100。】
研究数据不支持您的结论。
根据 Richard Lynn 的测试结果:
男:IQ 平均值 = 101.461
女:IQ 平均值 = 99.681
两者 IQ 平均值区别非常小,但不能说完全相同。

【但男性群体的标准差大一些,比较发散,结果是男性的钟形曲线比较扁,两头多一些。也就是说,与女性相比,男性特别聪明的和特别笨的都多一些。】
研究数据支持您的结论。
男:IQ 标准差 = 15.253(钟形曲线比较扁,两头多一些)
女:IQ 标准差 = 14.085(钟形曲线比较高而窄,两头少一些)
(我的上个留言没写清楚,请删掉。谢谢。)
JustWorld 发表评论于
我引用了数据,他人的研究。同不同意是另一回事。

不要猜测我懂不懂什么!有意义吗?
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
我什么也不掩盖。这是技术贴,谈数学能力。
你我不在一个频道上。你何不自己去写、去论证。
请注意你说话的方式。这是我的博客,不是你的园地,也不是公共园地。

JustWorld 发表评论于
没必要用一些无聊的东西,掩饰另一些东西,哈哈哈!
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
我感觉,先生其实在技术上不了解IQ测验,也不了解一般能力与特殊能力的区别。
但有打破“政治正确”的拳拳之心。。。我理解。。。
JustWorld 发表评论于
个案不代表普遍性。

整体评价用统计学。
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
另外需要说明一点,即数学能力与智商是很不一样,研究表明两者最多只有中等相关。我认识一个“神童”,智商很高,但他在竞赛数学上的表现不突出。
IQ可以反映一般性的的思维能力和语言能力,与数学能力不是一回事。后者是很难定义的。
JustWorld 发表评论于
美国基因学家因“人种决定智商”言论被剥夺多项荣誉称号

2019年1月14日

因多次发表种族决定智商的言论,曾获诺贝尔奖的美国科学家詹姆斯·沃森(James Watson)被剥夺多项荣誉称号。这位DNA研究的先驱者在电视节目中提到一种观点:即基因会导致智商测试中黑人和白人的差异。

冷泉港实验室(Cold Spring Harbor Laboratory)表示,这位90岁科学家的言论“毫无根据而且鲁莽”。

沃森博士2007年提出过类似主张,但随后道歉。

他于1962年与莫里斯·威尔金斯和弗朗西斯·克里克共同获得诺贝尔奖。1953年他们发现了DNA的双螺旋结构。2014年,沃森博士卖掉金牌,称他发表种族言论后被科学界排斥。

此前他曾发生车祸,目前正在一家养老院康复。据说他目前对周围环境的认知“非常小”。

DNA影响智商?

2007年,这位曾在剑桥大学卡文迪许实验室(University of Cambridge's Cavendish Laboratory)工作过的科学家告诉《泰晤士报》,他“对非洲的前景一直很悲观”,因为“我们所有的社会政策都是基于他们和我们一样聪明的事实,但所有的测试结果都表明这不是真的”。

虽然他希望人人平等,但他补充道:“那些不得不与黑人雇员打交道的人发现这不是真的”。

发表这些言论后,沃森被解除实验室负责人等所有行政职务。在书面道歉后,他得以保留荣誉头衔。

但冷泉港实验室表示,他现在不再拥有这些头衔。因为他在本月初美国公共广播公司PBS播出的纪录片《美国大师:解读沃森》中表达了同样的观点。

该实验室在一份声明中说: “沃森博士的言论应该被谴责,根本没有科学依据。”实验室表示,沃森的道歉不再得到认可。
---------------------------------
黑白颠倒的时代!
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
这个人用的是什么智商测验?
因为标准差大,所以高智商组男性多(同时男性智障的也多),没有IQ平均高5分这回事。但言语智商和操作智商的分项上有性别差异。
黑人作为整体,其智商低于白人和黄种人。这也不是什么秘密。

------

白人比黑人的智商高。。。男性的智商比女性平均要高出五分。这一差异在高智商群体中尤其明显:130分以上的男性人数比女性高出三倍;145分以上高达5.5倍。


唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
不是事实。标准化智力测验(如韦氏测验)在validattion时,其norm分别按年龄,但并不分开性别。

-----------
"男性和女性的智商是分开测试的,各取平均值作为100分。"
JustWorld 发表评论于
“男人比女人更聪明”

德国之声中文网2005年8月30日2005年8月30日

英国科学家在对10万人进行测试后得出的结论大有挑拨离间的味道:男人的平均智商要比女人高。

https://p.dw.com/p/76zy

在同行们的眼里,退休的心理学教授林恩(Richard Lynn)无疑是在玩火自焚。最近他的研究结果在英国学术界引起了轩然大波:14岁以上的男性比同年龄段的女性更聪明。

这一结论是在对10万进行了思维能力测试之后得出的,并发表于最新一期的“英国心理学期刊”。本文的合作者厄尔文(Paul Irwing)是曼彻斯特大学的讲师,他表示对这一结果感到非常遗憾:“就他个人来说,他当然愿意看到另外的结果。但是科学真理往往事与愿违。”

在此之前,林恩教授已经进行了一系列相关的科学研究,并得出了以下结论:白人比黑人的智商高;罪犯隐瞒犯罪事实是由基因决定的。人们不禁怀疑,这位科学家的煽动性难道也流淌在他的血管里?

至今为止,各种研究男女大脑及其运作方式的心理学研究在得出结果时,都遵循小心谨慎的原则。男性和女性的智商是分开测试的,各取平均值作为100分。在测试不同国家人的智商时也采取相同的评分方法。这样就避免了通过相互比较而作出带有歧视性的评价。

林恩和厄尔文的研究忽略了性别差异,得出的结论是,男性的智商比女性平均要高出五分。这一差异在高智商群体中尤其明显:130分以上的男性人数比女性高出三倍;145分以上高达5.5倍。在这一群体中包括诺贝尔自然科学奖的得主,象棋大师,数学天才等。事实也的确如此,在这些领域的佼佼者中,男女比例如此悬殊,很难把这种现象简单归因于环境的影响。

除了智商比较外,林恩和厄尔文还进行了更深入的比较研究:在智商相同的情况下,女性的工作能力更有效,更细致,而且更能适应长时间的工作。考虑到知识技能在不同职业,不同年龄阶段的意义不同,在调查了各行业,各工龄的人后,他们发现智商数为125分的男女比例大致相同,

男性大脑的体积较大,而女性大脑网络连接更密集,这一点已经得到科学证实。大脑两个半球分别控制感性和理性思维,两个半球之间的联系更紧密、更频繁,未必是一种优势。女性在同时处理“理智与情感”交错的问题时,表现得更好,她们承受压力的能力也更强。然而在,处理复杂的数学难题时,她们往往受到直觉的影响。这道理就和电脑超负荷运行时,需要关闭一些软件来提高速度一样,这时候也需要切断大脑两个半球之间的联系,以便使注意力高度集中。

男女在不同领域有不同天赋:在代数和几何学上,女性很少有出类拔萃者,在空间概念上也略逊一筹。老生常谈的“女人停不好车”,虽然被政治家视作社会歧视,但是却得到了科学上的证实。通常行为学上的解释是,男孩子在野外侦察等游戏中得到了锻炼,是由于环境因素导致了这一差别。这种说法现在看来并没有触及根本性的问题。另一方面,女性更善于倾听,她们从孩童时期起就显示出较高的语言天赋和理解力。
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
这不是事实。男女的智商平均值是相同的,都是100,但男性群体的标准差大一些,比较发散,结果是男性的钟形曲线比较扁,两头多一些。也就是说,与女性相比,男性特别聪明的和特别笨的都多一些。

JustWorld2024-06-30 18:22:37
...男性智商比女性高大约5%。
唐宋韵 发表评论于
回复 'JustWorld' 的评论 :
FYI, MIT 的学生中女生占 45%。
唐宋韵 发表评论于
回复 '硬码工' 的评论 :
谢谢您的长留言。这个问题的确复杂。社会与家庭的是一个人成长的环境,其影响无法排除。
0.3个标准差的差异,在两性学习机会基本均等的情况下,是不大能够完全归因于其他环境因素的。
日,韩、新加坡、香港、上海gap较小,不管是什么什么原因,面对的还是中低难度。这表明,在一般难度下,女孩可以跟男孩学得一样好。
然而,同样是这几个国家,每年层层选拔,最后参加IMO的,男生还是绝大多数,这说明somehow,在高难度数学竞赛中,男性有优势。
xy对xx染色体,是男女先天的基因不同,随之而来的表现型的差异,我本人倾向于首先从生物角度去理解。比如在任何文化背景下,男性的暴力犯罪都是同文化环境下女性的数倍。我们恐怕无法用“教育不够”和“对生命的热爱不足”来解释其根本原因,虽然这些都可能是影响它的因素。

JustWorld 发表评论于
更正,2021年男女生录取比例,清华录取2:1,北京大学6:4。
JustWorld 发表评论于
此类话题已成政治禁区。

男性大脑比女性大约10%。

男性智商比女性高大约5%。

另外,看北大清华录取男女比列。2021年,男女比例约2:1。
硬码工 发表评论于
这些测试的结果,都没有排除社会和家庭对男孩女孩的社会属性的不同的期许的影响,而这些影响对女孩的数学的学习是不利的。如果能设计一套测试,排除社会家庭环境的影响,就好了。这里讲的一个事实是在较低的数学水平上的男女的差别很小。如果有不同年龄的数学水平上的研究,就可以看出,独生男,独生女的差别要比多生子女的影响更小些,人口出生率低的国家的独生男,独生女的比例也较高,反映在文章中的“日,韩、新加坡、香港、上海”gap较小的原因是,这些地区的独生女的比例也较高。高年级的不同地区的女孩男孩的gap差异更大。表现在硅谷的女工程师基本上被来自大陆和印度所垄断这样的事实(这也可能是因为两国人口庞大,第一代第二代的移民,理科较优较容易的幸存者偏差导致的表象)。如果非要说男孩女孩性别对数学上的影响,我认为,性别上的女孩天生比男孩好看,及女孩早慧,影响了女孩对数学的热爱。女孩天生比男孩好看,周围的人愿意多和女孩语言交流,导致女孩说话较早,语言能力较强,在自然的选择上,抑制了数学的能力。男孩多nerd,也是这个原因。女孩早慧,也源于女孩的相貌比男孩好看,导致女孩对数学学习的抑制。毕竟有一技之长,能很好地生活,就没有必要有别的技能。这也是进化论的本质吧。
如果能数值化相貌,不管是男女,统计相貌对数学或别的学科的影响,可能可以消除一些社会和家庭的影响。当然,相貌歧视也是一种社会和家庭的影响。
登录后才可评论.