【细谈智商（IQ）】

细谈智商（IQ）

我上周发了博文《女性与数学（2）gender gap 》（https://blog.wenxuecity.com/myblog/80301/202406/29801.html），下面留言的网友大多跟我交流“智商”问题。其实，数学能力和“智力”真不是一回事儿，两者相差甚远。可究竟什么是“智力”和“智商”呢？智力测验究竟是测什么，是如何测量的？了解和理解这些的人其实不多，而且经常有一些错误的认识和想象。因此，我感觉有必要详细说说。

1. 什么是智力、智力测验和智商（IQ）：

智力（Intelligence）是指生物的精神能力，特指人类这方面的能力，如知识、记忆力、观察力、想象力、判断力、语言表达能力、抽象思维能力等。它是人类适应社会生活的一般能力，大多跟认知能力有关。

大约120年前，心理学家发明了智力测验（Intelligence Test），用于量化人的普通心智功能水平。经过百年的修订和发展，目前国际上最常用的个人智力测验主要有两种：斯坦福-比奈智力量表（Stanford-Binet Intelligence Scale）和韦克斯勒智力量表（Wechsler Intelligence Scale）。

我们常说的“智商”，其实是一个历史遗留的概念。在几十年前测量少年儿童的心智水平和成长时，学者提出了智龄（mental age）的概念。比如一个10岁的儿童，他做智力测验时，达到了12岁儿童的水平，那么他的智力商数（intelligence quotient，IQ）= 智龄/实龄 ×100 = (12/10) x 100 = 120。如今的智力测验已经不这么计算了。智力测验后经过换算的标准分，各个年龄组均值为100，标准差为15。但IQ是个深入人心的叫法，就保留下来了，尽管现在它已经不再是一个“商数”。

即便如此，今天说的IQ仍然是个相对值，即一个人在他/她的年龄组里的智力相对水平，这一点必须明确。

2. 智力测验如何进行？

人们大多以为像某些学科测验一样，智力测验是让被试者做一套题，然后根据标准答案得到分数。这是不正确的。以韦氏智力测验为例，它测量的结果包括言语智商（verbal intelligence quotient）和操作智商（performance intelligence quotient）两大类，下面又细分词汇（Vocabulary）、词语理解（Verbal Comprehension）、知识（Information）、算术（Arithmetic）、积木设计（Block Design）、相似性（Similarities）、数字广度（Digit Span）、模式推理（Matrix Reasoning）、拼图（Visual Puzzles）、图片填空（Picture Completion）等十几个分测验（subtests），分别测量智力的不同方面。

高效度的智力测验不是像考试那样做题，而是由经过训练的心理测量师、精神病学家、教育工作者等与被试者进行一对一测评。智力测验过去完全是使用卡片和积木等，近年也有利用电脑显示，但基本方式是不变的。测验一般要耗时60-90分钟。一名主试者一天只能完成对少数几个人的测试。可见高效度的全面智力测验是“慢”的。下面这段录像是进行“积木设计”测验。可以想见，在规定的时间内，高水平者可以完成更多的任务：

下面这个过程与“数字广度”测验类似（实际测验更正规），是测量短时记忆的。要达到5位以上不容易。

3. 智力测验的标准化：

标准化是智力测验的核心。只有标准化的测验才使得个体之间可以相互比较。一个智力测验在标准化时，在各个年龄阶段要对不同种族、文化背景等进行分层等距抽样。这样得出的常模（norm）才具有代表性。否则，比如选择太多受过大学教育的被试者，并以他们的测验结果为常模，那么普通人大多数IQ低于100（而不是50%低于100）。这样的常模不具代表性，是失败的。

另外，我们应该理解，IQ不是一个单项的绝对分。作为智力测验的设计目标之一，标准化过程要求两性的平均值均为100。智力测验首先得到的的分别是十几个项目的粗分。需要对各项得分进行换算，不同的分项取不同的权重，从而使得两性均值相同。要做到这一点，并不需要使用不同的测验题，只要改变不同分项粗分换算成标准分时的系数或权重就可以“平衡”了。比如在标准化过程中，对词汇和拼图两项的权重根据需要进行调整。

怎么调整权重呢，打个比方：一套试卷包括A、B、C、D、E 五道题，老张答对A和B，老王答对C、D和E。如果各题权重相等，那么老张40分，老王60分。现在我把权重调整一下，A和B各25分，C20分，D和E各15分。于是乎，两人各50分，拉平了。

因此，标准化保证了男女IQ均值同为100。以此为标杆对大量人群测试表明，女性IQ的标准差比男性小，分数比较集中，男性男性标准差大，要分散一些。也就是说在大量人群中，特别聪明和特别愚笨者，都是男性居多。

如果智商测验要引入另一个国家，不仅仅是一个翻译问题。有些测验，比如词汇，是相当不同的，要重新设计，整个测验要重新标准化。40年前韦氏测验被引入中国时，当时湖南医学院的龚耀先教授领导了中文版的标准化，做了大量的工作。而且，他们根据中国的国情，居然还做了“农村版”和“城市版”两套常模（题目一样，只改变简单题和难题的相对权重）。

由于语言和文化的不同，用韦氏或斯坦福-比奈量表，不易对不同国家或不同文化间进行精确比较的。然而，由于操作智商中有非语言的多项测验（比如前面我们看到的“积木设计”），不同国家的智商是可以大致推断的。下图就是一个结果。东亚是最高的，北美和欧洲多国也高，拉丁美洲除阿根廷以外都偏低，非洲很低。

4. 智商与成功：

大约在整整100年前，斯坦福大学心理学家Lewis Terman领导了一个横跨一个世纪的超长期追踪研究，让人们对高智商与成功究竟是什么关系，有了第一手的认识。Terman教授1956年去世，但他的学生们、学生的学生们前赴后继，直到今天，一千多名被试者中仍有少量在世，研究还没有最后画上的句号，尽管主要的结果已经明确。这项研究本身，就反映了“定力”这个非常好的心理品质。

在这个实验的头些年，研究者在加州的学校寻找到1500多名智商至少为 140 的学生。这样的分数约占人群的300分之1，Terman教授认为这是天才的门槛。这些孩子被带有玩笑口吻地称为Termites（这个词的原意是白蚁，近似于Terman）。

追踪调查表明，这些高智商孩子中确实有不少人拥有成功的职业生涯，到Terman 去世时，有 30 多人登上《美国名人录》（Who’s Who in America），近 80 人在登上《美国科学名人录》（American Men of Science）。

然而，这并不能完全支持“高智商者注定杰出”的观点，因为他们的成功涉及影响智商和智商以外的复杂因素，例如Termites父母大多受过良好教育，拥有更多家庭资源。而且家庭人脉也有助他们更容易获得成功。

Termites中没有出现诺贝尔奖或其他著名奖项的获得者，也没有出现名声显赫的伟人。令人思考的是，William Shockley 及 Luis Walter Alvarez两人，当时未能达标成为Termites，他们后来却获得诺贝尔物理学奖。

高智商似乎不能预示做出超凡成就的“天才”。智力测验只测试文字及非文字推理，而没有涉及对成功至关重要的创造力，比如发散思维（Divergent thinking），即产生新想法的能力。近年的研究发现，只要智商中等偏上一点（110以上），智商与创造性就没有什么相关了，因此智力测验并不能预期或发现开创性人才。

5. 非智力因素：

近年来的一些研究和调查表明，与智商、创造力和特殊能力无直接关系的一些非智力因素（non-intelligence factors 或non-cognitive factors）对于一个人的成功和人生的圆满至关重要，甚至比智力因素更为重要。经常被提及的非智力心理品质包括动机、爱好、激情、意志力、自制力、顽强、自信、低焦虑、友好以及善处人际关系等。

动机和强烈的兴趣与成功关系巨大。热爱是最好的老师，有了兴趣和热情，一件事情才容易长久地、积极地做下去，于是获得机遇的可能性便会大大增加。意志力、自制力、顽强性这类心理品质也对于成事颇为重要。做父母的，如果发现孩子对一件事、一个学科有长久的passion，又diligent，resilient，即便他们的爱好不主流、不挣大钱，我希望父母一定不要强力制止。我的孩子小的时候，我宣称如果将来我的孩子有上述几条心理品质，哪怕他们爱上了考古，我也支持。这在一段时间里成了我老婆攻击我的把柄。后来我孩子没有爱上考古，避免了家中失火。

自信与自强、良好的情绪，控制焦虑，友好而随和的性格，以及从少年时代起善于处理人际关系等等，这些都与成功的关系相当密切。鉴于它们已经离“智商”的主题较远，就不多说了。我个人感觉，虽然这些心理品质其实也是跟先天的人格特质相联系，但毕竟不像智商那样有比较硬的天花板。

非智力因素的“可培养性”要强一些，因此近年尤其受到学校教育的重视。此外，当一个有理性的成年人设法自我提升的时候，经常首先是从非智力因素开始。其结果未必是什么公认的“成功”，但却是心态的平和和满足感的增加。

----------

根据与网友交流，补充说明如下——

** 一个人的绝对智能水平在一生中并非恒定。从儿童到青年时期逐年增长，绝对的智能水平到30岁左右达到顶峰，约40岁开始缓慢下降，60多岁后开始下降比较明显。但各智力测验的分项情况不同，比如四、五十岁时，短时记忆不如年轻时候了，但知识和词汇分项一般会超过青年时期…… 不管怎么说，最重要的一点是，一个人在智力测验后得到的粗分，必须与自己所在的年龄的常模去对照，得到正确的IQ分数。

** 如果考虑智能绝对水平的变化（如成长，衰老），一个人的智商IQ（当然是用同龄常模）有稳定性吗？答案是，有！十几岁以后，一个人的IQ值，即一个人在同龄人中的相对“聪明”程度很稳定。但是，年龄小的时候，比如10岁以前的IQ与成年后IQ的相关就不那么大。年龄越小时的IQ，与成年后IQ间的相关性越小，所以有的神童长大以后不神了。

** 理论上讲，智力测验测的是“能力”，一般学科考试考的是“知识”。然而在实际之中，两者是很难截然分开的，而且“纯”的能力很难定义。所以学习和训练是可以提高智商得分的。像词汇、算术那就不用说了。哪怕是我文中两段录像所所示的两个与一般教育无关的分测验，如果经常训练，分数比不训练也会提高。但经过准备后“提高智商”是自欺欺人的。

** 韦氏智力测验和斯坦福-比奈智力测验效度都不错。但前提应该是在不准备、不训练的“原生”状态下测定才准确。更严肃的是，智力测验不像SAT有巨大的题库，它十几项所有的问题都在一本薄薄的《手册》上，全国多年不变。《手册》内容应该是严格保密的，尽管各大学心理系、教育系、无数精神科医生和青少年机构，包括一些中小学处都有，但有关人员不能缺德而广而告之。否则一本手册在手，准备它几周，一个傻子的智商也可以达到180。

** 很少有人知道，SAT是来源于一个快速“智力”测验The Army Alpha Test，这是100年前军队用于筛选军人的。因此，SAT 与 IQ 有“血统”上的联系。然而两者相关系数有多大，这是有很大争论的。我认为肯定比0.4高，但可能不像有人宣称的0.85那么高。SAT 的reading部分肯定与言语智商分项有高相关。SAT数学不是高难度数学，应该与IQ分数也有较高的相关。

** 不同族裔的智商有差异，这是客观存在的，但个体差异很大。我曾经有两个非裔在手下工作，水平都还可以。特别是其中一位，理解力、举一反三的能力和动手能力都很好。看外表，他是典型的黑人相貌。相反我隔壁办公室的一位manager，几个月前刚刚雇了一个犹太人Ph.D，现在抱怨说他笨且不诚实，后悔雇他。我认为在实际工作和生活中，避免先入为主，根据个体素质评判是明智的。

=========

【论坛交流】

https://bbs.wenxuecity.com/romance/970641.html?

今日热点

一周热点