返回目录:成语解释
不可靠,先天地智商不高,完全可以通过后天弥补,你说测反应速度还是可以相信的。
网上免费的都不靠谱。
智商测试很多,从网上免费的测试,到不需要版权的测试,到每做一次测试就需要购买一次答题册的有版权的测试。通常来e69da5e887aae799bee5baa6334说,网上测试的准确性(reliability 可靠性, validity 有效性)很低。除了测试本身的准确性以外,还有两个决定测试价值的重要因素:
1. 测试的normative data(标准数据)的质量。研究机构在研发或更新测试的时候,会随机取样,把这个测试给被试做,这些被试的分数就是我们智商高低的参考指标。智商高还是低,都是个相对的概念,是相对于和你同年龄(或者差不多年龄)的人,你的智商的高低。如果没有这些参考指标,随便划分的区间是没有任何价值的。
就normative data的质量来说,不要版权的测试通常比需要付费的测试差。原因很简单,研究需要大量的经费,而且这个研究是个持续的过程。Flynn Effect指出,随着教育的普及,国民的智商分数平均每几年就会提高好几点。所以就需要经常更新题目,调整平均数值等等。没有版权的测试,由于经费、人力、物力的缺乏,往往10多年甚至20多年都不更新normative data。所以,测试结果价值有限。
同样是经常更新normative data的测试,比较测试优劣的标准就需要参考:测试的本地化程度(举澳洲为例,同样是英语国家,美国的测试进入澳洲,题目也需要本地化,样本也是以澳洲人为被试的更加准确),样本的大小(被试越多越好),以及样本的年龄差异(儿童由于智力发展很快,每6个月就可能有明显的变化,所以样本最好能包括每个年龄段的儿童,并保证每个年龄段都有足够的样本大小。这样最终结果会比较敏感(sensitive))。优秀的测试,还会提供特殊人群的normative data,比如自闭症患者,多动症患者。
2. 做测试的人的培训程度。
给他人做测试需要进行一系列的培训,比如,物品的摆放位置,灯光强度,给出合适的指导语,语速,处理各种情况的能力(尤其是测试儿童或特殊人群的时候)等等。如果不能按照标准化程序进行测试,就会人为的引入误差,影响结果。一旦这种情况不幸出现或者有其他影响结果的情况(比如说,一套测试应该在同一天内完成,但小孩坚持不肯当天完成智商测试),就需要记录下具体情况,在分析测试结果的时候加于考虑。当然,即使没有出现特殊情况,也有必要记录被测试人答题的方式,应对情况等等。有时,这类信息比测试本身更有价值。
学会正确的做测试的方法并不困难,除了心理学家以外,一些辅导员、资深教师也会做智商测试。真正的难点在于,运用的神经心理学的知识和对被测试者的背景信息的了解,分析数据,得出结论。
智商分数的意义
以韦氏智商测试(Wechsler Adult Intelligence Scale)为例,测试分为四大块:
Verbal comprehension(语言能力;这几个词的翻译都不准确,大概理解下)
perceptual reasoning(空间思维能力)
working memory(工作记忆,用电脑作比喻应该是缓存吧)
processing speed (处理速度,类似于CPU)。我们平常说的智商分数(Full-Scale IQ)
虽说是一个数字,但实际上是应该是一个95%的置信区间。如果一个人测出的智商是110,假设他的真实智商有95%的可能性在105到116之间(根据经验,韦氏测试的这个区间一般在8到15之间)。也就是说,这个人的实际智商很可能是跨越两个分区的(每15分是一个区间,所以105-116分应该跨越平均水准到高于平均水准这两个分区)。所以,智商分数高低个几分其实没有什么实际的区别。
另外,当这四项能力之间的差异过大的时候(比如文理偏科很严重的人),Full-Scale IQ(面智商测试)这个数字就失去意义了,不能代表一个人的智商水平(这里说的是智商水平,不是智力水平)。《Essentials of WAIS-IV Assessment》(有关韦氏智商测试要点)这本书里提供替代Full-Scale IQ的公式,但实际应用中没什么人做,因为价值不大,不如直接参考这四项能力的单独分数。
智商测试的应用单独测智商,一般来说不推荐,除非有特殊要求(比如,智商分数低于70政府给予补助之类)。一些心理学家,出于对来访者负责,都不接这样的工作。原因如下:
智商分数不等于智力水平,只是参考资料之一,而且这个数字如我上文所述,时常是无效的。
有了这么个分数,很可能等于给自己贴了个标签。对于对智能测试(neuropsychological assessment)没有多少了解的人来说,很容易误读这个信息。比如,有的家长、老师,别的解释不听,只想知道小孩智商多少。如果是这种情况,我很可能根本就不告诉他们这个数字,只说个大概区间(有些国家甚至有这么项规定,只给区间,不给具体数字)。标签的危害显而易见,把自己的行为往这个标签上套,用标签来解释很多与智力无关的情况,等等。
如果想对自己的智力能力有个全面的认识,需要做一系列的测试,主要测试包括智商、记忆力、注意力、执行功能( 在神经心理学里,执行功能(executive functions)包括各类高端的用来调整,控制和管理其他认知程序(cognitive processes)的认知程序,比如计划性,解决问题的能力,自制力,灵活性,开始和监督自己的行为等等)。对于这些测试的选择,参照第一部分中关于智商测试的选择标准。实际应用中,心理学家还会考虑到测试的一致性和侧重点等问题。
智商不等于智力,更不等于成就
智能测试有优劣之分。智商分数只是一个数据点(data point),它本身有明显的局限性。记忆力测试,注意力测试,executive function(执行能力)测试,过去的教育水平,学术成就、premorbid functioning(病前运作)测试等等,每一个都代表一个数据点。众多数据点凑在一起,才能对一个人的智力水平有较全面的认识。具体怎么理解这些数据点,需要心理学家根据所学知识和被测试者的背景来梳理清楚。
另外,我个人认为,仅仅为了了解下自己的智力情况,做这些测试完全没必要,费时(我所说的测试全部做的话,需要5-6个小时,如果遇上的速度慢的,时间更久)、费力(得找到合格的心理学家)、更费钱(澳洲做这样一个测试加上报告总共需要差不多1万人民币,测试材料成本也要不少的)。一般人不可能对自己的智力水平一无所知,测试不测试也不会让一个人更聪明。
智能测试(neuropsychological assessment)的主要的意义不在于帮助了解自己的智力情况,而在于辅助临床诊断,辅助病人的管理、治疗和复健。
说过了智商测试的意义,也就可以进一步知道为什么智商不代表一切。总能遇到拿自己的高智商出来说事的人,隐隐的透出那么一丝很了不起的意味。这就不免让旁人一是怀疑他们有没有吹牛,二是怀疑智商测试这件事情是不是靠谱。其实合格的智商测试结果本身确实是能传达出一些有意义的信息的(如果两个人有明显的智商差异的话,他们天生的能力确实有可能不一样)。但除了智商以外,生活中还有很多因素或者变量决定了一个人是不是杰出。如果想通过智商分数来证明自己,我觉得这个分数还不如高考分数来的有意义,因为高考至少考验了你持之以恒的能力和积极上进的心态。
另外,如果想通过智商分数来获得高人一等的优越感,这个本身也不太实际,因为我之前说过它本身实际上是一个不小的区间,比别人高个几分不说明任何问题,大家都在一个区间内;比你智商差一个标准差以上的人,估计你也没兴趣和他比。况且,智商和杰出与否没有必然联系。如果想找优越感,不如直接炫富,砸钞票,比权势来的直观。
各位特别想知道自己智商分数或者特别在意智商的朋友,你们到底是出于什么想法呢?
智商测试只是根据你掌握的知识得出来的一个值。上课学的都是没学过的,当然与智商没有多大关系。
塑造神童的人总喜欢拿爱因斯坦作标杆,或许因为他的名字已成为“天才”的代名词。“英国13岁女童智商160,堪比爱因斯坦”,类似标题屡见不鲜。
但这种对比的说服力极低,智商测试不是通考。市面上最为流行的韦氏、斯坦福-比奈、瑞文测试各有评分标准,儿童与成人的试题也不相同。
更重要的是,爱因斯坦生前并没有接受过智商测试,虽保留了大脑,也无法用此估算属于心理学概念的智商——除非大脑复活,亲自做一次智商测试。
实际上,爱因斯坦的智商值来源于1926年凯瑟琳·考克斯和路易斯·特曼所做的300位历史天才早年智力的估算。对这些智商测试发明前的人物,考克斯的研究方法相当粗暴:阅读传记细节,替他们做当时流行的斯坦福-比奈(Stanfor-Binet)智力测试题。
考克斯的结果或许令喜欢拿它对比的神童们失望:爱因斯坦的智商只排在中游,远低于斯图亚特·密尔的190、笛卡尔和伽利略的180,只与诗人艾略特持平。唯一超过200的人叫弗朗西斯?高尔顿,他并没有前几人的名望,但他有特殊的身份:智力测量的先行者,考克斯和特曼的学术偶像。
尤为值得一提的是,在智商测试的改进过程中,无论其注重考察何种能力,它始终是一个为现代社会标准而设置的游戏。在某种意义上,它很难摆脱现代人的偏见。
【智力测试的进化】
长期以来,智力高低都是仁者见仁,没有精准、抽象的标准。工业革命后,惊叹于科学定理效力的人们,开始将目光转向以往含混不清的领域,智力就是其中之一。
“200分先生”高尔顿是这方面的先行者。1859年,阅读了他表哥达尔文的《物种起源》,高尔顿深受刺激,决定测量人类的智力,用精确的数据证明他的优生学设想:人的智力由遗传决定。
高尔顿很快开工了。他试图在听力、手的灵敏度、中指长度、头颅大小等要素间,找到与智力高低的相关关系。e68a847a686964616f335结果令人失望,这些因素完全无法解释智力的差异。不过,这些失败的举措开启了量化智力的尝试。
法兰西斯·高尔顿
1881年,法国开始推广义务教育。为区分普通儿童和有缺陷儿童,教育部门急需合适的检测工具,以便因材施教。需求刺激下,法国的阿尔弗雷德·比奈和西蒙在1905年制作了第一份智力测量表,并在1908年的修订中,创造性地按不同的年龄段设计了试题,提出了心理年龄概念。相比较后人,比奈没有宏伟的野心,他清楚地强调他的测验只能测量部分智力,对预测有学习困难的儿童可能有效。
接下来,改进智力测试的交接棒传到了美国。20世纪初,这个生机勃勃的国家里,征兵、移民、教育,都急速扩展,成千上万的学历不明,各式背景的移民蜂拥而入,迫切需要更有效率的区分方法,在混乱中整理出秩序。
同时,应用心理学正在美国快速的发展,人们相信,心理学家可以搞定一切:婚姻失和,工作不满,推销保险。于是被法国人漠视的比奈测试在这里大放异彩。战争的爆发催化了狂热需求,智商测试就在这个背景下大踏步地走入美国人的生活。
1916年,路易斯·特曼,就是给历史名人估算智商的考克斯的导师,修改了比奈-西蒙测量表,将新版本命名为斯坦福-比奈智力测试。特曼吸收了1911年德国人威廉·斯特恩提出的智力商数(IQ)概念,根据不同年龄儿童做测试的分数均值,设为“智力年龄”标准,每个儿童的个人智力数值,取决于心理年龄与生理年龄的比率。这种测试方法被称为比率智商,公式如下:
所以,高尔顿智商被测为200,是考克斯和特曼认为他3岁就能完成达到正常儿童6岁的斯坦福-比奈智商测试水平,同理,爱因斯坦的传记等材料被认为只能体现1.6倍的心理年龄/生理年龄比。
此后,智商测试不断进化。1949年,韦克斯勒编制了不同于比奈系列的新测试表,称为韦氏智商测试,影响至今。韦氏测试分为成人、儿童、幼儿三版,采用离差智商计算,将同一组的智商平均值设为100,标准差设为15,整组的数据呈正态分布。与比率智商不同,离差智商不计算不同年龄的成绩比率,而将挑选出来的同年龄人作常模参考,表示个人在同年龄组的相对位置。
这种新的参照方法也影响了斯坦福·比奈智商测试。在1960年第三次修订时,它也采用了离差智商,但其标准差为16。这意味着高智商的分数,在韦氏测试应为130,在斯坦福·比奈测试则为132。
所以,即使考克斯的传记估算法合理,媒体上介绍可与爱因斯坦媲美的聪明的少年时,也该先确定几个问题:你使用哪种测试?成人组还是少儿组?标准差多少?参考的常模又是哪些?
【什么是智力】
智商测试首先取决于对“智力”的理解。早期智商测试的短板在于:应用先行,缺乏理论。此后,智力理论层出不穷,但是最核心的问题:什么是智力,智力的结构,遗传和后天因素对智力的影响,依旧充满争议。
最初,对智力本质的探讨来自英国心理学家斯皮尔曼,1904年他提出了常规智力和特殊智力之分。常规智力被称为g因素,它被认为是智力的关键。斯坦福·比奈测试就主要集中于g因素的测量——反应速度、记忆力、语言能力、计算能力。
这种解读的方法,将智力解析为各种能力。但只关注静态能力,容易落入穷举的泥潭。到1980年代时,它已细分到了240种因素。
认知心理学兴起后,学者提出了信息加工理论,不再斤斤计较于静态的划分,更注意智力处理现实问题的能力。按此类理论,人脑被理解为信息处理系统,智力体现于为了一定目的,加工处理信息的表现。
于是,将因素和信息加工调和在一起的智力层面理论出现了——既划分了不同因素,又注重因素在信息加工中的表现。在这种视角下,一些心理学家将以往不被重视的能力纳入视野,不局限于传统的狭隘定义。
哈佛大学的加德纳在1983年提出“多元智能”概念,一改以往强调抽象思维的智力观念,将人际关系、音乐、肢体动作等加入智力范畴。著名的情商概念也在此时提出。1991年,萨洛维提出的情绪智力(EI)概念,认为认知、控制情绪的能力,是一种长久以来被忽视的智力。经过戈尔曼的传播,情绪智力广为人知,逐渐被传播为情商(EQ),和智商并列。
智力理论的发展,影响了智商测试的项目,斯坦福-比奈量表的测试能力,从最初的g因素,到后期的8种,其测试结构在数量和内容也发生变化。
斯坦福-比奈智商测试五次修订的内容变化
认知神经科学的发展,又给智力理论提供了新的支撑。目前,学界倾向于认为大脑突触更多的人,智力表现更好,大脑皮质的厚度也与智力相关。除了从脑部构造角度探讨,认知神经科学还在确定人脑的信息加工速度、知觉速度、神经速度等功能与智力的关系。
不过,这些神经科学角度的尝试也受到“智力”概念的困扰,对人脑哪一部分的扫描?都只能够确定相关关系进行推论,更进一步的探讨,则都需要理论标准。
未来智商理论会有什么发展,技术上能否用脑部扫描等手段取代智商测试,抑或证明智商测试的合理性,仍是未知数。理论的发展推动人们更理性的看待智商测试,因为人类曾有滥用测试的深刻历史教训。
【智商测试的滥用】
1927年,美国最高法院以8:1的投票结果,判处弗吉尼亚州对一名“弱智”妇女实施绝育手术。著名的霍姆斯大法官曾对此评论道:“三代弱智已足够”。此后,美国12个州通过了对智力缺陷人群实施绝育手术的立法,27个州实施强制绝育计划。最热衷于此的加利福尼亚一共实施了2万多例手术。
登峰造极的是纳粹德国,近40万人被判定智力缺陷,强制绝育。还有十余万人被杀害。
更早的时候,美国医生在移民到达的地点,仅凭交谈和观察,就评估他们的智商分数,弱智者将因此被遣返。1924年,受智商检测结果的影响,美国国会出台了更严格的移民控制法案。
这种滥用智商测试的现象引起了人们的警觉,最著名的反对者是李普曼 (Walter Lippmann)。1922年,他在《新共和》杂志上与特曼打了一场笔战,李普曼抓住当时智商测试的弱点,批评其简单粗暴的对待复杂的人类智力,总是偏重某些能力,只能得出偏见,容易给个人贴上永久的标签。
当时智商测试值得诟病处甚多。比如早期的斯坦福-比奈测试中,女孩的分数在每个年龄段都高于男孩,这让路易斯·特曼很焦虑,1937年,新版本的测试量表删除了男性得分差的项目,轻轻一动,男孩就和女孩一样聪明了。
1960年代的美国,民权运动风起云涌,智商测试被认为是种族主义的方法,受到活动家的冲击,纽约、华盛顿特区、洛杉矶等市禁止对小学生智商测试,不过随着民众热情的消退,这种激进的禁令很快被取消了。
随后,智商测试不断完善,早期的很多问题已经解决。但接下来,它又面临更大的麻烦:弗林效应。
这是由美国人詹姆斯·弗林命名的现象,它显示,在1930年到1980年间,发达国家的智商测试初始分数一直在上升,比如1932年至1978年,美国年轻人的IQ平均指数提高了14点。弗林效应也出现在发展中国家。1994—1998年间,肯尼亚6—8岁农村儿童的分数增加了11分,这让人怀疑智商测试的稳定性,也与智商测试体现先天智力的观念不符——基因的变化不可能这么快。
目前,多数心理学家将此解释为随着社会进步,教育和营养水平提高,影响了抽象能力的发展,而对于弗林效应本身引起的智商测试有效性讨论,则莫衷一是。
【中国人的智商】
尽管多数中国人1980年代以后才接触智商概念,但智力测试方法早在1917年就传入中国。1917年京师教育报上,翻译了日本学者佐藤礼云关于比奈-西蒙智力测试的介绍文章,并附上部分测试题目。
当时智力测试的介绍以翻译为主。中国最早的智力测验尝试,是1918年瓦尔克特用斯坦福-比奈智力量表测验清华的学生。两年后,南京高等师范开设心理测验课程,正规的智商测验出现。随后,比奈量表、美国陆军智商测试表等被翻译过来,在20年代风靡一时,报刊杂志经常出现“智力小测验”的题目。
很快,中国部分学校也各自开始智力测试。1921年,安徽第二师范附属小学对学生进行了智力测试,试题选自比奈-西蒙测试表。1926年,厦门集美学校对女小学部的一次智力测验,并将结果发布在《集美周刊》上。
《集美周刊》截图。T分数为特曼(斯坦福-比奈)测试,B分数为比奈-西蒙测试。
此时的智商测试只是在一些学校出现,分布很散。报刊上虽然时常出些智力小测验,但正规的智商测试远没有普及。1931年,中国测验学会成立,一项主要任务就是协调各地的智商测试。
但这种势头很快被打断。1949年后,中国心理学界开始接受辩证唯物主义和苏联心理学改造,“反 右”期间,智商测试因为是“资产阶 级方向心理学”遭全面中止。1965年,姚文元在《光明日报》撰文,批判心理学为“资产阶 级伪科学”,虽然同一时期,资产阶 级的美国青年也在严厉指责心理学为“种族主义”帮凶。