智商与财富是否存在关联?“门萨圈套”智商测试:伪科学的骗局
注:本文内容取材并整理自Nassim Nicholas Taleb的专题文章:《Fooled by Correlation: Common Misinterpretations in Social "Science"》
引
伟大的卡尔·波普观察到,心理学家倾向于用某种类型的紊乱或人格缺陷,如“孩子气”、“自恋”、“自大狂”或类似的称谓给那些让他们崩溃的人下病态的标签。
与此类似,IQ测试也是一个极好的用来给人贴标签的工具。“智商”作为一个陈旧但久盛不衰的测试项目,旨在测量智力,但结果往往更像是评价一个人在参加一些由纯朴的书呆子设计的考试方面有多好。
智商测试的先驱者是法国心理学家A.Binet,其本意是估计小孩的智力年龄,为防误用,特意强调智力高低不能用此种测试来衡量。
但这一强调很快被忽视。1912年,美国移民局在语言不通,心情惶惑的移民中进行了不人道的智商测试,将包括83%的犹太人在内的大批移民视为弱智,成倍增加了驱逐率。直到1938年,刚领完诺贝尔奖的费米移民美国的时候,美国使馆的官员还表示需要测试其智力水平……
似乎是种族主义者或优生学者们,一直致力于证明一些人的智商测试结果等价于较低的智力水平;此外,一些心理学家也在贩售“智商是心理学上最好的衡量标准”给那些容易受骗的人。但心理学上有相当多的实验和研究,但结果根本无法重现,在某些问题上,学者之间连基本的共识都没有。
这些人对于统计学家突然抢走他们的“科学”工具(IQ测试)感到非常的不安。Taleb毫不客气地指出,智商测试的问题在于,它在设计上存在明显的缺陷:在厚尾和不对称下的相关性存在严重缺陷;未能恰当地处理维数;把心灵当作一种工具而不是一个复杂的系统等等。
IQ甚至不是一种科学的衡量标准——在心理学研究中,即便考虑到信息学家对数据进行了精心的统计筛选,它最多也只能解释某些任务中2%到13%的表现。
最终,IQ测试中败下阵来的往往是‘学习障碍“型选手,它最终选择了应试者(Exam-Taker)、乏味的工作者(Paper-shuffler)、白痴型知识分子(IYI,intellectuals yet idiots),不适应“现实生活”者等等...
文
智商与财富等硬指标之间是否存在显著的统计关联性呢?这是一个备受关注的有趣问题。
对于大多数与智商相关的“成就”来说,都是以官僚或学术上的成功,应试者的成就,以及类似于测试的结构性工作中薪水收入者的成就来衡量的,但这很难被量化。智商论从根本上是一种不道德的控诉,但却可以把人们(更糟的是,群体)关在笼子里度过余生。
财富可能是一个比较好的好的衡量智商的标准——即便这可能并不意味着成功。之所以财富被特殊看待,往往因为它被作为唯一的“硬通货”。——你可以用30块钱换取食物,而不是用“业务”排名,“考试”排名,社会地位,甚至与英国女王的一次自拍来果腹。
回到我们的问题:如何理解智商和财富之间的相关性呢?
心理学家往往没有意识到,IQ的影响小于同一个人多次智商测试之间的差异——如果一次测试和再次测试之间的相关性是80%,这意味着你作为你自己只解释了不到64%的测试结果。
智力图表统计显示了一个大群体的智商和收入的影响。但注入噪声(比如同一个人测试之间的差异)后,相关性并不显著。
注意这里的噪声:排名前25%的保安比排名后25%的大学教授智商更高。
再看相关性测试-再测试的角度:不同于身高或财富的测量——它们有一个微小的相对误差,许多人在同一个智商测试中却得到了截然不同的结果(同一个人!),重复测量的最大标准差为2,甚至高于人群本身的抽样误差!当应用于单个个体的评估时,其影响远远超出了其可预测性。作为一个个体,你自己的多样性比人群要高得多!
“有些种族更擅长跑步”的论调因此就过时了:体能的维度要大得多,而不是用跑几个100米距离的方式来定义的。
从以上对比中可以发现,IQ的高低在财富4万美元以上没有明显的效果,但噪声很大。心理学家并没有意识到:统计学并不是用来解释噪声的。
再来看收入,NLS数据库中taleb发现了可疑的筛选,这些筛选将收入、财富和智商在尾部截断,从而人为地提高了决定系数R^2。(taleb的计算表明,收入的决定系数R^2只有不到1%,财富的R^2只有不到2%!)
这个例子里,我们构建了一个假想的智力测试,它的结果与负性表现(比如智商低于100)100%相关,与正性表现(智商高于100)0%相关。在渐进图形中,我们只是逐渐增加噪声(其平均值仍然为0),就可以看到,相关性(顶部的数字)一直在降低。
图中我们还展示了智商IQ和SAT分数的关系,这是一个类似的例子,再次告诉我们,大多数导致智商的“相关性”都存在一类统计缺陷:在细尾分布的情况下,如果缺乏对称性,研究“相关性”是没有意义的。添加噪声后,再统计智商和成绩之间的相关性,必然会得到一个比原始模型“更优雅”的相关性结论。
这里还有几个疑点:
如果智商的分布用高斯结构构建的(几乎总是),而现实世界的表现是肥尾分布(一定是),那么要么智商和表现之间的协方差不存在,要么则不存在有用信息。在这种情况下,任何可用的度量标准会高估模型的可预测性。
当他们说“黑人IQ离标准差x远”时,他们不知道自己在说什么——不同的种群有不同的方差,甚至不同的偏度,这些比较需要更丰富的模型。这些都是非常严重的数学缺陷——如果存在这样的缺陷,10亿篇心理学测量学论文就都不算数了。
按常理思考,低IQ确实与非常消极的表现呈现一定的相关性,但高IQ对积极表现可能并不那么敏感。如果以上的几个疑点没有澄清的话,我们几乎是一定高估了IQ得分的现实意义。智商中“智力”的多少,其实也是学术心理学家设计的(他们不是天才),因此这个IQ测试也自然会对低IQ表现的更加敏锐。
一个智商为70的人可能不能证明数学定理,作为智力的衡量,这似乎是显而易见的。但人们不一定会了解,智商150的人中有多少人做着卑微的工作谋生。所以“低智商”可能提供信息,而“高智商”可能传达的信息并不比“随机”更多。
要明白这一点:考虑一下如果某人有心理方面的需求,那么他的表现和智商测试之间可能会有100%的相关性。但是,在更高的IQ层次上,这种表现可能并不相关,这种非线性并不是所有心理学家都能够理解的。
关于智商是否会超过一个临界值而停止工作的说法是不成立的。不成立的理由来自于这样一个事实:智商测量值的方差是随着智商的增加而增加的。
上面的例子和下面给出的思想实验有着异曲同工之处,这被称作:死人偏见。
测验:对10万人进行智商测试,可以是任何事情,任何任务。但测试后,2000人都会死,死人智商为0,测试表现为0,并假设其余活着的人的智商与测试表现无关。那么智商和测试表现的相关性是多少?出乎意料的答案:大约37%
这种系统性的偏见来自这样一个事实:如果你用锤子砸某人的头,他或她会在任何事情上都做得不好。但反过来则没有等价的东西——某个人突然之间变得擅长于做任何事情。
因此,所有的能力测试都会显示出一些与智商IQ正相关的规律,即使测试结果是随机的!所以,如果你看到一个很低相关性,那你还不如坦率承认,这里没有任何有意义的相关性!
使用标准的Winsconsin Longitudinal Studies(WLS)数据对IQ收入做线性回归的残差平方e2的对数-对数图后,我们注意到:收入变量是缩尾处理过的,剪掉尾部实际上会产生高R^2决定系数(模型对数据解释的贡献率)的错觉,即使不剪掉尾部的极端事件,由于幂律下的小样本性质,决定系数也会显示出更高的值。
这意味着,在极端斯坦的世界里做回归运算,为了使样本具有更多的信息性,所需的数据的数量级要比平均斯坦世界里需要的样本数量的数量级要多得多!因此有理由怀疑,有限样本并没有揭示出任何相关性的规律,反而误导我们相信它的存在(关于这一点的展开,可以参考《「胖尾人生」小概率世界的求富法则》一文)。
为什么要禁止社会科学家们进行回归计算?国民智商就是一个骗局。
实际上,过大的方差导致信息量几乎丢失,只要多增加几个随机点就可以反转回归线的斜率。事实上,这项开创性的研究采用的数据也有疑点:“在185个国家中,有104个国家没有可用的研究”,他们根据种族……计算出这些数字)——除了相关性不强之外,这纯粹是胡闹。
同样的人认为智商是可以遗传的,它决定了成功:亚洲人的智商比白种人高,并贬低了非洲人,但从财富角度他们却忽视了,大约一个世纪的时间里,亚洲的GDP比西方低了一个数量级。
回想一下《反脆弱》,如果财富是厚尾的,你需要关注的是尾部的少数(智商有不可预测的回报),而不是平均水平。
此外,它还导致种族主义低能者认为,如果一个国家的智商为82,这在政治上意味着那里所有的人都有82的智商,因此我们应该禁止他们移民——他们甚至没有基本的统计概念,如方差。有些人把国民智商作为基因差异的基础,但这并不能解释爱尔兰和克罗地亚在欧洲一体化进程中的急剧变化,也不能从另一个角度解释以色列和美国之间的差异。
如果你正在设计一辆“性能”汽车。玛莎拉蒂会在赛道上表现最好,并在那里打败一只山羊。但是,如果你需要穿过科西嘉群岛呢?一只山羊是更理想的选择。
在纽约的交通环境中,行人会击败汽车;当然,IQ测试也是这样的,IQ测试结果的意义也受制于测试的环境——智商在某种程度上取决于环境。
因此,“性能”的概念需要与特定的环境相关联,并对其进行必要的预测。赫伯·西蒙Herb Simon的观念剪刀是说:一把刀表示能力,另一把刀则是上下文环境。两者缺一不可。不要神话IQ测试。
对IQ测试的态度,可以用最佳地图谬误来诠释。
当飞行员“没有别的地图”,只能使用飞往亚特兰大机场的地图时,很少有人会和这位飞行员一起登上飞往纽约拉瓜迪亚机场的飞机。大脑正常的人宁愿自己开车,坐火车,或者呆在家里。
然而,一旦他们涉足经济学,他们更喜欢专业人士使用错误的衡量标准,理由是“没有其他东西可用”。包括IQ测试在内,为什么大家突然变得如此宽容了呢?
在学术界看来,学术界与现实世界没有区别;但在现实世界中则不然,我们会处处碰壁,这些都是IQ测试无法顾及的细节:
当有人在现实世界中问你一个问题时,你首先关注的是“他为什么问我这个问题?”,这会将你转移到环境中并将让你从当前的问题中脱身,只有傻瓜才没有这种本能。进一步,取序列,并问:x应该是什么?只有对归纳法一无所知的人才会回答5,就好像它是唯一的答案一样——显得不仅无知,而且听话到只用某种单一的方式来思考。
现实生活从来没有提供过答案清晰的问题——我们更多遇见的是,大多数问题往往都没有答案。
某一类人会浪费智慧专注于课堂和学术性的问题,他们都是毫无生气的技术官僚。
智商无法发现错误的凸性机会。比如你需要犯很多无关紧要的小错误,以避免犯一个重大的错误。生存往往需要一些指向错误的心理偏见。
被随机性所愚弄:看到的是肤浅的模式而不是美德——这会导致天真的干涉主义。一些心理学家认为:“智商选择模式识别,对现代社会的功能至关重要。”Taleb的回答则是:不要看模式,除非它们在现实生活中是一种美德。
要想在生活中取得好成绩,你需要有深度和能力来选择自己的问题并独立思考。一个人必须是一个疯子(或心理学家)才能相信诸如IQ标准化测试,能够揭示独立思考的能力。
心理学家提出的“智商有用论“是这样的:你想让谁给你做脑部手术?你想在你的公司雇用谁?你应该推荐谁工作?那不如就先看智商吧!
但在现实世界中,很少有人这么做。你是从他们的简历(而不是像思维实验那样直接给你某个智商数字)中采访他们的,一旦你有了他们的简历,某个智商62的家伙自然就被淘汰了(你永远不会错过爱因斯坦)。因此,智商唯一能区分的,可能是精神残疾者——他们在现实生活中已经被排除在外。因为他们几乎不可能拥有工程学或医学学位并递出简历。
研究中的偏见,如心理学家所示,如果医学博士和学者的“智商”更高,信息量也稍大(更高,但平均来说很嘈杂),很大程度上是因为要进入学校,并需要在类似“智商”的测试中取得分数。这种滤波器的存在增加了可见均值,降低了可见方差。概率论和统计学把傻瓜们都给弄糊涂了。
如果有人提出一个数字“情商”EQ,“幸福商数”WBQ,或“睡眠商数”SQ,试图模拟温度或物理量,你会发现这是极度荒谬的。除非有足够多的学者对它怀有物理上的嫉妒和种族上的仇恨,这样它们才会成为官方的衡量标准。
结
类似“决定孩子成功的重要因素是20%的智商和80%的情商“这些提法老套又迂腐。本文至少罗列了三个强有力的角度来反驳这样的观点:
使用与研究人员相同的数据发现,尽管存在相关性,但智商/财富和智商/收入的决定系数R^2实际上为0。
在最好的应用中,智商比随机选择强6%,通常
从统计学上讲,显示平均国民智商有效性是一种欺诈。那些有着最强烈的支持智商论点的论文,似乎没有领会噪声/信号在实际世界中的真正含义。
人是复杂的思维情感动物:
如果解决问题若可能与智商相关,但终究体现于问题本身。
号称的高智商根本没有证据证明,相反却是对自己立场的麻醉认同。
如果是基于立场的麻醉认同获得的“自己高智商”的认识,那么根本无益于问题的解决,因此第一点关联假设不成立。
因此,号称自己高智商的,是最不愿意通过讨论来解决问题的人。
人类之间的差异更多是思考的角度和层次,而不是智商,智商的噪声太大乃至于连堪用都算不上。硬要说提升的话,不如多角度+多层次。比如争论,你设置三个思考点ABC(我的角度,你的角度,大家的角度)事情就会清晰一些。如果再加上三个层次(自我的,社会的,自然的),事情和道理就更明朗了。
美籍犹太裔物理学家理查德·费曼,是第一位提出高等量子力学中路径积分思想的人,同时他也是第一位发现蒙古族独有的呼麦演唱技法的人。费曼一生对自称高智商的人都保持距离,并直言嘲讽。
他说过:我的智商不够加入你们的俱乐部(门萨)。
对于费曼来说,智商的测试就是伪科学,不值一驳。
完
▲
关注再走