相关性和因果关系混淆的“疾病”困扰着心理学,而“罪魁祸首”正是科研工作者本身。
APRIL L.BLESKE-RECHEK
封面:Jeff Csatari
PSYCHOLOGY 心理学
2019年7月,克里斯托弗·弗格森(Christopher Ferguson)在Quillette发表了一篇关于心理学实验重复危机的文章。心理学作为一门科学在发展过程中浮现出了许多难题,作为理论心理学家,我很欣赏他对一些难题清晰而简明的讨论,包括学术发表偏见,以及媒体对弱影响因素的大肆渲染。我认为,现今有一种不太为人所知的“疾病”正困扰着心理学及相关学科(包括保健科学、家系研究、社会学和教育研究):相关性和因果关系的混淆。而最近的研究表明,“罪魁祸首”并不是一般民众和媒体,而是科研工作者们本身。
相关性和因果关系
我们可能都听过“相关性不是因果关系”这样的老生常谈。担保一个变量“导致”(causes)另一个变量发生变化有三大准则,相关性只是其中第一条。
— Diablo Magazine
为了表明一个变量导致另一个变量发生变化,首先要满足第一准则,即证明两个变量是共变的:其一增长,另一变量亦趋向于增长(此为正相关;举例,在SAT考试中获得高分的学生在大学里也倾向于获得相对较高的GPA) ;其一增长,另一变量趋向于下降(此为负相关;例,更喜欢在工作中和人打交道的学生,不太可能主修计算机科学和物理等无机学科)。
第二大准则为时序优先性:假定原因(The presumed cause)必须先于假定效力出现。例,儿童时期被暴打屁股的人在青少年智商测试中往往得分较低。关于时序优先性的描述往往会引发因果关系的解读。例如,在打屁股和智商的情境中,有人会理所当然地推断出被揍“导致”了低智商。要推断因果关系,时序优先性必要但不充分。正如史蒂芬·平克(Steven Pinker)在《白板》(The Blank Slate)一书中写道,假如你在睡前定好了两个闹钟,一个闹钟6点响,另一个闹钟6点15分响,随着第一个闹钟在第二个闹钟之前准时叫醒了你,你会明显感受到系统性共变和时序优先性,但是这并不意味着第一个闹钟响“导致”了第二个闹钟响。同理,儿童时期被打屁股早于青少年智商测试,但这并不能证明打屁股“导致”低智商。接种疫苗会导致自闭症是个早已被完全证伪的谣言,这一可怜的信念似乎源于由时序优先性推断出因果关系的倾向:因为接种疫苗要早于自闭症症状的显现,人们随即会错误地假设是疫苗“导致”了自闭症。要是真的按这种逻辑推理,那么在孩子蹒跚学步期间,任何事物都可以是自闭症的诱因。
第三大准则也是最重要的一条:要推断因果关系,研究者们必须处理潜在的混杂变量(confounding variables),即能以另外一种方式解释假定因果联系的假定原因。以打屁股与智商的研究为例,研究者可以考虑到各种各样潜在的(且非互斥的)混杂因素:生活压力大,物质条件贫困可能会导致体罚和认知能力发育迟缓两种情况;父母的低智商可能会导致体罚和孩子低智商得分;儿童时期的低智商得分可能会导致体罚和青春期的低智商得分,诸如此类......要让特定原因(如打屁股)成立,必须将原因隔离,然后通过随机分配施加于其中部分个体(或者说原因的不同层次必须施加于不同群体中的个体)。一般来说,这是通过实验设计来实现的,实验设计包括对假定原因的“操纵”,然后对预测中会受到操纵影响的变量进行测量。
没有伦理研究者会想要随机分配父母对孩子进行不同程度的体罚,以评估其对儿童智商的独立影响。但是另外一些关于人类的难题“有望”通过实验解决。例如,游玩暴力血腥电子游戏会增加玩家攻击性。研究者要验证这个假想,他们会在实验设计中随机安排被试个体玩一段时间暴力电子游戏,另一组被试会被安排玩差不多刺激,但是非暴力的游戏;在施加了操纵后,研究者会测量被试个体的攻击性。
— Kata
在受控实验中——研究者操纵一个具体的原因变量,随机分配被试经历操纵变量的不同层次,将其他因素保持恒定,然后客观地测量操纵的影响——这是文献撰写中探究因果关系的“黄金准则”。要注意,一个变量对另一个变量有因果影响并不意味着它“决定”了另一个变量。在暴力电子游戏和攻击性的例子中,或许有证据表明接触暴力游戏会让人在短期内产生攻击性想法,但是接触暴力游戏并不能“决定”一个人的暴力程度;这只是影响攻击性的众多变量之一。
或许你能明确认识到相关性和因果关系之间的区别。那你是幸运的少数。关于逻辑思维和思维偏见的书籍经常探讨将相关性和因果关系混为一谈的趋势,例如基思·斯坦诺维奇(Keith Stanovich)的《超越智商》(What Intelligence Tests Miss)和迈克尔·舍默(Michael Shermer)的《为什么人们会相信怪事》(Why People Believe Weird Things)。
几年前,我和我的学生发表了一系列研究,证明了无论人们的教育程度如何,把相关性和因果关系混淆的趋势总是存在的。以其中一项研究为例,我们给社区里的一组成年人阅读了一则虚构的研究简介,描述的是一项学生自尊和学业表现的相关性研究,研究中的两个变量都被测量(观测)并且两者都没有被操纵;对于另一组被试,我们虚构的研究简介描述了一项对学生自尊进行控制的实验性研究(即随机分配一些学生收到促进自尊的讯息,另一些学生则没有),然后对学生的学习成绩进行测量。两组被试知悉的研究结论都声称:该研究揭示了自尊心与学习成绩的正相关关系。随后,我们询问被试,可以从研究发现中推断出什么?
自尊会“导致学业的成功”——虽然阅读了相关性研究的被试不应该推断出这样的结论,但是两组被试得出该结论的比例相同。此外,在阅读了相关性研究的被试中,无论他们的受教育程度如何,他们做出错误因果推断的可能性相差无几!(顺便提一下,自尊提高学业成绩的推论实际上与最新科学研究相违背,该研究很清楚地表明,即便自尊与学业成功有因果关系,那也是学业成功先于自尊,而不是相反!)
因果关系的语言
在英语语言中,描述因果关系的方式远多于描述非因果关系的方式,这也许正彰显了人类推断因果关系的偏好。我和同事们仔细阅读了数百篇心理学期刊文章,发现了超过100个不同的词汇和短语被用于表示因果关系。如下面的关键词云图所示,大字体表示其中最常用的。
表示因果关系的关键词云图
图片来源:作者提供
语言中可能有成百上千种方式来表示因果关系,这很重要,因为人们确实弄不清语言中真正的“因果关系”,人们也不知道(如前文描述)在何种情境下使用因果关系的语言是恰当的。因此,如果没有充足证据,就使用因果语言来描述研究结果,读者很可能无法意识到语言上的细微偏差,从而被误导而不自知。
学者们一再指责媒体,怪罪其使用因果语言不当。2016年,来自Vox的布莱恩·雷斯尼克(Brian Resnick)向许多著名的心理学家和社会科学家发问:记者在报道科学研究、撰写文章时犯了什么错?在得到的答复中,相关性和因果关系的混淆位居榜首。诚然,媒体报道中充斥着不恰当的因果关系推断。几乎在任何新闻网站随便一搜,你都可以看到像这样的标题《学生饮酒如何影响GPA》、《真诚的微笑有助于长寿》还有《网络欺凌导致青少年睡眠质量和抑郁症状恶化》,记者基于这些测定变量的“非因果”(相关性)研究编写的如上标题,都属于因果关系断言。
— Kata
不过,最近有几项研究指出,因果关系语言的滥用始于科研工作者自己。例如,在医学领域,一项大规模的文献调查表明,有半数以上的相关性研究文章包含了对研究成果的因果解读。在教育领域,一篇发表在教学期刊上的文献调查表明,有超过三分之一的相关性研究文章包含了因果关系陈述。在心理学领域,我和我的同事进行了两项研究,突出表明了该问题的普遍性。首先,我们审阅了一系列随机的摘要样本,这些摘要的展示海报已被首屈一指的心理学专业组织——心理科学协会(APS)审核通过,并在其年会上展示。我们很失望地发现,超过一半的摘要在没有充足证据的情况下使用了因果语言(即,所涉及的研究是相关性的)。当然,海报展示的严谨程度要比正式演讲或期刊文章低,因此在后续研究中,我们审阅了心理学11家知名期刊中的660篇文章。我们的研究结果重复证明了:半数以上使用了因果语言描述的研究文献实际上是相关性研究;换句话说,其因果语言的使用是不恰当的。
我把我们的分析报告提交给了心理科学协会旗下的一家杂志,杂志编辑却退回了我们的投稿,并回复说:人类将相关性与因果关系混为一谈的倾向已经众所周知。行呗,也许这确是众所周知的偏见,但如果在心理学最热门的专业会议之一里,这种偏见在其海报展示中泛滥,并且在心理学的知名期刊中同样普遍,那么很显然事情就大条了。(应另一家期刊编辑邀请,我们已将此研究成果发表在了他们的期刊上。)
忽略了混杂因素
我们在应对社会中的问题时,混淆了概念并错误地从相关性数据中推断出因果关系,这阻碍了最有效解决方案的制定。例如,考虑到幼儿在早期语言习得和未来学业成绩方面的巨大差异。哈特和里斯利(Hart & Risley)1995年的追踪研究是儿童早期发展和教育中最常被引用的研究之一,该研究表明,在社会经济状况较差的家庭中长大的孩子,父母对他们说的话要比社会经济状况较好的家庭少得多,并且研究预测认为这些早期的语言经验差异,会造成孩子未来在词汇量和学业成绩方面的差异。
“父母给子女提供的言语环境是影响子女言语发展的一个关键因素”,由于这一因果关系的解读,催生出许多昂贵的强化课程,这些课程教授并助力父母与孩子之间的言语互动。然而,哈特和里斯利的研究数据是相关性的。即,该研究并没有控制亲子之间言语互动的数量与质量;该研究没有随机分配家长提供一种形式的语言体验,另一些家长提供另一种形式的语言体验,然后再测定由于操纵导致的儿童发展变化。因为一些相关变量会大大增加来自父母的言语互动和儿童言语能力,要指出早期语言体验的差异“会导致”儿童词汇量和学业成绩的差异,就必须要消除混杂因素。
共同的遗传性质也是潜在的混杂因素。社会经济状况好的父母比社会经济状况差的父母有更高的认知能力,社会经济状况和认知能力都是可继承的(heritable)。因此,对于父母提供的语言体验质量和儿童的言语能力,基因可能是造成影响的第三个变量。为了验证这一可能性,行为遗传学家充分利用“自然实验”,一些儿童由其亲生父母抚养(共享基因和环境条件),一些儿童由养父母抚养(仅共享环境条件)。在典型的家庭中(如哈特和里斯利研究中的家庭),孩子和父母的相似程度如何,在哪些方面共享基因和养育环境?在收养家庭中,孩子和父母的相似程度如何,在哪些方面共享养育环境?
— AD Marcy Atarod
事实上,这些问题的答案在20世纪20年代就有研究,并有无数研究人员在多种情境下重复实验:在亲生家庭中,孩子的词汇量和言语能力与父母相似;而在收养家庭中并非如此。
其关键意义在于,在哈特和里斯利的研究中,父母的言语行为与其子女的言语能力之间存在联系,但这并不足以推断出父母的言语行为会“影响”子女的言语能力。
用遗传学来解释此种关联更妥,因为这种关联只有在父母和孩子有亲缘关系的时候才会显现出来。
换一种说法,研究结果表明,为子女提供高质量语言体验的父母类型与提供低质量体验的父母类型存在系统性差异;能从父母那里获取高质量言语反应的子女,与难以获取高质量言语反应的子女也存在系统性差异。由于发展心理学家和教育工作者继续将哈特和里斯利的相关数据,解读为早期语言经验对言语能力因果影响的证据,因此他们继续推进干预措施;如果不承认并考虑到环境及遗传因素,最终这些干预措施的效果可能会打折扣。
混淆相关性和因果关系可能在另一个领域误导人们,这个领域就是“微冒犯”(microaggression)。在推广该术语的文章中,“微冒犯”被定义为“日常言语、行为或环境中简短和常见的侮辱,无论是有意还是无意的,都会传达对有色人种的敌意、贬低或负面种族歧视和侮辱。”
— Kata
这个术语最初是在种族和民族语境下使用的,但现在应用得更广泛了。一项关键的相关性研究发现,如果个体自我报告遭受到“微冒犯”,那么就相对更有可能被心理健康问题侵扰。该研究的数据是“相关性的”,但是却被人们解读为因果关系:即,被“微冒犯”导致心理健康问题。正因为如此,单位要求员工进行用语、用词和行为培训,以规避所谓的“微冒犯”,现今这种情况在学术界和商界很常见。我并不是说受到“微冒犯”不会对个人健康造成实际损害;这种探究因果关系的方式看似是合理的,但是如果没有真正的实验研究对某些个体施加“微冒犯”并另设组对照,随后对预定的结果进行测量,则因果推断是“无法成立”的。不然,无异于信口开河。
斯科特·利林菲尔德(Scott Lilienfeld)在文章中呼吁对“微冒犯”进行更为严谨的研究,并指出消极情绪性(神经质)的人格特质是一个显著的混杂因素:消极情绪性的敏感个体特别容易认为自己遭到“微冒犯”,并且消极情绪性的敏感个体更易遭受心理健康问题的侵袭。由于“微冒犯”没有精确的定义,而是完全根据听者的解读来定义的,那么感到“微冒犯”和心理健康问题都有可能与消极情绪性有关。我认为,“微冒犯”导致心理健康问题的因果推断会让人做出不当的假设,在这些证据不充分的假设驱动下,杜绝“微冒犯”的研习活动可能会带来事与愿违的结果,让敏感个体变得更加敏感。
事实上,在我和同事们去年开展的一项研究中,我们首先告知大学生被试这样的话语:“人们谈天说地,但有时候他们的无意之言会伤害到你”,相比消极情绪性指数较低的学生,消极情绪性指数较高的学生给诸如“你应该跑跑步了(You should take up running)”这样的含混陈述打上了更高的“有害”评分。正如卢基亚诺夫(Lukianoff)和海德特(Haidt)在《美国人心灵的溺爱》(The Coddling of the American Mind)一书中所主张,关于“微冒犯”的培训可能无法促进人们恭敬地相互接触(即便其愿景很美好),却给人话里挑刺的机会。
心理学界能做得更好
对于由相关性推断出因果关系的这种倾向,我希望心理学家们能够携手克服,就像心理学家回应心理学实验重复危机那时一样,自己负起责任来,实施更加严谨的研究和数据分析。如何克服这种倾向取决于其出现的起因、方式、时间及对象。心理学家可能和其他人一样,难以区分相关性和因果关系;如果是这样的话,我们就需要完善我们的科学培训,增加更多针对性训练,以正确表达因果关系、规范证明因果关系。
— Davide Bonazzi
另一种可能性:或许是由于意识形态差异和利己主义偏见,心理学家在审校其他人的研究时可以发觉不当的因果推断,但却会在自己的研究中忽略其存在。如果是这样的话,我们就需要鼓励质疑的声音,把相关性和因果关系的矛盾摆到台面上来,以便对彼此的研究进行建设性的审阅。也可能是科研工作者们故意使用不当的因果语言,让其研究获得更多关注。还好,最近的研究表明,科研人员大可不必如此“操作”,因为新闻机构在挑选科研新闻稿时,使用非因果语言和使用因果性语言的文章被选中的几率大致相同。
无论如何,这取决于心理学家们是否能把控好彼此,以达到更高标准:(1)及时辨识出因果性陈述;(2)在做出因果性陈述之前,确认研究过程是否满足三大准则。在科学追求真理的过程中,心理学必须做得更好。
评论如下:
Love,death&robot
实际上由于心理学的大部分有意思的构想涉及的变量过多,实验方为了出成绩很难做出普遍性的成果来,大多不得不就一个p值的情况下勉强靠统计筛一个结论,所以可重复性极差。在目前的科研体制下根本很难取得真正的突破。而那些有名的有架构的理论太多,验证也非常不足。
「康思迪」
当数字只为了佐证观点,
才有了为赋新词强说愁。
Eichenwalde
其实乱用因果最泛滥的是经济学领域还有媒体行业,最后我们社科背锅哈哈……
黑色豆腐
在科学方法的逻辑中,没有操纵变量就不能推出因果关系,而心理学的研究对象是人类,伦理上限制了操纵的空间。人们总是希望研究结论对生活是有指导意义的,这方面比较起来,相关性结论较因果性结论不meaningful很多,这可能是研究者和大众都一厢情愿地把相关当因果的原因吧。其实我更好奇社科领域(经济学)对这个问题怎么看file:///C:\Users\ADMINI~1\AppData\Local\Temp\ksohtml\wps3C35.tmp.jpg
滔滔
那种感觉到微冒犯的人是不是应该进行“脱敏疗法”啊
原创: BLESKE-RECHEK
编辑:宋婷