“培养媒介素养”是这个信息爆炸时代每个人必须具备的基本素质。看报纸杂志要查信息来源,收到危言耸听的消息要搞清楚是不是假消息,这几乎是常识。但是,排除一些恶意歪曲事实、故意伪造研究成果的报道,我们真的可以相信所有发表在国际科学期刊上、受到严格审查机制的研究报告吗?先说2015年心理学领域1(再现性危机1(或复制危机)的案例.
在信息爆炸的时代,我们的生活可能充斥着各种各样的虚假新闻。图/GIPHY 2015年,针对2(发表偏倚2(注1)、选择性分析数据、选择性报告结果等学术界存在的问题,一大群来自世界各地的心理学家聚集在一起,合作进行了100项复制研究,看看发表在心理学领域三大重要期刊(注2)上的研究成果能否用相同的研究方法和实验配置成功复制。毕竟,如果一个现象是真的,研究人员能够再次发现同样结果的概率应该是相当高的。一开始,心理学家采用准随机抽样的方式,选取研究课题进行反复验证,相互配合,严格复制原实验的研究设计、程序和工具。该工艺也得到了原作者的认证,原实验的效果得到了高统计检验功效的验证(平均复制功效=0.92)。原来,在他们参考的100个已发表的研究结果中,高达97%的结果具有统计学意义。简单地说,几乎所有的原创研究都成功地验证了一个假设,或者发现了一个显著的现象或关联。
然而,令人惊讶和失望的是,只有36%的重复验证结果具有统计学意义,即使是那些达到统计学意义的结果,新发现的平均效应值(平均效应大小=0.197)也小于最初发表在期刊上的结果(平均效应大小=0.403)。这个结果给心理圈留下了巨大的震撼弹!毕竟,重复性(或再现性)是科学的重要特征之一。在诸多条件得到控制的情况下,仍有如此高比例的研究成果无法重现,这不禁让人怀疑大部分心理学发现是否只是昙花一现。“运气”在一定几率下的统计意义是什么?此外,如果一项科学发现有时是正确的,但经常是错误的,那么这项科学发现的价值是什么?
心理学期刊上充斥着具有统计学意义的结果,但其中有多少是可以反复验证的真实现象?图/gi phy 2018年,在另一个有200多名心理学家参与的大型研究项目(Many Lab 2)3、4中,他们反复验证了28个常见的心理现象。与前面提到的2015年的例1类似,在28项反复验证的研究中,只有约一半(15项)支持最初的发现,高达75%(21项)的研究的效应值低于最初期刊报道的效应值。此外,大型研究项目Many Lab 2招募了来自36个国家的15305名受试者,以确认心理学研究结果是否会受到种族间异质性等背景因素的影响。他们的研究结果显示,只有39%(11项)的研究结果表现出组内异质性,而这11项研究中的大部分都是经过反复验证成功且效果较大的研究课题。
换句话说,用不同的被试和情境来解释无法重复验证的结果似乎并不成立,因为反而是那些能够成功重复验证的研究课题会受到人群异质性的影响4。复制研究的成败更多取决于现象本身1,4。接近事实的真实现象、理论和假说,通常可以在不同的环境、物体和时空背景下被反复验证。另一方面,仅仅因为假阳性概率或其他因素而发现的显著成果,即使完美再现了原来的研究领域、工具和对象,也不太可能再被发现。
更令人惊讶的是,在近年来无法反复验证的案例中,甚至出现了一些心理学学生熟悉的、出现在教科书中的经典心理学现象,如“面部反馈假说”(注3) 4-6、启动效应(注4) 4、自我耗竭(注5) 7。
在这一波反复验证中最具讽刺意味的是,最持久的发现是“只有大约一半的心理学研究成果可以反复验证”。
复制研究的结果令人失望!图//Giphy看完这个,不要急着把心理学教材和期刊扔到垃圾桶里!不要急着说:“果然,心理学
、社会科学都是主观的!是不可信的!」当然不是。事实上,再现性不高的现象,在生物学、工程学、物理学、甚至医学,都不算罕见10, 11。在质疑批判之前,或许我们更该思考:是什么造成目前的现状?以及,作为知识的产出者、使用者、读者,我们能做些什么?
为何无法重複验证?
假设研究员 A 和研究员 B 使用同样研究设计、实验方法,但得出的结果却不一致,例如 A 发现的东西 B 没发现,我们可以怀疑的解释有:
- A、B 所研究的对象与环境不同,情境与个体差异的因素造成结果不同
- A 或 B 在研究时不小心出了错,以至于 A 与 B 的实验事实上不完全一样
- 结果不同仅是由于抽样误差(sampling error)、机率的关係,A 的结果可能是伪阳性(false positive),或者 B 的结果是伪阴性(false negative)。此点的深入探讨可参考「p 值的陷阱:p 值是什么?又不是什么?」12一文。
像是在 2015 年1与 2018 年4的大型複製性研究中,无法重複验证的原因较不可能是实验方法误差或个体差异等混淆变项。原因是,可能影响结果、但无关于研究主题的混淆因素,都已被研究人员纳入考量并透过统计方法排除,例如,样本数、个体差异、文化差异等。并且,研究团队在进行重複验证时都与经过原作者审核、同侪审查,以确认实验程序成功複製原始实验。也就是说,现实条件下能控制的都控制了,但仍有如此高比例的研究结果与原始发现不同,究竟是哪里出了问题?
Open Science Collaboration 团队认为1,多数研究无法重複验证的结果,指出了目前心理学领域出现的出版偏误与选择性报告等问题。一直以来,期刊出版者重视原创性研究多于複製性研究,加上过去期刊多半倾向发表有统计显着性的结果,少数研究者甚至为了能成功在期刊发表,选择性的报告结果,甚至修改原先假设、操弄资料以达到成功验证假说的假象。而重複验证危机正是显现了这样不当的风气、行为造成的后果,并彰显施行複製性研究的重要性与必要性。
当然,针对个别研究,单一一次重複验证的失败,不代表我们应该全盘否认原始发现,而应是蒐集更多、更透明、更全面的证据,以后设分析 (meta-analysis) 等统计方式,得出真正有可信度的结论1, 4。
研究人员可以如何应对?面对这样系统性的问题,矫正方法当然也需要系统性的合作与改变。出版决策者在判断是否发表一篇研究报告的标準,不该单靠结果的显着与否,而是主题重要性、研究方法正确性、严谨性等,并给予支持性与不支持性的证据同等重视;研究资金赞助者,可以更鼓励这类複製型研究、而非仅是创新研究;此外,目前学者也建议研究人员在开始进行实验前进行预先注册(Preregistration)13,或选择进行注册研究(registered report)14。
例如,在 OSF (Open Science Framework)15此平台上,研究人员可以在实验、收资料之前,先将实验设计、实验假设、受试者的排除标準(Exclusion Criteria)等,先在网页上进行注册16,如此一来便能保证研究的透明性、可信性,并避免有心怀不轨的研究人员在蒐集资料后,才事后操弄假设、扭曲数据13。
此外,也越来越多心理学期刊提供「注册研究」(registered report)17。此投稿方式,有别于以往只在完整撰写完一篇研究报告后才投稿,进行注册研究时,会在研究绪论、方法撰写好时(实验开始前),就先投稿到期刊接受第一阶段审查(Stage 1 peer review),待该领域专家认可其研究价值、方法正确性之后,再开始实际进行实验、收受试者的步骤。此举也确保了,不管之后的研究结果是支持或不支持原先假设,其结果的报告都会在第二阶段审查(Stage 2 peer review)之后刊登在该期刊上,藉此,多少有办法校正目前文献中支持性和不支持性证据失衡、研究发现过于正向的状况14。
同时,Open Science Collaboration 团队也强调1,再现性危机不代表心理学家们应该志在让所有初始研究都能在未来被重複验证,因为这样反而是变相地鼓励研究者只去探讨那些「明显会成功」的研究题目,限制了该领域的创新性与探索性。也许我们该做的,单纯就是回归科学、理性的本质,真正聚焦在一研究主题的价值、方法严谨度、结果解释的正确性等。而非单纯因为某一研究题目有多「吸睛」或是某一研究「感觉」会不会成功,来决定研究以及领域的走向。
身为读者、知识使用者,我们可以如何看待再现性危机?
科学成果的品质很大程度取决于研究者,但同时,任何研究人员都不是完人、每个研究都可能因资源限制、现实考量而有其限制。另一方面,我们也不太可能要求社会上所有人都熟悉统计、数据分析的判读,但身为读者、知识使用者,我们可以做到的是,用正确、理性的态度面对所接受到的资讯。尤其是针对新颖、单一、小规模、样本数少的研究证据,不要马上视之为「真理」,并在之后有相斥、反驳的证据出现时,保持开放的心态,才不会落入确认偏见 (confirmation bias) 的陷阱中18。
科学是一种问题解决、探究世界的方式,而非一种盲目的「信仰」。更重要的是,科学是依循序渐进的过程,也许我们很多时候会以为,科学发现的过程像是卡通、故事中的那样,研究者经过几年埋头苦干,在某个天时地利人和的当下,对天大喊「Aha!我找到了(某现象、某理论、某关联)!」然后留下改变世代的研究成果与发现。
当然,这种故事可能在少数案例是真的,但大多时候,科学是一个集众人之力、不断自我修正、相互辩论,最后达到一个「趋近」真理的过程,过程中,可能会走岔路、会误判虚实、会自相矛对,这不代表我们必须对科学失望,相反地,我们应该为「发现错误与不足」感到欣喜,因为唯有诊断出现有的病灶,我们才能真正对症下药,从而将知识探索推向一个更正确的方向。
备注
注一:出版偏误(publication bias)意指,科学期刊倾向于发表有显着结果、成功验证假设的研究结果,而非无显着性、不支持假说的其他证据,造成学界充斥着过于正向的支持性证据,使学者难以权衡正负向证据、达成客观观点。
注二:Open Science Collaboration(2015)进行複製性研究的主题选自2008年刊登于Psychological Science (PSCI)、Journal of Personality and Social Psychology (JPSP)、以及 Journal of Experimental Psychology: Learning, Memory, and Cognition (JEP: LMC)的共100个研究
注三:「脸部回馈假说」(facial-feedback hypothesis)由美国心理学家William James提出,其假说认为脸部表情、肌肉的变化能导致心里情绪反应上的变化,例如,咬一支笔时,做出嘴角上扬的表情能让人心情感到快乐。
注四:促发效应(priming effect)指,藉由激发人们心中的某个概念,相关、类似的态度、信念、行为也会一同被激发。如,激发「热」的概念,会强化人们对温室效应的信念。
注五:自我耗损(Ego Depletion)理论认为,人的意志力(willpower)为有限资源,因此进行任何需要消耗心理能源的事之后,如自我控制、决策等,再从事其他作业的效能就会降低。例如,压抑自己想吃零食的欲望后,专心于解数学难题的毅力就会降低。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/188593.html
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/188593.html