国内外心理学研究在使用虚无假设检验时存在诸多的问题和错误,我们认为其原因主要有以下几点:
第一,心理学研究对象的特殊性。心理学的研究对象是人,是人的心理特质、心理现象,具有间接测量性、不可重复性。由于人具有学习能力及成长性,所以相对于其他自然科学实验,心理学研究的重复性、被试的选择等难度更大。对这种特殊的研究对象,虚无假设检验的使用亦应有其特殊性,并关注其可重复性,为后续研究提供借鉴。
第二,对心理学研究目的认识不足。心理研究工作者考虑了实验因素的可控性、取样的方便性,但研究目的仅停留在实验组和控制组之间、各因素及因素各水平之间是否存在差异,是否获得统计上的显著性差异。他们未意识到差异的大小所提供的信息才是真正的研究目的,① 导致研究成果与实际应用之间脱节。
第三,虚无假设检验方法应用中存在问题。尽管大部分研究者都意识到统计方法的重要性,认可统计分析方法在心理学研究中的地位和作用,并大量使用虚无假设检验。但是,学术刊物对心理统计学、心理测量学等基础方法学研究领域并不重视,未强调统计方法应用的科学性要求,加上对统计软件的依赖,使很多心理学研究者对心理统计学、心理测量学原理不求甚解,忽视各类虚无假设检验方法的使用前提,将统计分析方法直接引入各种研究过程。
第四,抽样缺乏科学性。抽样必定伴随着误差,误差有随机误差和系统误差之分。心理学研究者将样本异质性视为随机因素,将样本异质性产生的误差视为随机误差。实际上,样本异质性产生的误差应包含随机(异质性)误差和系统(异质性)误差。其中,随机异质性是指被试之间能力、心理特质的异质性,包括被试的天赋水平和努力程度等影响因素。系统异质性是指不同被试群体之间的异质性,包括被试所处的地区、民族、家庭背景、学校背景以及教育经历等影响因素。随机异质性和系统异质性共同影响样本异质性,所以抽样时应同时考虑二者。目前,由于人、财、物等因素以及取样的困难,心理学研究常进行方便抽样,采用学生样本。发表的心理学研究论文常采用诸如“在某高校随机抽取学生××名”、“在某地区随机抽取被试××名”等被试选取方案,用以研究大学生或者其他群体的某一心理现象。这种做法将不同被试群体之间的异质性纳入到统计模型中。然而,统计方法处理的是随机误差。因此,无形之中就将样本异质性视为随机因素。
鉴于以上几点,在心理学研究中使用虚无假设检验等统计分析方法需慎之又慎。自20世纪70年代开始,一批心理统计学、数理统计学等领域的国外学者,对虚无假设检验展开了检讨并提出批评。科亨(J.Cohen)、尼克尔森(R.S.Nickerson)、汤普森(B.Thompson)和科克(R.E.Kirk)就是其中较为典型的代表。
心理统计学家科亨在20世纪90年代发表了一篇颇有影响力的文章,引起了心理学研究者的广泛关注。他指出,在经历了40多年的批评以后,虚无假设检验仍然坚持约定俗成的0.05的决策标准,其原因主要在于研究者普遍错误地将P值认作是虚无假设错误的概率,其余数是研究结果可以重复的概率。
尼克尔森认为,虚无假设检验在心理学等社会科学中的使用如此广泛却遭致争议,其主要原因在于研究者混淆了绝对概率和条件概率,对虚无假设检验存在错误理解、错误使用,主要包括:拒绝虚无假设H0,则意味着指导虚无假设的理论是错误的;小的P值是结果可重复的证据;统计显著性意味着理论上或实际应用中的显著性;某一实验设定的α值是解释实验结果时即将犯Ⅰ型错误的概率;未能拒绝虚无假设H0等同于论证H0为真。当然,尼克尔森认为,只要使用得当,虚无假设检验仍不失为解释心理学等实验数据的有效手段和方法。
汤普森则认为虚无假设检验存在不足,主要体现在:(1)过分依赖样本;(2)一些比较(如P值总是和0.05这一显著性水平相比较)具有荒谬性;(3)一些无法避免的窘境,如拒绝虚无假设H0并不等同于接受备择假设H1、一分为二的决策标准、统计学意义上的显著性和实际应用或临床显著性的区分等。科克亦认为虚无假设检验: (1)并没有告诉研究者所想要知道的结果。在科学推断中,研究者所想要知道的是在获得当前数据的前提下虚无假设H0为真的概率,即P (H0/D) (D表示当前数据data);而虚无假设检验能够告诉研究者的是在总体中虚无假设H0为真的前提下获得当前数据的概率P (D/H0);(2)只能提供拒绝错误的虚无假设的统计功效,而拒绝虚无假设只是意味着没有找到明显地拒绝虚无假设的证据,并不意味着虚无假设就代表了世界真实的状态;(3)把确定—不确定这一连续体变为二元的拒绝或接受的决定。在这种二元决策思想的指导下,可能仅因为实验设计上存在微小差异,而导致研究者会对同样的实验效应做出截然不同的结论。因而,二元决策标准使绝对P值这一连续的比率变量简化为二元称名变量,导致信息丧失,无法提供不确定程度的信息,直接影响对某一研究成果的正确、合理的解释,甚至会阻碍心理科学的进步。
总结心理统计学者对于虚无假设检验的批评与反思,至少在以下方面已达成一致。 第一,虚无假设检验对样本容量的依赖性。同一检验,样本容量大的所提供的自由度也大。无论自变量的影响如何,相对于小样本,大样本更容易拒绝虚无假设,得到统计显著性结论。由于世间万物或多或少地存在差异,所以“无差异”的虚无假设在现实世界中是不成立的。只要样本容量足够大,就会有足够的统计功效拒绝虚无假设,得到显著性结论。虚无假设检验也因此成为了“使研究者受累”的“体力劳动”。第二,显著性结论的不确定性。有学者认为有七个因素会影响虚无假设检验的结果,其中有两个尤为重要:效果量和样本容量。汤普森指出,在某一研究中计算出来的P值是许多研究特质的函数,但尤其受到样本容量和研究效果量的联合影响。 因此,检验统计量、效果量和样本容量的关系表达为下式:
检验统计量= 效果量× 样本容量(1)如公式(1)所示,统计显著性结果可能由大样本或者大效果量产生,无需同时满足。其他条件相等的情况下,实验设计或处理对因变量的效应越大,所产生的检验统计量越大。效应很小时,使用大样本,也极有可能获得统计显著性结论,反之亦然。因此,样本容量、效果量二者的角色在虚无假设检验中无法截然分开,实验效应和样本大小的交互关系难以理解,无法断定是否存在真实的效应。统计显著性结论也因此具有不确定性。 第三,统计显著性不等于结果的可重复性。虚无假设检验所计算出来的P值,表达的是总体中虚无假设绝对为真的前提下,所获得当前样本数据的概率。统计推论的方向不是由样本推断总体,而是由总体推断样本。 这并不是研究者所期待的,研究者希冀虚无假设检验可以评价总体、推断总体。这就可以推测以后的研究者从同一总体中抽取样本所得的结果。唯有产生对总体的推断才可提供关于研究结果是否可以重复的信息。由于虚无假设检验的显著性结论不能检验总体,因而不能提供结果的可重复性。然而,很多研究者并没有真正理解虚无假设检验的这个逻辑。由于显著性结论成为大部分心理学杂志接受或者发表论文的标准之一,并且研究者惯性地认为虚无假设检验探讨的是样本之间的差异,提供的是关于研究结果的重要性或可重复性,以致在虚无假设检验的应用上,长期完全依赖P值来做出判断。对P值的过分强调,实际上会使研究者偏离研究目标———决定数据是否支持所提出的科学假设,并且确定研究成果在实际应用中的重要性、有用性。这种将统计意义上的显著性等同于实际应用或临床应用上的显著性,是心理学研究者中存在的一个普遍错误认识。研究者认为小的P值比大的P值具有更强的实际效应,所以常使用不同个数的星号或者“显著”、“非常显著”、“极其显著”的字词来标识。P值是用来检验样本统计量的概率,是虚无假设为真时结果发生的概率。P值实质上是一随机变量,混淆了样本容量和效果量的效应,只有在样本容量一定的情况下,才可以得出结论:P值越小,效应越大。总之,虚无假设检验直接估计的是样本的可能性而非总体的可能性,没有估计结果可重复性的概率,而可重复性对于心理学知识的积累以及研究成果的科学性、可推广性尤为重要。
|