对样本容量的依赖以及无法估计研究结论的可重复性、可推广性,是研究者对虚无假设检验提出的最为主要和尖锐的批评。虚无假设检验是运用反证法的思想,通过拒绝虚无假设H0来验证备择假设H1的真实性。一般认为在研究总体中虚无假设H0要么为真,要么不为真。从逻辑上来讲,虚无假设检验,特别是在心理学研究中不能运用这种“全或无”的准则。虚无假设H0不为真,只是在某种程度上不为真,研究结果是在某种程度上偏离虚无假设H0。效果量就是指虚无假设H0不为真的程度,实际上就是偏离虚无假设H0程度的一种指数。它反映自变量与因变量之间关系的强弱,是研究对象之间差异的大小、实验效应大小的真实程度、研究结果重要性指标。提出虚无假设检验新模式,将效果量作为虚无假设检验的重要补充,其作用和意义主要体现在:
第一,假设检验本身只能提供差异有无这种不确定信息,无法提供确定的差异大小,而心理学研究者不应仅为实验处理的实施提供统计学依据,更需关注某一实验处理相对于另一处理的优势有多大,从而为该人群的相关心理学问题提出解决办法和改进措施。虚无假设检验过分依赖样本,无法告诉研究者或读者实验效应的重要性、变量间关系的强弱、实验结果的实践意义等,显著性结论也并不等同于结论可重复性的测度。这些对于心理学知识的积累尤为关键,研究者也越来越意识到提供有关研究结果跨样本稳定性证据的重要性。由于基于显著性水平的估计总是高估了效应的真实大小,因而很多研究者否定将P值作为效应大小的直接测度,并已达成削减虚无假设检验的重要性及其在心理学量化研究中的地位,寻求补充可比较的、可测度结果重要性和可重复性的指标的共识,因此,一些学者及研究机构都相继提出使用效果量作为假设检验的重要补充,报告P值时应该同时报告效果量。效果量被视为“科学研究的最终目标”, 并且“在教育学和心理学研究中,没有什么比使用虚无假设检验时对结果的效果量进行估计更为重要”。
第二,效果量表示总体中变量之间的关系,是对因变量和自变量关系强弱的测度,对样本结论远离虚无假设的期望程度的量化。效果量不受样本的影响,是一种真实的存在。效果量在研究结果报告中甚为关键,可使读者完全理解研究的重要性,为读者提供评估观察效应或关系强度的足够信息。心理学研究在结论部分应该报告某一形式的效应指标或关系强度是有必要的,没有报告效果量应该作为研究设计或者研究报告的过失之一。作为一个成熟的研究领域,心理学研究结果的效果量应该比统计显著性结论显得更为重要。在实际应用中,效果量是决定统计功效、所需样本量的一个重要因素。不同的实验处理效果量不同。当效果量提高时,偏离虚无假设H0的程度越大,研究结果也就越接近备择假设H1为真。效果量和统计功效之间的关系是:在样本容量和α水平等其他因素都一定的情况下,效果量增加或减少,统计功效值也随之增加或减少,反之亦然。
第三,研究者应该测度的是效应大小,而不是统计意义上的显著性。效果量是研究应用性的指标,而P值仅是研究统计学意义上的显著性指标。因为从心理学角度来讲,统计意义上的差异是否真正有差异,绝不仅是由P值决定的,而取决于诸多因素。仅仅报告P值,目前暂无有效的统计工具可以决定研究结果对于读者日后研究是否有用或者重要,无法判断是存在真正意义上差异还是仅仅意味着统计学差异。P值过度依赖样本,不能估计研究结果的可重复性,只是对效应的一种混淆测度,相对小的P值并不能充分说明研究中自变量和因变量之间有很强的关系,对于心理学“理论发展毫无用处”,甚至“阻碍了心理学的发展”。 同时,P值是个随机变量,随样本不同而不同。比较两个不同实验或者同一实验中基于不同的变量所计算出来的P值,进而得出其一更为显著的结论是不妥的。
效果量因此显得重要,尤其是对于已得到显著性结论的研究而言。相对于P值,效果量可以提供研究结论更为确定的应用价值,若只报告P值而不报告效果量,会失去关键信息,无法获取研究结论的实际应用性价值的信息。虚无假设检验不能进行跨样本、跨研究的比较,其原因在于显著性结论中的P值只是个随机变量,随研究样本的变化而变化,不具有无标度(scale-free)的特性。而效果量指标具有无标度的特性,其大小通过计算标准化差异来估计,不管样本大小和变量的初始测度如何,它都可用来比较同一研究中不同变量的处理效应,也可跨研究地比较相同变量或者不同变量的处理效应,而效果量提供了效应大小的指标或者提供过去和现在研究的比较标准,跨研究的效果量比较可以提供研究结果的可重复性,可以确定效应是否稳定存在而非偶然发生,以帮助研究者确定后续研究的重要变量、特征。汤普森在解释报告效果量的原因时指出,报告效果量可以: (1)促进更高质量的元分析研究或者回顾;(2)可以促使后来的研究者设计更为明确的参数和结果期望; (3)有助于评估研究结果是否适宜于其他不同的研究背景,即研究结果和其他研究的相似之处以及研究中对于这种相似性或者差异性有所贡献的特质。对效果量的正确、合理的解释亦成为学者关注的问题。科亨提供了他所定义的“大”的、“中”的、“小”的效果量的标尺。他期望这些标尺主要用于研究对象是没有探索性研究的领域,这些标尺只是一个广义上的指南。并且他强调:若人们使用某一严格的效果量标准就无异于将统计显著性水平刻板地设定为0.05,二者是一样的愚蠢。至少对于已经进行过相关研究的领域而言,试图将效果量的相关区域用“大”的、“中”的、“小”的或者类似的描述性形容词来表达是不明智的。效果量的确定应该基于研究背景,研究的效果量在以后的类似研究中可以得到重复,在跨样本研究中相对稳定。当研究者观察重要的结果变量时,即使是非常小的效果量也可以是显著的。因此,很多学者建议应和先前相关研究文献中的效果量进行直接、明了的比较,“应该在先前研究报告效果量的背景下报告和解释效果量,这对于一个好的研究而言是重要的”。
|