|
经典测验理论是心理综合考研大纲中心理测量的考点
所谓测验理论通常指的是把心理学的观察结果进行量化的实际过程。其主要研究领域是能力、特质以及其他的认知因素的观察、测量、量化,统计分析以及误差估计。经典测验理论 (CTT)起源于斯皮尔曼(Spesrman)二十世纪初期的研究工作,至今已有八十多年的历史。在其八十多年的历程中, CTT虽然得到了很大的发展,并对测验的编制、使用起了一定的指导作用,但是,作为一种理论,CTT仍有很多不足之处。
下面我们对CTT存在的一些主要问题进行简单的探讨。
真分数理论
真分数理论的基本思想是把测验的得分,通常称为测验的观察分,看作为真分和误差分的线性组合。所谓的真分按照它的定义,指的是一个被试在大量的并进行测验中所得到的观察分的期望值。若以X表示测验的观察分,T表示测验所对应的能力或特质的真分,e表示测验的误差分,那么根据真分的定义即有:
T=E(X) (公式1)
因此真分数理论可以归结为如下的简单数学模型:
X=T+e (公式2)
将公式2代入公式1,即可推出:
E(e)=0 (公式3)
即误差分的数学期望等于零。
公式1、3仅对1个确定被试而言,因而式中的T是一个常数,X和e则是随机变量。需要指出的是;公式1、3是根据真分数的定义所导出的,不依赖于任何的假设。如果我们把上述模型推广到整个被试总体,那么T就成为一个随机变量了,而和e则都是随机过程,分别应记为X(T)和e(T)。对于T的每一个确定的值,X(T),e(T)则分别是一个随机变量。因而上述的公式1-3应表示为:
T=E(X(T)) (公式4)
X(T)=T+e(T) (公式5)
E(e(T))=0 (公式6)
上述的仅是理论模型,而在实际应用中并不可能对一个被试的某项能力或特质作大量的重复测量从而获得该被试此项能力或特质的真分。而人们希望能通过一次测验即获得相应的能力或特质的估计值。在这种情形中,公式(1,2)式中的x、T和e分别表示被试一次测验的观察分,真分和误差分。因而就整个被试总体而言,这三个量都是随机变量。然而在这种情形中,除非每一个被试的误差力极是独立的,同分布的,否则E(e)=0就不能成立。因而把
真分数理论模型用于这一情形,实际上就蕴含了这样一种假设,而这一点却往往被人们忽视。
真分数理论是建立在如下假设基础之上的
1.真分和误差分相互独立。
2.真分和观察分之间的关系是线性的。
3.不同测验的误差分相互独立。
4.不同被试对同一测验的误差分相互独立,同分布。
5.严格的并行测验是存在的。
尽管长期以来人们一直把真分数理论看作至少是对实际情形的一种有效的近似,但是自六十年代以来心理测量学家们发现该理论所赖以建立的假设与实际情形并不相符。齐默尔曼 (Zimerman)等人最早对真分和误差分相互独立的假设提出异议,他们认为:至少在多项选择测验中,真分和误差分是负相关的。其理由是,在此类测验中真分低的被试比真分高的被试具有更多的猜测,从而使得他们的观察分中包含更多的误差分。而卢斯顿(Lumsden)则认为,即使在自由回答的测验中,真分和误差分也是不独立的。试想一个由n个项目所组成的测验,不失一般性,我们假设测验项月都采用0,1评分。那么测验的最高分为0,最低分为0,于是真分为n的被试,他的误差分只能是负值,而对于真分为0的被试,其误差分则只能是正值。对于真分接近n或0的被试,其误差分也有类似的趋势。而对于真分为其他值的被试,则他们的误差分可能大于0,也可能小于等于0,因而真分和误差分相互独立的假设是不能成立的。当然,事实上真分和误差分之间的关系还要复杂得多。但至少关于真分和误差分相互不独立这一点,则为广大心理测量学家所接受。
除了真分和误差分相互独立的假设之外,心理测量学家们对真分数理论的其他假设也纷纷提出了怀疑。首先他们对真分和观察分之间的线性关系提出了异议。对此,劳德(Lord)和诺维克(Novick)进行了深入的研究,尽管他们本身都是这一假设的支持者,但是研究结果使他们不得不承认:真分和误差分之间的关系一般说来是非线性的。
从理论上讲把测验的误差分分解为系统误差和随机误差是合理的。系统误差主要来源于测验材料,具体地说就是我们通常所指的项目偏差(Item Bias);而随机误差则主要来源于测验环境与被试的情绪、态度、期望等因素的相互作用,所以在这方面个体差异显然是存在的。因而真分数理论关于不同被试的误差分独立同分布的假设一般是不成立的,至少在严格的意义上不能成立。在实际的测验情景中,人们经常可以发现能力强的被试在各次并行测验中表现得比中等能力或下等能力的被试更为一致和稳定,显然这种一致性也是随能力而变化的关于不同测验的误差分相互独立这一点至少对并行测验来讲是不能严格成立的。因为只要测验的环境没有明显的变化,则两个测验的误差分很可能是相关的。至于严格定义的并行测验则仅是一种理想的测验,在实际上是无法实现的。况且即使两个测验真是严格的并行测验,被试在这二个测验中的表现也下可能是完全一样的。
综上所述,我们不难发现真分数理论赖以建立的各种假设都在不同的程度上存在着一定的问题。因而真分数理论的有效性在很大程度上就依赖于其模型对于实际测验违反模型假设时的稳定性。但事实上真分数理论模型的稳定性并不理想,只有当一个测验是由大量的测验项目所组成,并且这些测验项目的难度和区分度都大致相同时,模型才是稳定的。但事实上人们实际使用的各种测验远不能满足这些条件。其直接的后果是导致了测验结果的不可靠。因而卢斯顿认为;我们不需要真分数理论。
信度理论
信度理论在CTT中一直占有重要的地位。根据定义,测验的信度系数即为测验的观察分与相应的真分之间的相关系数之平方。然而由于构造严格的并行测验之困难以及友分的无法精确估计,测验的信度一般无法七精确估计。于是心理测量学家转而寻求其他的近似估计方法,从而导致了各种各样的信度系数:如稳定性系数,亦称重测信旺,相似系数,即两个等价测验得分之矩积相关;内在一致性系数,如二分信度、S—B系数、K一R20系数等都同此类。信度系数名目繁多,结果互不一致而且概念混乱,如所谓的同质性,可重复性,内在一致性,单维性等。直至1977年格林(Green)试图澄清这些概念之间献混乱,但仍然未能成功,最终他认为:之所以造成这些概念混乱之最根本原因是这些概念所涉及的信度系数各不相同。然而特威利奇(Terwtilige)和莱利(Lele)则认为同质性和单维性是等价的,他们所提的是同一概念,即测验所测量的能力或特质仅有一个公因子。而内在一致性指的则是测验项目之间的内在联系,内在一致性好的测验不一定是单维的或同质的,它们是两个不同的概念。
从根本上讲,信度系数的作用主要有三,即:
1.为测验使用者提供选择测验的依据,并证明测验的使用是合理的。
2.用于通过线性回归由测验观察分对相应的真分作出估计
3.用于高信度测验之效度衰减的校正。
然而事实上测验信度并未能真正起到这些作用。首先,我们有更好的选择测验的依据,即测验效度。有证据表明,根据测验信度来选择测验,事实上其结果并不理想。我们已经知道在其他条件,如项目难度,项目区分度,项目相关系相同的条件下,长测验总比短测验要好。至于第2点则是建立在真分和观察分之间的线性关系基础之上的,而事实上—我们已经知道,在大多数情况下真分和观察分之间的关系是非线性的,因而用线性回归采对真分进行估计则会产生较大约估计误差,同样根据测量的标准差所确定的估计值的置信区间亦会产生较大的误差,因为误差分的标准差和真分也是不独立的。正如卢斯顿所言:测验信度最好是被看作一个更为广泛的问题的一部分即测验究竟在何种程度上反映了该测验所要测量的能力或待质。如果理解了这一点,那么就不难发现无论真分数理论还是信度理论都无助于解决这个问题。至于测验效度衰减的校正则更成问题。因为校正需要除以信度系数的平方根,而几乎所有的信度系数(可能重测系数例外)的估计值都是偏小的,而且有时是明显地偏小,因而校正往往会使效度系数大于1,这显然是不合理的。
除此之外,各种估计信度系数的方法都还有一个共同的缺点,即所求得的信度系数都依赖于一个特定的测验情景,即所用的被试样本和测验项目样本。因而如果把同一个被试的测验结果分别同二组不同的被试的同一测验结果一起进行估计那么将会得到两种不同的真分和两种不同的估计误差。这不仅是信度理论而且也是CTT的一个致命弱点。任何依赖于被试样本的数量化理论和方法都无助了解决这个问题。
其实,如果采用估计误差这一统计量的话,所有信度系数希望解决的问题部可以被解决。因而卢斯顿认为:信度系数以及由此派生的各种统计量并没有什么实际价值。我们不应用它们来选择测验,估计真分以及校正效度的衰减,这些问题完全可以用其他更好的方法来解决。
概化理论
为弥补真分数理论及信度理论之不足,克朗巴赫(Cronbach)等人于1972年提出概化理论(generalizability theory)。该理论认为,测验的观察分仅是可获得的观察分总体中的一个样本因而测验的编制出版者有责任说明他们对这个观察分总体是如何认识的。这包括指定这个总体的维度以及各维度的水平数。只有在这种情况下,测验的编制者才能声称该测验的若干版本是并行的,并且在可获得的观察分总体中,各种主试者只要经过一定的训练就可在限定的条件下(如时间、地点等)使用该测验。在一个具体的测验情景中,如一个特定的场合、由一个特定的主试、运用测验的某一个版本、对一个特定的被试进行测验所获得的观察分和该被试的总体分,较该被试在各种不同的主试的主持下在各称不同的时间,场合对该测验的所有并行版本进行测验所可能获得的全部观察分的期望值,一般来说总是不同的。因而克朗巴赫认为:在指定了可获得的观察分总体之后,测验的编制出版者就应该对该测验进行概化研究(G.Study)。
概化研究的目的是为了求出一个测验在各种不同的变量(如时间,主试类型、版本、被试,测验环境等)在各种不同水平下的测验得分的方差,通过这些方差就可求出该测验的概化系数,即该测验的总体方差与该测验在某一特定情景中所可能获得的观察分的方差之比。当有了这些概化系数之后,测验的使用者就可以从测验的观察分通过线性回归的方法求出相应的总体分。
克朗巴赫提出的总体分事实上也并不是什么新的概念,它和真分基本上是差不多的,只是更加具体化。而概化系数也和经典的信度系数极其相似。从理论上讲,它确实是比信度系数更优越,因为它毕竟考虑到了影响测验结果的各种因素。但在实际上却是不可行的。因为概化研究是建立在大量重复测验基础上的,而该理论的创导者则忽略了多次重复测验会对被试测验结果所带来的影响以及被试之间的交互作用可能对下次测验的结果所带来的影响,这些影响既不能排除又无法确切估计;况且进行概化研究需要进行如此之多的重复测验,这对测验编制者来说无论在时间上、精力上还是财力上都是无法承受的。退一步讲,即使求出了概化系数,则该系数的可靠性也是没有保证的,即使它的可靠性是好的,那么用它通过线性回归求得的真分也未必可靠,因为事实已经证明,真分和观察分之间为关系并不是线性的。因而卢斯顿认为:概化理论不仅反映了该理论的创导者想象能力的贫乏,而且还反映了该理论在逻辑上以及统计上的水平低下。罗兹布 (Rozeboom)则认为:概化理论所指的可获得的双察分总体仅在理论上存在,而在概化研究中,要得到如此众多的样本实际上是不可能的。而卡笛宗探(Cardinet)则反对在教育测验中进行极化研究,他认为在教育测验中影响测验结果的变量和进行典型的概化研究的变量并不相同。
强真分数理论
真分数理论的各种不足使心理测量学家们认识到;为了保存经典的真分数理论而对其模型作各种修补已经是不值得了,应该转而去寻求更合理的测验模型并建立新的测验理论。强真分数理论正是在这种背景之下应运而生的。强真分数理论的核心就是对真分的分布及其与测验观察分的关系作出一定的假设。在此基础上如果能从观察分的分布中推导出真分的分布,那么根据所假设的观察分与真分的关系就可由观察分对真分作出估计。
强真分数理论抛弃了经典真分数理论关于真分数线性模型的各种假设,从而避免由此所引起的各种问题。然而它对真分、观察分的概率分布及两者之间的关系作了更强的假设,在一定程度上增加了该理论的主观性及不确定性。但它较经典的真分数理论来说,无疑是进了一大步,因为它已认识到真分与观察分之间关系的复杂性,并试图采用更先进的统计分法。虽然由于技术上的原因该理论没有得到发展,但是它却促进了项目反应理论(IRT)的发展]。它在经典测验理论到项目反应理论的发展过程中起到了一种桥梁作用。
经典测验理论的其他不足之处
除了前面所提到的,CTT还有一些明显的缺点。首先,CTT用于编制测验的一些项目统计量,如项目难度和项目百分度都是与求得这些多数所使用的被试样本密切相关的。被试样本的平均能力水平和能力范围对这些统计量的估计有很大的影响。正如劳德和诺维克所说的:这些统计量只有在用它们所构造的测验的使用对象和求得这些统计量的被试样本十分相似时才是有用的。而且CTT的其他统计量也大多存在同样的问题。其次,经典测验对被试的某项能力或特质水平的估计值只有当所有被试所用的都是同一个或并行测验时才是可比较的,而对于同一能力或特质的不同测验的测验结果则无法直接进行比较。而且,事实上大多数能力或成就测验仅对中能水乎的被试是合适的,而对两种极端能力水平的被试的能力则不能提供可靠的估计。第三,经典测验理论不能提供不同能力水平的被试对各测验项目的正确反应概率,而这一概率在适应性测验中则是十分有用的。第四,CTT设有提供测验设计偏差项目鉴别,测验等同化这些方面系统而有效的手段和方法。
CTT之所以存在这些缺点的原因是多方面的。首先是它的理论基础不可靠,这一点前面已经讲得很清楚了。其次在于它的弱假设。尽管弱假设可以扩大理论的应用范围,但是弱假设也导致某些重要条件的缺乏,如测验的单维性等,从而给测验结果的评价带来误差。正如麦克纳马(McNemer)所指出的:测量意味着在一个时刻对一种特性进行定量,量化的测量分数只有在它仅涉及一种特性时才是有意义的。只有在这种条件下我们才能够说,相同的测量分数或等级在相应的特性方面是等同的。第三, CTT把调验分数看作是一个连续变量,其分布是用固定的均值和方差所描述。但是在绝大多数情况下测验分数是一些二值或多值变量的函数,其统计特性远比CTT所设想的要复杂得多。而卢斯顿则认为CTT把测验对象看作如长度、重量之类的连续且无限的对象,因而它的模型也只在处理这变量时才是有效的,但事实上它所面临的则是能力和特质。
尽管CTT有这样那样的缺点,但几十年来人们对它的研究热情则经久不衰,而且事实上它仍不失为一种有用的理论,无论在测验的编制和使用中它也还是有一定作用的。正是通过对CTT的深入研究,测验理论才得以迅速地发展,项目反应理论也是在此基础上产生和发展的。
根据许组蔚的《项目反应理论及其在测验中应用》改编
|