心理学考研重点:测量的信度
来源 :中华考试网 2016-01-31
中测量的信度
第一节 什么是信度
一、信度的定义
信度又叫可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量的结果要保持一致,否则便不可信。信度只受随机误差影响。随机误差越大,信度越低。因此,信度亦可视为测量结果受机遇影响的程度。系统误差产生恒定效应,不影响信度。
在测量理论中,信度被定义为:一组测量分数的真变异数与总变异数(实得变异数)的比率。即,
(5.1)
式中rxx代表测量的信度,S 代表真分数的变异数, 代表实得分数的变异数,即总变异数。
根据公式(4.3),信度还可表示为
(5.2)
该定义有两点要注意: 1)信度指的是一组测验分数或一列测量的特性,而不是个人分数的特性。2)真分数的变异数是不能直接测量的,因此信度是一个理论上构想的概念,只能根据一组实得分数作出估计。
任何测验只能包含特定样本的题目,由特定的施测者,对特定的被式,在特定的时间、地点施测,情况不同便会得到不同的分数。信度涉及的主要问题是对测验分数的意义的概化能力,即从一次测量来推论总体(真实分数)能达到何种正确程度。
根据现代信息论,每组信息可包括一些真正信息(信号)和一些错误的信息(噪音)。为了提供有用的数据,任何测量必须有高的信号噪音比率——即提供更多真正的信息。信号可由真实分数的变异数表示,噪音可由误差分数的变异数表示。
信噪比与信度有如下关系:
信号/噪音= (5.3)
公式(5.3)并不难证明,将 代入上式的右端可得:
=信号/噪音
假如一个测验的信度为0.90,则信噪比为0.90/(1—0.90)=9.0即真正变异数对误差变异数的比率为9:1。
一个测验的信度只要稍微增加一点就会使信噪比大大改变。例如,信度从0.90增为0.91,可使信噪比从9:1,变为10.1:1。因此,即使一个相当可靠的测验也应努力改善其信度。
二、信度系数
大部分的信度指标都以相关系数表示,即用同一被试样本所得的两组资料的相关作为测量一致性的指标,称作信度系数。
与信度系数有关的一个概念叫信度指数,是实得分数与真分数的相关,这是部分与整体的相关,可用下式表示:
信度指数的平方就是信度系数,可用下列公式表示,
(5.4)
换言之,信度系数是实得分数与真正分数相关的平方。相关系数的平方表示两个变量间共有的变异数比例。因此,信度系数实际是真正分数与实得分数之间的决定系数。可以解释为在实得分数的变异数中有多少比例是由真分数的变异决定的。例如,当rxx =0.90时,我们可以说实得分数中有90%的变异数是来自真正分数的差别,仅有10%是来自测量误差,在极端例子中,如rxx=1.00,则无测量误差,所有的变异都来自真分数,若rxx=0,则所有的变异均反映了测量误差。
对信度系数也要注意三点,1)在不同情况下,对不同样本,采用不同方法会得到不同的信度系数,因此一个测验可能不止一个信度系数。2)信度系数只是对测量分数不一致性程度的估计,并没有指出不一致的原因。3)获得较高的信度系数并不是心理测量追求的最终目的,它只是迈向目标的一步,是使测验有效的一个必要条件。
信度系数达到多高才可以接受呢?最理想的情况是 rxx=1.00m,但这是办不到的。不过我们可用已有的同类测验作为比较的基准。一般能力与学绩测验的信度系数在0.90以上,有的可以达0.95,至于性格、兴趣、价值观等人格测验的信度系数,通常在0.80到0.85或更高些。当 rxx<0.70时,不能用测验来对个人作评价,也不能在团体间作比较,当 rxx="">0.70时,可用于团体间比较;当 rxx>0.85时,可用于鉴别个人。
由于信度系数总是在特定情况下获得的,因此只有当一个测验在很多情况下都被证实具有较高的信度时,才可以说它是比较可靠的测验。
三、信度与测验分数的解释
信度系数有两个实际用处:一是用来解释个人分数的意义,二是用来比较不同测验分数的差异.
(一)个人测验分数的误差
信度仅表明一组测量的实得分数与真分数的符合程度,但并没直接指出个人测验分数的变异量。由于存在测量误差,一个人所得分数有时比真分数高,有时比真分数低,有时二者相等。理论上我们可对一个人施测无限多次,然后求所得分数的平均数与标准差。在这个假设的分布里,平均数就是这个人的真分数,而标准差则为测量误差大小的指标。这在实际上是行不通的。然而,我们可以用一组被试(人数足够多)两次施测的结果来代替对同一个人反复施测,、以估计测量误差的变异数。此时,个人在两次测验中的分数差异就是测量误差。据此可制成误差分数的分布。这个分布的标准差就是测量的标准误,是表示测量误差大小的指标。
测量的标准误可用下式求出:
SE=S
这里SE为测量的标准误, 为所的分数的标准差, 为测量信度。从式中可以看出,测量的标准差与信度之间有互为消长的关系:信度越高,标准误越小;信度越低,标准误越大。
测量的标准误实际上是在一组测量分数中误差分布的标准差,可以象其它标准差一样地解释。因此,个人每次测量所得分数(X)有68%的可能性落在真分数(T)加减一个单位标准误(SE)的范围内,有95%的机会落在真分数加减1.96个标准误的范围内。图5—1表明实得分数在真实分数上的回归,以及距回归线一个标准误的平行线。
根据公式(5.6),知道了一组测量的标准差和信度系数就可以求出测量的标准误。进一步我们就可以从每个人的实得分数估计出真分数的可能范围,即确定出在不同或然率水准上真分数的置信区间。人们一般采用95%的或然率水准,其置信区间为:
(X-1.96SE)≤T≤(X+1.96SE) (5.7)
这就是说,大约有5%的可能性真正分数落在所得分数±1.96SE的范围内,或有5%的可能性落在这范围之外。这实际上也表明了再测时分数改变的可能范围。
例如:在一次测验中有些学生得80分,这是否反映了他们的真实水平?如果再测一次他们的分数将改变多少?已知该次测验的标准差为5,信度系数为0.84,将适当的数值代入公式5.6与5.7,并解之:
SE=5× =2
T=80±1.96*2=80±3.92=76.08~83.92
我们可说这些学生的真正分数有95%的可能性落在76与84分之间。即若再测一次,他们的分数低于76、高于84的可能性不超过5%。
(二)两种测验分数的比较
来自不同测验的原始分数是无法直接比较的,只有参照同一个团体的平均分数,将它们转换成相同尺度的标准分数,才能进行比较。
譬如某班期末考试,张生语文数学的成绩转换成T分数(平均数为50、标准差为10)分别为65和70,由此我们可以知道张生的数学比语文考得稍好些,但二者差异是否有意义,仍不清楚。为了说明个人在两种测验上表现的优劣,我们可用“差异的标准误”来检验其差异的显著性,常用的公式如下:
SEd= (5.8)
式中SEd为差异的标准误,SE1、SE2分别是两组测验分数的标准误,用SE1= 和SE2= 代入公式5.8可得:
SEd= (5.9)
这里S表示相同尺度的标准分数之标准差,Txx表示第一种测验的信度系数,ryy表示第二种测验的信度系数。
在上例中,假定此次语文,数学考试的信度系数分别为0.84和0.91,张生的两个分数转化成T 分数后,其差异的标准误为:SEd= 5
采取95%的置信区间(即.05显著水平),,则张生在这两门课上了分数的差异必须达到或超过1.96SEd=1.96×5=9.8,始能认为二者真有差异。因为数学的T分数只比语文高5分,所以差异并不显著。
用SE估计个人分数的误差要注意三点:1)一个测验有很多可能的信度估计,因而也有同样多的标准误估计,为此,我们要选择最适合某一特殊情况的信度估计来解决问题。例如倘若我们对半年内的分数稳定性感兴趣,我们就以六个月为时距施测两次的相关系数作为信度估计,依据此信度系数求出标准误,再用来估计在六个月内分数可能改变多少。2)这个估计假定SE在所有分数水平都一样,但有时高分段与低分段其标准误并不相同。上面所计算的SE实际是整个分数范围的平均测量误差指标。如果分数的分布近似正态,而且实得的分数不超过可能的全距,则测量的标准误差在所有分数水平上近似一致。3)测验上所得分数是一个人真正分数的最佳现成估计,但是,由于存在测量误差,所以它并不是个确切的指标。所得分数对真分数估计得如何精确,可以由SE的大小或间接地由测验的信度显示出来。因为在一般情况下,rxx<1.00,se>0,所以我们必须将测验分数看成范围或带状,而不要看成确切的点。这条带子有多宽将取决于测量标准误的大小,最终取决于信度系数。rxx越小,SE越大,这个范围便越广。若经常将分数想成是一个范围,我们在比较不同被试的分数,或同一个被试在不同测验上的分数时,就可以克服对分数间的微小判别作出过分解释的习惯。4)测量标准误是对测量误差的描绘,用它能对个人真正分数的置信区间作出估计,但用它来估计个人真正能力则可能导致严重错误,因为它没有考虑到系统误差的影响,真分数与真正能力是两个不同的概念。