对IRT模型拟合的评价

Report
赵守盈
贵州师范大学 http://www.zhao1818.net
项目反应理论模型应用中须注意的几个问题
问题一:对IRT模型假设的评价

单维参数IRT模型有一个非常重要的假设
 检验这一假设是否得到满足的方法之一是对项目
做主成分分析,考察特征根值的相对大小。探索
性因素分析常用特征根的值大于1这一标准来确定
因子个数[2](Loeh Lin,1987),但在IRT应用中,
即便是特征根大于1的因子有多个时,依然可以认
为单维性假设成立。
 确定因子数的另一种方法是考察特征根碎石图,
这种方法是通过特征根的值迅速下降,曲线降转
变为平缓线型的节点来确定因子数目。
问题一:对IRT模型假设的评价

例如,对一30个项目的测验进行主成分分析,
发现特征根大于1的因子有5个,不过第一因
子的特征根(13.37)明显大于其它4个因子
(1.6,1.5,1.4,1.1),而且30个项目中有
29个项目在第一个因子上的标准化因子载荷
大于0.35,分布区间为0.28到0.81之间,平均
载荷值为0.65,根据这些观察结果即可以断定
该测验为单一维度,满足IRT的单维性假设。
问题一:对IRT模型假设的评价

这就是说可以综合考察特征根的大小,第一因子
各项目的载荷值分布范围以及各项目在第一因子
上的载荷值大小来确定IRT单维性假设是否得以满
足。同样,对于几个拥有二阶因子结构的项目组
来说,如果所有二阶因子都在同一个高阶因子上
有较大载荷值,也可以认为单维性假设得到满足,
当不能确切判断单一维度假设是否满足时,考察
IRT模型的分析结果是否因为违背单维性假设而出
现异常就变得非常重要(比如,是否存在1个或
多个区分度特别低的项目)。此外,如果将项目
的反应结果看作连续型数据不合适,最好采用分
类数据探索性因素分析技术。
问题一:对IRT模型假设的评价

IRT模型的第二个假设就是局部独立性
 这一点从技术层面讲也属于单维性假设,要求除
了与测量的目标之间的关系,项目间不应该有另
外的系统性共变,否则就称为项目间存在局部依
存关系(LD)。
 局部依存的潜在源头是项目有相同的题干(如,
所有项目都涉及身体疼痛,经历等),项目拥有
非常相似的内容或者项目循序出现等。
问题一:对IRT模型假设的评价

IRT模型的第二个假设就是局部独立性
有学者编制了检验二值计分项目局部依存的软件[6](Chen &
Thissen,1997),但检验多值计分的项目依存性合适性软件还没有。
检验多值计分项目依存的替代性方法是验证性因子分析,在验证
性因子分析中,如果单一因子残差矩阵有过量的共变,则预示存
在局部依存,仔细考察这一残差矩阵或者观察与单一因子分析结
果对应的模型修正指数即可发现是否存在局部依存。
 除此之外,IRT的分析结果也可以提供一些有用信息。对于短量表
来说,这些做法尤其有效。如果存在局部依存,就会衍生新的测
量的目标变量。如果两个项目存在高的局部依存,则这两个项目
的区分度就会显著大于其它项目,在这种情况下,应该将其中一
个项目删除,再重新进行IRT分析。参数IRT模型应用中涉及的最基
本假设之一是模型必须适用于数据。对这一假设进行检验涉及模
型的选择和模型拟合分析问题,接下来对这两个问题做详细讨论。

问题二:选择恰当的IRT模型

对于二值计分的项目来说,单参、双参以及三
参逻辑斯蒂模型均可用,对于多值计分项目来
说,各种部分计分模型[8-12](PCM,Masters,
1982; RSM, Andrich, 1978a, 1978b; GPCM,
Muraki, 1992, 1997),等级反应模型[13, 14]
(GRM,Samejima,1969,1997)以及称命模型
[15](Bock,1972)均会用到,其中等级反应模
型常用于顺序性反应项目,称名模型常用于无
确定性顺序反应项目。
问题二:选择恰当的IRT模型

Rasch 模型也是常用的IRT模型。Rasch模型的独到特点是
假定所有项目与作为测量目标的潜在特质之间存在相同的
相关关系,因此,所有项目的区分度参数相同。不管是二
值计分还是多值计分项目,选择模型时必须考虑的一个重
要问题就是是否将区分度参数释放的问题,也就是是否允
许不同的项目有不同的区分度。如果要释放项目区分度参
数则应该选择除Rasch模型之外的其它IRT模型,如果不释
放区分度参数则Rasch模型更为合适,因为这一类模型更为
简约,因而其运算优势也较为明显(比如,Rasch模型软件
可以更为丰富的分析结果,而且直接给出模型拟合的分析
结果)。不过,因为对项目区分度做了限定,即要求所有
项目的区分度相同,所以Rasch模型在精确反应数据信息方
面存在一定局限。
问题二:选择恰当的IRT模型


除了项目区分度参数的释放问题,对于二值计分的项目来
说还应考虑其猜测参数问题,这一问题通常是出现在学业
测量中。当然,在学业测量之外也有人考虑过这一问题[16]
(如,Reise & Waller,2003),但由于其解释较为模糊,所
以使用并不普遍。
对于多值计分项目,称名模型适用于对项目的作答无具体
顺序性的情况,比如,在健康研究领域,对项目的反应多
为多个类别且有一定的顺序性,因此,不管是GPCM(或者
是Rasch模型中的PCMS)还是GRM都是适用的模型。在这两
类模型中做进一步选择通常取决于研究人员的偏好或者研
究人员对这两种模型软件的熟悉程度。(PARSCALE分析
PCM模型更为容易,MULTZLOG更适于GRM模型)。运用
TESTGRF软件[17](Ramsay, 1995)生成项目的描述图对于
确定适合数据的恰当IRT模型也能提供一些有用的参考信息。
问题三:对IRT模型拟合的评价


所有IRT模型的应用都是基于模型正确这一基本假设,IRT模型
的应用价值依赖于其对于数据信息反映的程度。在对IRT模型
与数据的拟合分析中,期望有一种诊断性工具来评价模型与
数据拟合的程度,模型的拟合可以通过比较模型预测结果与
被试的真实作答结果之间的差异大小进行分析,已经有多种
方法来实现这一思想。
对模型总体拟合情况进行直接评价存在很多挑战,也很少使
用。不过,对IRT模型与数据之间的拟合进行相对性评价运用
较多,其公式如下:
 零模型的似然值 
D  2 log 

 备选模型的似然值 
D 2  作为零模型的对数似然值- 作为备选模型的三参数模型的对数似然值 
问题三:对IRT模型拟合的评价

这一评价是通过对嵌套模型进行对数似然比计
算实现的,这一统计量符合x2 分布,例如,
检验2PL和3PL模型对一组项目的相对拟合情
况,可以检验其差异的显著性,其公式如下:
D 2 作为零模型的对数似然值- 作为备选模型的三参数模型的对数似然值

,其D统计值符合x2 分布,其自由度等于两个
模型参数的差异。如果分析结果达到显著水平
则认为3PLM对数据的拟合度更好。
问题三:对IRT模型拟合的评价

除了对模型与数据的总体拟合情况外,还可以评
价每个项目的拟合情况,对于Rasch模型来说,
由于观察分数可以作为被试能力水平θ的统计值,
各分数组的模型预测的比例也可以直接与实际观
察的结果进行比较,所以,Rasch模型的项目拟
合统计量的建构相对容易,到目前,研究者已经
提出了多种用于检验Rasch模型下项目拟合优度
的统计量[18-22](Anderson, 1973; Glas, 1988;
Rost & Davier, 1994; Wright & Mead, 1977; Wright
Panchapakesan, 1969),这些统计量在Rasch模
型专用软件包的分析结果中也大多可以得到。
问题三:对IRT模型拟合的评价


目前,研究者也构建了多种针对2PLM和3PLM的项目拟合优度统计
量,因为对于这两种模型来说,被试的能力为潜在变量,模型预测
的答对比例作为能力水平的函数,通常不能直接与观察数据进行比
较,所以这些统计量的建构就复杂得多。
有些针对二值计分项目的2PLM和3PLM的项目拟合优度是按照这样
的思路建构的:以基于模型估计的能力水平对被试进行分组,然后
计算各组的观察结果以及模型预测结果,并将这两种结果的差异作
为项目拟合优度的统计量,Yen的Q1 [23](Yen,1981),Bock的x2
[24](Bock,1972),以及McKinLey和Mill[25](1985)在Yen的基础上
提出的似然比G2 统计量都属此类项目拟合优度统计量,当项目数
多于20个时,BiLOG软件分析结果中会给出这些统计量,但在对这
些统计量进行解释时必须谨慎,因为其I类错误有被放大的倾向。
问题三:对IRT模型拟合的评价

近年来有研究从另外角度提出来了一些新的项目
拟合优度统计量[26, 27](Orlando &Thissen, 2000;
2003),这一统计量只针对二值计分的项目,以
各总分组被试模型预测和实际观察的答对频数与
答错频数为基础来计算,这一基于总分的方法构
建了两个新的统计指标:S- x2 (Pearson x2 值)和SG2 (似然比统计量G2 )。但针对多值计分的以似然
方法为基础的项目拟合优度指数的算法还在研究
过程中(Bjorner等)。虽然这些项目合优度统计
量在部分商用软件中还不能计算,但研究人员对
这些统计量的兴趣越来越强,已经开发出了免费
的计算S- x2 的软件。
问题三:对IRT模型拟合的评价

也有研究者提出了用图形直观呈现项目拟合情况的方
法,这些图形往往与项目拟合的统计指标结合使用,
或者作为项目拟合情况的初步诊断。Hambleton和
Swaminathan[28](1985)提出了一种通过图形直观比较
各能力组被试在项目的平均观察表现与模型预测表现
的方法。Wainer和Mislevy[29](1990)提出了与之相似的
另一种图示方法,他将观察数据和描线结合在一起构
建项目拟合情况直观图。Kingston和Dorans[30](1985)
将项目作答结果与能力水平的回归曲线作为判断项目
拟合情况的工具。也有研究者以后验概率分布为基础
构建项目拟合情况图[31, 32](Drasgow等,1995,
Mislevy和Bock,1986)。
问题四:对测量工具进行评价的样本量要求


就样本大小来说,虽无确定性的要求,但也有一些一
般性论述和指导性原则。
首先,模型参数越少,对样本量的要求也越小,模型
越复杂,需要的样本量越大,有研究者认为,要得到
稳定的参数估计量,样本量不能少于100(Linacre,
1994,建议对于最简单的Rasch模型来说,至少需要
50个样本)。Tsutakawa和Johnson[33](1990)建议,要
使模型参数得以精确估计,样本量应该接近500,不过,
有其他学者建议有200个观察样本或者再少一点都可以
[34, 35](如,对于DIF的检验,Qrlando & Marshall, 2002;
Thissen, Steinberg & Gerrard, 1986)。
问题四:对测量工具进行评价的样本量要求


其次,样本量越大,IRT 的项目参数和被试分数的估计就越精确
(标准误更小),这意味着参数估计的目的是一个值得考虑的问题。
对于不同的问题和不同的目的,对精确度水平的要求也不同。例如,
如果以评价问卷质量为目的,则不需要太大的样本量。但如果是以
获得被试在一个问卷上的精确IRT分数为目的,或者是为建设题库
对项目进行校准,则需要较大的样本量。
另外一个值得考虑的问题是被试样本的能力(潜在心理特质)分布,
较大的同质性被试样本不能够反映被试总体的特征,所以只能获得
潜在特质某一有限区间范围内得到参数的精确估计结果。从理论上
来说,被试的能力水平(潜在特质)在这一区域范围内应该呈均匀
分布,落在能力(潜在特质)分布两边较为极端位置的项目,如果
这一位置的被试较少,项目越满足IRT的单维性假设及条件独立性
假,而且难度水平也存在一定的差异,则需要的样本量就越小。
问题四:对测量工具进行评价的样本量要求

另外,项目得分与作为测量目标的潜在特质之
间的相关也是一个重要问题,如果相关较弱则
需要较大的样本量[36](Thissen,2003)。还有,
项目的反应类别越多,则待估计的项目参数也
就越多,需要的样本量也就越大。在理想情况
下,项目的各种作答结果上都应该有被试,不
过,在实际情况下,这一点很难得到满足,至
少是要求项目的各个反应类型都有被试选择,
这样才能保证IRT模型的各个分析指标及项目
参数得以全部估计。

similar documents