累进效度及辩论_第1页
累进效度及辩论_第2页
累进效度及辩论_第3页
累进效度及辩论_第4页
累进效度及辩论_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章累进效度及辩论

(三)教学目标了解实施环节的基本概念、焦点问题及证据来源了解项目反应理论的基本原理了解WinSteps软件的功能和使用方法了解WinFacets软件的功能和使用方法实施效度基本概念:测试真实性;答题行为分析方法;项目反应理论焦点问题:考生反应的相关性、真实性、交互性证据来源:考生答卷、调查问卷;监考须知、监考步骤、监考记录;答题过程的调查、访谈等基本概念测试真实性(Authenticity):答题过程体现实际语言使用的程度真实生活任务(Real-life

tasks):日常生活中有可能碰到的活动,通常不受课程教学内容的约束语言教学任务(Language

instructional

tasks):课程教学活动,亦可与日常生活相关答题行为分析方法(Response

Analysis

Methods)观察法(Observation)、问卷调查法(Questionnaire)、访谈法(Interview)内省法(Introspection)、反省法(Retrospection)、有声思维(Think-Aloud)眼动跟踪(Eye-tracking)项目反应理论(Item

Response

Theory,IRT)理论模型单参数:1PL-One-ParameterLogisticModel,难度(b)双参数:2PL-Two-Parameter

Logistic

Model,难度(b)和区分度(a)三参数:3PL-Three-Parameter

Logistic

Model,难度(b)、区分度(a)和猜测概率(c)多维度:

Many-Facets

Rash

Model,影响成绩的多个方面,如评分员、评分方法、话题类别等数值类型二项值(Dichotomous):0和1,分别表示答错和答对多项值(Polytomous):非0-1值,用于等级量表(RatingScale)和部分得分(PartialCredit)模型。每个值项表示一个类别,代表量表中的等级(始于1),或满分中的任一部分分数(始于0)考生能力与项目难度

Items

PersonscialbhkdfjegAbilitypqLn(p/q)N111111111111121.000.00J11101111100180.730.270.98C11111110011080.730.270.98E11011110110070.640.360.56L11011110111080.730.270.98I11111101000060.550.450.18F11111101001070.640.360.56K11110010100050.450.55-0.18A11111100000050.450.55-0.18G11110010100050.450.55-0.18D11110001000040.360.64-0.56B11100001000030.270.73-0.98H10110000000020.180.82-1.50M00000000000000.001.00Facility1311101077655331

p1.000.920.830.830.580.580.500.420.420.250.250.08q0.000.080.170.170.420.420.500.580.580.750.750.92Ln(q/p)

-2.40-1.61-1.61-0.34-0.340.000.340.341.101.102.40

Log

odds(比余对数)比率与其余数之比的自然对数inoutoutExtreme

casesUnexpected

responses百分比到比余对数集中趋势(central

tendency)地板效应(flooreffect)天花板效应(ceilingeffect)Ln(95/5)Ln(5/95)5%95%50%Ln(50/50)比余对数10%Ln(10/90)将考生能力和项目难度都映射到同一量表(比余对数),使之可比。项目特征曲线p(%)q=1-plogitabs(logit)0.050.95-2.9444389792.9444389790.10.9-2.1972245772.1972245770.20.8-1.3862943611.3862943610.30.7-0.847297860.847297860.40.6-0.4054651080.4054651080.50.5000.60.40.4054651080.4054651080.70.30.847297860.847297860.80.21.3862943611.3862943610.90.12.1972245772.197224577单参数模型(1PL)难度与能力相等时,信息量最大(对于考生,中等难度的项目最好;对于项目,适应中等水平时最佳)项目的最大信息量为0.25(答对与答错的概率均为50%时)项目特征和项目信息量为考生能力;b为项目难度;P为答对的概率(1)(2)(3)项目特征曲线(ItemCharacteristicCurve)Howcloselythedifficultyoftheitemmatchestheabilityoftheperson1PL测试信息量及标准误(SEM)测试信息量等于项目信息量之和5个项目的测试最大测试信息量为1.25能力方差为测试信息量的倒数,测试标准误为能力方差的平方根项目的最大标准误为1信息量越大,误差越小.25双参数模型(2PL)a

为项目区分度ICC越陡峭,区分度越好,信息量越大单参数模型中,ICC斜率相同,不同难度的ICC互不交叉,但双参数模型中,不同难度的ICC由于区分度不同则有可能交叉2PL的测试信息量及标准误信息量越大,误差越小图中测试,由于项目数量少(仅3个),测试信息量基本取决于单个项目(区分度好的项目)蓝线-测试信息量红线-测试标准误黑线-项目信息量三参数模型(3PL)cabc

为猜测概率b

不再等于0.5猜测概率导致信息量下降,误差增加WinSteps软件的结果图表解读单参数模型应用示例项目难度估计及拟合分析Themostdifficultitemisthehighestvertically.Thisisitem21.Theeasiestitemisthelowestvertically.Thisisitem6.Themostpredictableitemistheleft-mostitem.Itisitem17.

Theleastpredictableitemistheright-mostitem,againitem21.Itemsalongthevertical0lineexhibitthedegreeofpredictability

thataccordswiththeRaschmodel泡泡图(Bubble

Chart)t值以正负2之间为宜:越接近0,越与模型预测一致;>2时,有可能拟合不够(underfit)<-2时,有可能拟合过度(over

fit)是否拟合不够或过度,应结合标准化残差均方根(MNSQ)进行分析考生能力估计及拟合分析同理标准化界内拟合t值项目难度及拟合情况项目21和30的界内拟合指数ZSTD均大于2,但MNSQ均在可接受范围,因此还不足以否定项目的有效性标准化残差均方根(MNSQ)的期望值为1,超出一定比例为拟合不够(误差太大),低于一定比例为拟合过度(太过完美)。合适的波动比例依样本量而定。样本量适宜比例拟合不够拟合过度<50030%>

1.3<

0.7500~100020%>

1.2<

0.8>100010%>

1.1<

0.9考生能力及拟合情况考生4的能力最强(3.95),但界外拟合最差(4.48的MNSQ越大于期望值1),说明该生能力最难预测,肯定有很容易的项目答错了。考生-项目分布图测试的难度不够:绝大多数考生的能力处于0~4之间,均值为2能力在2.5以上的考生众多,但却没有相应难度的项目绝大多数项目的难度在-1~1之间,均值为0难度在0以下的项目众多,但考生只有4人;难度最小的6个项目甚至没有考生项目特征曲线(Item

Characteristic

Curve,ICC

)红线-模型预测曲线蓝线-观测数据曲线灰线-置信度(通常为95%)的上线和下线能力在2以上的考生全部答对(项目难以区分高端考生)能力为-1处有考生答对了(猜测)所有点都落在置信范围之内(整体功能仍然不错)项目难度问题能力低于难度4个洛基单位(-4)处,有人答对了,且能力与难度差值在-4~1之间的答对概率为0.25,相当于4选项选择题的随机概率,说明该项目的猜测现象很严重。原因是该项目的难度大(所有项目中难度最大)项目区分度问题蓝线低端和顶端区分度差,但中间部分的区分度问题更严重。能力与项目差值在-2至1之间的答对概率都在50%左右。WinSteps软件的结果图表解读多项值分析示例原始数据R意为逆向(reversed)。同时使用正向和逆向项目,可探测出反应是否未经思考,以避免成见效应(Halo

Effect-因为成见而不加思索地为所有项目选择同一个值)逆向项目的值应转换为正向值。能力、难度和区分度估计PTMEA

Corr.-Point-Measure

Correlation项目与测试的相关系数,即项目区分度。期望值为正相关,正值越大,正相关越强,区分度越好。25R本为“逆向”项,转换后相关系数为正值项目难度估计项目拟合度估计界内和界外拟合都大于2,拟合不足(Underfit)界内和界外拟合都小于-2,拟合过度(Overfit)结构分析去掉拟合过度(17,18,22,6)和拟合不足(25,9,20)的项目

iDelete=17,18,22,6,25,9,20最难项目(13)的两个最高级别的交汇处最易项目(15)的两个最低级别的交汇处类别的次序颠倒,意味着量表结构存在问题M为均值,人数为33各类别的难度应该单调递增,而不应颠倒量表结构调整示例量表质量诊断(五级)CategoryLabelObservedCountAverageMeasureInfitMeanSquareOutfitMeanSquareThresholdCalibration1190-2.080.770.83None2207-0.860.931.01-1.5131790.151.131.88-0.36471.710.330.903.5751131.181.451.47-1.70频数极小且难度级别的顺序颠倒基本无法在图中体现45合并(12344)与43合并(12334)结果CategoryLabelObservedCountAverageMeasureInfitMeanSquareOutfitMeanSquareThresholdCalibration45合43合45合43合45合43合45合43合45合43合1190190-2.5-2.490.720.720.790.79NoneNone2207207-0.83-0.840.970.940.920.90-1.74-1.7431791860.790.830.880.871.351.27-0.12-0.1541201131.961.911.391.431.311.341.861.88合并后,各级别均有一定观测数量;难度单调递增;界内和界外拟合均在-2和2之间;门槛值

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论