教育统计与测评技术教案

上传人：阿*** IP属地：重庆上传时间：2024-05-02 格式：DOC 页数：27 大小：3.10MB 积分：12 举报 版权申诉

已阅读5页，还剩22页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

教育统计与测评技术教案总论教育统计与测评技术实际上涵盖三门课程：教育统计、教育测量与教育评价。将教育统计、教育测量与教育评价联系起来进行研究与探讨，这不仅符合三门学科之间的逻辑关系，更有利于整合三门学科的优势，充分发挥它们在教育管理、教育教学实践、教育研究等领域中的作用。无论是从教育管理、教育教学实践的层面，还是从教育科学研究的层面，教育统计与教育测量都是开展教育评价不可或缺的环节，它们是教育评价获得评价信息的必要手段和有力工具。教育测量侧重于为教育评价提供反映事物本质状态的原始数据，教育统计着力于对这些数据进行整理、分析、描述与推断，从而提供反映事物本质状态的统计数据，依据这些统计数据，教育评价才能作出科学、客观、准确的价值判断。所以，三者的关系是：测量统计评价其中，测量是前提，统计是关键，评价是目标。但从学知识的角度来看，了解统计知识则是测量的前提，而掌据测量知识又是评价的前提，所以我们按统计、测量、评价的顺序来开展教学。教育统计第一章概述一、统计学概述（一）何为统计？统：汇总起来；总括；全部。计：计算。统计：将数据汇总起来加以计算，即对某一现象有关的数据的搜集、汇总、整理、计算和分析等。统：搜集、汇总；计：整理、计算、分析。统计学分为研究统计理论的数理统计学和研究统计实践的应用统计学两部分。数理统计学对统计原理和统计方法进行证明，应用统计学是统计原理和方法就应用于各个实践领域，如：金融统计学、心理统计学、教育统计学。教育统计学是将统计原理和方法用来研究教育问题的一门应用科学。它研究如何收集、整理、分析由教育调查和教育实验所获得的数据资料，并以此为依据，进行科学推断，提示教育现象所蕴含的客观规律的一门科学。（二）统计为何？一为描述，对事物的现状等加以描述（比如，对某地的男女教师的比率进行描述）；二为推断：对事物的总体性质、特点、发展趋势等加以推断（比如，根据样本信息推断总体信息）。（三）如何统计？二、教育统计学概述（一）教育统计的过程1．教育统计资料的收集教育统计资料的来源：观察、调查、实验以及文献资料，其中主要资料来自于教育调查和教育实验。全面性原则、准确性原则、客观性原则2．教育统计资料的整理用统计表和统计图对资料分组归类、检查核实原始数据、计算描述数据的特征量等3．教育统计资料的分析对整理后的数据进行对照比较、分析新情况、发现新问题、揭示教育的规律和发展趋势，并将分析研究资料的结果写成分析报告。（二）教育统计学的初步概念比如，要对某地的教师情况作一研究，那该地的教师就是被试。被试有多方面的性质，有的是恒定不变的，称常量；有的变化的，称为变量。要对被试的整体中的每一个进行研究，在时间精力上有难度，这就需要从研究对象中抽取一部分出来研究，这一过程称为抽样，抽出来的部分称为样本。然后，根据样本的数据去推测总体的数据，样本的数据称为统计量，由样本推测出来的总体的数据，称为参数。抽样一般以随机的进行，抽出来的样本的数据可能会与总体有一定的误差。又如，要对中学生的课堂参与度与其学习成绩之间的关系进行研究。被试被试即为被研究者的简称，被试通常也称为受试或研究对象。如：实验被试、观察被试。常量与变量在教育研究中，一些量是可以变化的，我们将之称为变量，这些量是在性质、数量上可以变化的量以及测量或操纵的因子或条件，如学生年龄、学习内容、学习成绩、学习能力等。与之相反，一些量是固定不变的，我们将之称为常量或常数，如圆周率、重力等。变量依其相互关系，可分为自变量和因变量。自变量是自身变化的量，而因变量是因自变量变而随之变的量，常将自变量作为实验因素，又称实验因子，它是由实验者操纵的。因变量是一种假定的结果变量，是实验对象在实验因素和其他控制变量的作用下的反应。比如，将学生的课堂参与度设为自变量，将学生的学习成绩设为因变量。自变量与因变量的关系可以用下式表示：y=f（x）变量依其性质不同，可分为品质变量和数量变量。品质变量只说明事物的属性、类别以及等级上的特征，不表示事特之间差异的大小。如学生性别、学生品德（优、良、中、差）。数量变量则用来说明事物数量上的差异，比如，学生身高、学生学习成绩。根据变量是否成为某特定研究所操作的因子或条件，变量可分为研究变量与非研究变量。研究变量指特定研究所要操作的变量，非研究变量指特定研究所操作变量以外的变量，也称为无关变量。比如，研究学生课堂参与度与学习成绩的关系，学生课程参与度就是研究变量，而教材、教师等就是非研究变量。变量根据其所表示的数据的性质，可分为称名变量、顺序变量、等距变量和比率变量。抽样、样本、随机在教育研究中，所研究的总体包含的数目往往很多，不宜对总体全部进行研究。例如，我们研究全国中学生课堂参与度与其学习成绩的关系，全国的中学生太多，对这一总体各个学生的课堂参与度都进行研究是很费力、很费时、很困难的，而且不是很现实，为减少研究的困难与麻烦，我们采取从中抽取一部分学生进行研究。这种从总体中抽出一部分个体的方法，我们称之为抽样或取样。所抽出的部分称之为样本。样本中所含的个体的数目，称为样本的容量。如果容量大于30，一般称之为大样本；容量小于或等于30，一般称之为小样本。抽样是从总体中抽取一部分进行研究，并根据样本研究结果来推断总体的特征或规律。要确保推断的准确性，样本要能代表总体，抽样应遵循随机原则，否则所抽取的样本不具代表性。随机即随机现象，具有以下三种特性：第一，一次试验有多种可能结果，其所有可能结果是已知的；第二，试验之前不能预料哪一种结果会出现；第三，在相同的条件下可以重复试验。比如，抛硬币，彩票。这种现象称为随机现象。随机现象的每一种结果叫做一个随机事件。表示随机现象各种结果的变量称为随机变量，统计处理的变量都是随机变量。（1）单纯随机抽样单纯随机抽样是从总体中完全随机地抽取个体的一种方法。单纯随机抽样可通过抽签以及随机数目表来实现。（2）机械抽样机械抽样，又称为系统抽样或等距抽样，是指将总体中的各个个体按一个与研究问题没有直接关系的标志（如时间、地区等）加以排列，然后依据固定顺序或固定间距进行抽样。比如，要了解某中学高一新生的英语水平，设该校该年级有1000名学生，要抽取100人，可先将这1000名学生按报名先后顺序（学号）进行排序，并从1至1000进行编号，然后按1，11，21……号码的顺序和间隔抽取样本。机械抽样比单纯随机抽样更能保证抽到的个体在总体中的分布比较均匀，而单纯抽样比机械抽样的随机性强，因为单纯随机抽样可以由总本内所有的个体组成任何可能的样本，而机械抽样对上例而言，只有10个可能样本。在实践应用中，可以将机械抽样和随机抽样结合起来使用，如上例先按机械抽样原则进行分组，再按单纯随机抽样原则在组内进行抽样。（3）分层抽样分层抽样是把总体中各个个体按照一定标志分为不同类型或层次，然后从各类型中随机抽取若干个体，从而构成样本。将总体按照一定标志分类的基本原则是，层内之间差异要小，层外之间差异要大，否则就失去分层的意义。例如，对某校友800个学生的学习兴趣情况进行调查研究，拟抽取40个学生作为样本，即抽样比率为40/800=1/20。那么，可先根据一定标准将800个学生分成优（160）、良（320人）、中（240人）、差（80人）四个部分，然后从各部分中用单纯随机抽样或机械抽样的方法，各抽取1/20，即从优等中抽取160×1/20=8（人），从良等中抽取320×1/20=16（人），从中等中抽取240×1/20=12（人），从差等中抽取80×1/20=4（人），组成一个样本。（4）整群抽样整群抽样是以整群为单位而不是以个体为单位来抽取对象的抽样方法。这种方法的优点是便于组织，其缺点是代表性较差，因而采用也较少。比如，调查某地中学教师的心理状况，则可将某地所有中学视为若干群体，然后按随机原则从中抽取几个群体作为样本，再对选中群体内的所有教师进行调查，这种方法即是整群抽样法。统计量与参数样本的特征量称为统计量，如样本的平均数、样本的标准差。由样本的统计量去估计，推断出来的相应的总体的特征量，称为参数。误差误差是测定的观测值与真值之差，误差可以分为随机误差、系统误差和抽样误差三种。随机误差指由与研究目的无关的难以控制的偶然困素所引起的误差。比如，研究过程中遇到地震之类的自然灾害，又如研究课堂注意力时突然有一美女走进教室。随机误差无法完全避免，但是我们可以尽可能地缩小随机误差，提高测量和统计的精度。系统误差指由与研究目的无关的因素所引起的有规律性的误差。比如，皮格马利翁效应，又如在调查研究中部分学生往往倾向于选择“好”的答案，而不是根据自己的真实情况作答。引起系统误差的原因很多，我们可以通过认真检查研究的各个方面来控制与消除系统误差。抽样误差指由于抽样而产生的误差，抽样误差属于随机误差的范畴，由于它在统计中非常重要，所以人们将之专门列出。比如，抽样不具代表性。（三）教育统计学在教育研究中的应用教育统计学可能用教育观观察、教育调查、教育实验、教育文献研究等的数据归类汇总等，其中主要还是应用于教育调查和教育实验研究。1．应用于教育调查教育调查是取得客观的、真实的可靠资料的一条重要途径。教育调查的方法和种类较多，就调查的范围分，有全面调查和非全面调查。全面调查即对全部对象都加以调查，如对某地区中学生的心理健康进行调查，对某大学毕业生的社会适应能力进行调查。全面调查的优点在于可以全面了解某种情况，不足之处在于费时、费力。非全面调查即从调查总体中选取一部分个体进行调查，非全面调查可以节省人力、财力和时间。非全面调查包括抽样调查、重点调查和典型调查。（1）抽样调查前面已讲述（2）重点调查重点调查的调查对象在研究总体中所占比重较大，或比重虽不大，但在被研究现象的发展中起着重大作用。比如，要调查羌族文化对学校教育的影响，我们就可以重点调查北川和理县的学生，因为绝大多数羌族人都生活在这两个县。又如，要调查四川人的性格特点，我们可以选择成都进行重点调查，因为成都对四川的特点有集中的反映。一般说来，按照调查任务的要求，凡在部分单位或少数地区能够反映所研究的项目和指标时，就可采用重点调查。在抽样调查以前，为了大致了解被调查单位的一般情况可以进行重点调查，在抽样调查以后，为了深入了解某一单位的情况也可以进行重点调查。（3）典型调查典型调查是研究者根据需要选择一部分具有代表性的单位（或个体）进行的调查。典型调查可在较短时间内，用较少的人力、财力和物力，取得较大的效果。比如，要对研究性学习实施情况进行调查研究，别人主要是总结成功经验，而你主要想总结失败教训，你就可以选一个失败的学校作为典型加以研究。这次新课程改革中对一些新课程开展得很好的学校进行调查研究，也是一种典型调查。搞好典型调查，关键是选好典型，要选好典型，必须将对象按照某种标准分类，然后从每一类型中选出具有代表性的典型个体（或单位）。2．应用于教育实验（1）单组实验单组实验是向一组实验对象施加一个或数个实验因子，然后测量其发生的变化，借以确定实验因子的效果。比如，教学方法讲授法与发现法对学生学习成绩的影响。第一个月第二个月一班学生讲授法发现法统计并比较第一个月学生成绩与第二个月学生学习成绩的差异是否显著。单组实验必须具备以下条件：第一，后一实验因子与前一实验因子不发生影响；第二，其他非实验因子所产生的影响在实验前后应保持一致；第三，测验数据准确可靠。单组实验的优点是简单易行，缺点是后一实验因子易受前一实验因子的影响。（2）等组实验等组实验是指在两组条件相当的情况下，对之施行不同的实验处理的实验方法。比如，要同一个教师所教的两个班中开展学生课堂参与与学习成绩的关系的研究，一个作为实验班（教学中让学生高度参与），一个班作为对照班（教学过程中基本上不让学生参与）。采用这种实验方法最关键的一点是两组的条件要相当。要做到这一点，可采取随机抽样法和测验选择法。前测后测实验班不参与参与对照班不参与不参与前测要做到两个班的差异不显著，后测若两个班的差异显著说明是否参与对学习成绩有明显影响，反之则说明无明显影响。这种实验法虽然克服了单组实验的部分缺点，但它很难做到各组完全相当。（3）轮组实验轮组实验是将各实验因子轮换施行于各组，然后根据每一因子所产生的变化之总和确实实验效果。假定有甲、乙两组学生，有讲授法和发现法两种教学方法。假定甲组先进行讲授法教学，然后进行发现法教学。假定乙组先进行发现法教学，然后进行讲授法教学。甲组讲授法发现法乙组发现法讲授法将甲组采用讲授法时的学习效果和乙组采用讲授法时的学习效果作为一组，将甲组采用发现法时的学习效果和乙组采用发现法时的学习效果作为一组，将两组数据的统计结果进行比较看差异是否显著。轮组实验是单组实验的变形，对其结果的统计分析仍可采用单组实验的统计方法来处理。具体方法是将把两个实验给放在一起作为一组进行统计分析。轮组实验的优点是，减少了无关因子的干扰；省去了谋求各组相等的麻烦；一定程度上保证了实验结果的准确可靠。其缺点是，实验次数的增加，使实验的周期相应增加，带来了更多多的人力、物力和时间等的花费。第二章描述统计第一节统计表与统计图统计表统计表是用来表达统计指标与被说明事物之间数量关系的表格。它可以简化统计资料，便于我们分析、比较、计算、记忆资料。统计表的结构包括：标题、表号、标目、线条、数字和表注。（1）两边不要竖线，中间可要可不要的竖线最好不要（2）有标号、标题，表的标号、标题在上，图的标号、标题在下（3）指标分界分明，上、下限标明，组距相等（4）具有价值性，表中量化内容具有可比性，如百分等级（5）表的设计要有规律性统计表的基本格式如下：表2.1统计表的基本格式△△△△△△（标题）横纵标目的总标目纵标目横标目数字（一）简单表参见书上18页表2.2（二）分组表参见书上18页表2.3（三）复合表参见书上18页表2.4（四）频数分布表参见书上19页表2.5统计图统计图是用来表示统计指标与被说明的事物之间数量关系的图形。它能使事物的数量关系表达得形象直观，一目了然。一般是根据统计表绘制统计图。统计图的结构包括：标题、图号、标目、图形和图注。统计图的种类的：表示间断变量的统计图（有直条图、圆形图）与表示连续变量的统计图（有线形图、直方图、多过图、累积多边形）。（一）直条图直条图是用条形的高低或横向的长短来比较统计数据的几何图形。它主要是用来比较性质相似的间断性资料。直条图按图形中被比资料的组数不同，可分为单式直条图和复式直条图。参见20页图2.1和图2.2。（二）圆形图圆形图是反圆按比例分成若干扇形来说明总体结构的几何图形。它是用来表示间断性资料构成比的图形。圆形的面积表示一组数据的整体，图中扇形表示各组成部分所占的比重。各部的比重一般用百分比表示。参见21页图2.3。（三）线形图线形图是用曲线的高低和斜度表现统计数据的几何图形。参见21页图2.4。（四）直方图直方图用面积表示频数分布，用各组上下限之间的矩形面积表演示各组频数。参见22页图2.5。（五）多边图如果把以各组组中值为横坐标，相应的频数为纵坐标得出的各点以及横轴上两边各增加一个组终点，用折线顺次连接起来，则可以得到多边图。参见22页图2.6。（六）累积多边图如果把以各组下限为横坐标，下限以前相应的各组累积频数为纵坐标得到的各点顺次用平滑曲线连接起来，则可得出累积频数曲线图。参见23页图2.7。第二节教育统计的特征量利用统计表和统计图，我们可能对数据的整体情况有一个粗略大致的了解，但对数据的一些具体情况还不胜明了，也无法对数据进行分析研究。要进一步把握这些数据并对此进行分析研究，我们还需要求得一些特征量，以此来解释数据的集中趋势、离散程度和相关程度等。1．水平性整体情况集中量单组数据2．离散性极端情况差异量相关、差异区别只是角度不同，本质上一致3．相关性两组数据的关系相关量两个组的数据特征一、集中量集中量是代表一组数据典型水平或集中趋势的量。它反映一组数据向某一点集中的情况。常用的集中量有平均数、中位数和众数。平均数（大小），中位数（位置），众数（频率）（一）平均数1．算术平均数算术平均数是所有观察值的总和除以总频数所得之商，简称平均数。参见书24页算术平均数的计算方法：原始数据法频数数据法（当一组数据数目较多，而原始数据又不知道，只知道频数分布表，就可以利用频数分布表来求这组数据的近似值。比如，知道该年级语文期末成绩的频数分布情况，要求该年组语文期末考试的平均分。参见书25页）2．加权平均数加权平均数是不同比重数据（或平均数）的平均数。比如：专家6（打80分），领导5（打70分），自评4（打75分），学生3（打60分），家长2（打55分），互评1（打50分）。求加权平均数的方法：原始数据法和频数分布表法。参见书26-27页。几何平均数（求增大率或减小率）几何平均数是N个数据连乘的N次方根。几何平均数适用于计算具有递增（或递减）性数据的集中量。参见书28页。几何平均数是为了矫正算术平均数比如，高考人数：5103060240又如，高考人数：100200400，求2000年至2002年该校高考人数的平均数及年平均增长率。调和平均数调和平均数是一组数据倒数的算术平均数的倒数，也称倒数平均数。调和平均数适用于求平均速率一类问题。参见书29页。算法：倒数和的平均数的倒数小结：算术平均数表示一组数据的中心或重心位置，可用于各给数据之间集中水平的比较；加权平均数用于求不同比重数据（或平均数）的平均数；几何平均数适用于计算具有递增（或递减）性数据的集中量；调和平均数适用于求平均速率一类的问题。在求平均数时，应根据数据特点和需要，正确选用各种平均数的算法。（二）中位数中位数是位于依一定顺序排列的一给数据中央位置的数值，在这一数值上、下各分布着一半频数，常用Md表示。对于分布大致对称的数据，中位数与算术平均数十分接近；而当数据分面过偏时，用中位数表示的集中趋势比算术平均数更为合理。中位数的计算方法：原始数据法（如下）、频数分布表法（略）将一组原始数据依大小顺序排列后，若总频数为奇数，就以位于中央的数据作为中位数；若总频数为偶数，则以量中间的两个数据的算术平均数作为中位数。参见书30页。（三）众数在一数列中出现频数最多的一个数值称为众数，常用Mo表示。如果所有数据项都不相同，就没有众数。众数的计算方法（略）小结：在以上三种集中量中，平均数（尤其是算术平均数）集中代表性较好，其次是中位数，然后是众数。平均数优于中位数和众数的特点为：平均数是根据全体数据参与计算得来的，可以作为一组数数据的代表值；简明易懂；可由无次序的数据直接求出；计算公式可用作代数运算；较稳定可靠，受抽样影响不很大；已知平均数与频数可求出总数。平均数也有不足之处：受极端数据的影响较大；如有某几个数据不知道就无法求出。中位数不受极端数据的影响，尤其是在一个方向上出现较多的极端数值时，使用中痊数作为集中的代表性较好。但由于中位数只利用了相对位置的信息，所以一般情况下它的集中代表性不如平均数。众数仅利用了数据出现频数最多的信息，因而在一般情况下其代表性不如平均数和中位数，但在单峰的偏态分布中，众数的代表性较好。由于平均数具有较多优点，在统计报告中一般都选用平均数。二、差异量差异量是描述数据间彼此差异程度的统计量。差异量可分为绝对差异量和相对差异量。（一）全距全距是一组数据中最大值与最小值之差，又称极差，用R表示。全距只能反映数据组的两极端值的离差程度，不能反映中间数据的分布情况。（二）平均差平均差是每个数据与该组数据的集中量（如算术平均数，中位数）之间的绝对值的算太平均数，一般用符号AD表示。参见书36页。平均差考虑到了全部离差，受两极端数值影响小，但计算过程中要用绝对值，不便于代数运算，因而在教育统计中用得不多。（三）标准差平均差计算中要用绝对值，为避免这一不足，人们想到对离差加以平方再开方的方法。一组数据离差（偏离平均数的距离）平方的算术平均数，称之为方差。标准差是方差的平方根。方差用σ2表示，标准差用σ表示。标准差的值越大，表明这组数据的差异程度越大；标准差的值越小，表明这组数据越整齐，分布范围越小。参见书37页至38页。小结：全距反映了一组数据两端的差异，但不能反映中间数据的分布情况，平均差虽能反映一组数据的整体差异情总，但计算时要用绝对值，不适合代数运算。标准差具有以下优点：（1）标准差反映合部数值的差异情况；（2）标准差适合于代数方法运算；（3）标准差受抽样变动的影响较小。但标准差也有一些缺点，比如，标准差计算较为复杂，结果易受两极端数值的影响。标准差常与平均数配合使用。参见书40页至41页。（四）差异系数差异系数是指标准差与算术平均数的百分比，差异系数用CV表示，它没有单位。差异系数可用于：第一，比较单位不同的数据资料的差异程度；第二，比较单位相同而平均数相差较大的两组数据的差异程度。参见书41页至43页。（五）偏态系数（略）相关量（一）相关关系的概念一事物与另一事物之间的关系有两种情况，一种是两事物毫无联系，比如，打嗝与地震；一种是两事物有联系。两事物有联系又分为两种：一种是有严格确定的关系，称之为函数关系；一种是有依存关系，但不是严格确定的关系，称之为相关关系。比如，智商与学习成绩，老师长得漂亮与喜欢她教的课。函数关系是一种严格确定的关系，它反映了事物之间所存在的严格的依存关系，其特征是现象与现象之间的关系是一一对应的，它通常可以用一个数学表达式准确表达出来，属于传统数学研究的范畴。比如，圆周长等圆周率乘以半径的平方。相关关系是两组变之间的非确性的关系，它反映了变量之间不十分严格的但依然存在着的依存关系。相关关系是一种大概如此而非绝对如此的关系，相关关系属统计研究的范畴。如教师教得好与学生学习成绩好。相关分为正相关、负相关和零相关三种。如果两个变量的变化方向一致，即一个变量值变大时，另一个变量值也随之变大，或者一个变量值变小时，另一个变量值也随之变小，称之为正相关。如果两个变量的变化方向相反，即一个变量值变大时，另一个变量值随之变小，或者一个变量变小时，另一个变量值随之变大，称之为负相关。两个变量值之间变化方向无一定规律，称之为零相关。相关关系一般用相关系数（r）表示，它的范转为-1≤r≤1。由r正、负号及绝对值的大小，可以表明两个变量的之间变化的方向和密切程度。相关系数的计算方法很多，常见的有积差相关、等级相关、点二列相关、二列相关和φ相关。（二）积差相关系数当两个变量都是正态连续变量，而且两者之间呈线性关系，表示这两个变量之间的相关称为积差相关。参见书46至48页。积差相关的使用条件是：（1）两个变量都是连续性数据；（2）两个变量的总体呈正态分布，或接近正态分布，至少是单峰对称的分布；（3）必须是成对的数据，每对数据之间是相互独立的，而且变量对数N＞30；（4）两个变量之间呈线性关系。（三）等级相关系数等级相关是指以等级次序排列或以等级次序表示的变量之间的相关。主要包括斯皮尔曼二列等级相关及肯德尔和谐系数。（四）点二列相关在两个变量中，其中一个变量是来自正态总体的连续变量，另一个变量为二分量（例如男与女等），这时，表示这两个变量之间的相关，称为点二列相关。（五）二列相关二列数据都来自正态分布的总体，但其中一列可以人为地分为二分变量（例如合格与不合格，高与低），这时，表示两个变量之间的相关，称为二列相关。（六）φ相关当二列变量都是二分变量或都可以人为地分成二分变量时，可用φ相关来计算它们的相关程度。第三章推断统计第一节正态分布正态分布又称常态分布，它是一种应用广泛，且相当重要的概率分布。在实际生活中，凡自然状态下的整数数据都几乎是正态分布。正态分布是一种“两头小，中间大”的分布形态（象一口钟）。一、正态曲线正态分布的曲线方程为：（参见书63至65页），x∈（-∞，+∞）标准分Z分，标准分如何得来，。标准分是一个相对分数，能能够标表示出某一分数的相对位置。平均数为0，标准差为1的正态分布曲线称为标准正态分布曲线。标准正态分布曲线为：正态曲线有以下特点：1．曲线在Z=0（即平均数）处为最高点；2．曲线以Z=0为轴线，双侧对称；3．曲线从最高点赂左左缓慢下降，并无限延伸，但永不与轴线相交；4．标准正态分布上的平均数为0，标准差为1，基线上从Z=-3到Z=3有6个标准差的距离，并且多数数据都集中在平均数附近。5．标准正态曲线方程为：二、正态分布表的使用

正态分布表包括3列，第1列表示曲线底数即横坐标的位置，用Z值表示；第2列是纵高Y，用即曲线的高度；第3列是图3．2所示的阴影部分的面积，用P表示，P值是过Z=0人纵线与过表中某Z点人纵线所夹图形的面积比率，即相应区间的随机变量的概率。Z值表示某数据在整个数据中的相对位置，Y值表示在一个点上数据频数的多与寡，P值表示有多少比率的数据落入这一区间。1．已知Z值，求面积（参见书65-66页）已知Z值求面积有三种情况：（1）求Z=0至某Z值的面积。这种情况直接查表可得面积。如，Z=1.5，P=0.43319；又如，Z=2.9，P=0.49813。（2）求两个Z值之间的面积。（3）求某Z值以上或以下的面积。2．已知面积，求Z值（参见书66页）已知面积求Z值也有三种情况：（1）求Z=0以上或以下某一面积对应的Z值。（2）求与正态曲线上端或下端某一面积对应的Z值。（3）求与正态曲线下中央部位某一面积相对应的Z值。3．已知Z或P，求纵线正态曲线的纵线高度Y是横轴上某Z值的频率密度（即概率），已知Z或P都可以通过正态分布表查得Y值。三、正态分布在测验记分方面的应用1．将原始分数转换成标准分数（参见书67页）原始分数往往是绝对分数，可能无法进行比较，无法反映某一分数在群体中的位置，而标准分数则是反映数据在群体中的相对位置，能进行比较。（考语文100分，数学99分的例子，语文、数学分数无法进行比较的例子）标准分数是总体中某个原始分数与平均数之差，再除以标准差所得的商。其公式为：标准分数的优点：（1）各科标准分的单位是绝对等价的，因此，它具有可加性；（2）标准分数值的正负和大小，可以反映某一考分在总体中所年的地位，因此，它具有可比性；（3）标准分数可以作为舍弃异常数据的依据，如果Z的绝对值远大于3，则可考虑舍弃该原始数据。标准分的不足：存在多位小数和负值为克服这一不足，通常将标准分数加以转换。转换的一般形式为：T=KZ+C2．确定录取分数线（参见书67-68页）由录取率可以确定录取分数线。3．确定等级评定人数（参见书68页）4．品质评定数量化（参见书68页）第二节总体平均数的估计这一节要探讨如何用样体的数据，即统计量（如样本平均数、样本标准差）去估计总体的数据，即参数（如总体平均数、总体标准差）。一、抽样分布的概念抽样分布是指某种统计量（如平均数和标准差）的概率分布。二、平均数抽样分析的几个定理1．从总体中随机抽出容量为N的一切可能样本的平均数的平均数等于总体的平均数。用公式表示为：E(X)=μ2．容量为n的平均数在抽样分布上的标准差等于总体标准差除以n的方根。3.从正态总体中，随机抽取的容量为n的一切可能样本平均数的分布也呈正态分布；即使总体不呈正态分布，如果样本容量较大，则样本平均数的抽样分布也接近于正态分布。三、总体平均数的参数估计总体平均数的参数估计是指由样本平均数对总体平均数进行的估计。它分为点估计和区间估计。点估计是指用某一样本的平均数的值为估计总体平均数的值。区间估计是指以样本平均数的抽样分布为理论依据，按一定要求，由样本平均数的值来估计总体平均数所在的区间范围。1．总体标准差已知或总体标准差虽未知，但n＞30（参见书70-71页）2．总体标准差未知且n＜30（参见书71-72页）第三节几种常用统计检验方法一、统计检验的意义在教育研究中，通过教育调查和教育实验所获得的样本数据经常遇到有差异。（比如，通过调查发现所抽取的样本中高一男生的数学成绩优于女生）但这种差异是来自于真正的总体差异，还是来自于总体本身无差异而是抽样误差造成的差异呢？对于这一问题，需要进行统计检验。统计检验的一个重要内容就是要看差异是否显著，即进行差异显著性检验。检验差异是否显著，需要一个标准来衡量。在所设定的标准下，如果检验的结果属于差异显著，那就意味着两个统计量来自两个有差异的总体；如果检验的结果属于差异不显著，那就意味着两个统计来自一个总体或两个没有差异的总体，或者说这种差异是由抽样误差所造成。统计检验的核心思想是反证法。统计结果有无差异必须一定的标准去衡量。一般来说，大家习以概率P＜5%和P＜1%这两个标准来衡量。5%和1%等概率称为显著性水平，记作。二、假设检验的步骤假设检验的一般步骤：（1）提出原假设H0，即零假设；（2）选择和计算教育统计量；（3）对结定的显著性水平确定临界值。（4）将统计量计算的结果与临界值比较，从而决定拒绝还是接受原假设。三、统计检验的方法统计检验有Z检验、t检验、F检验、x2检验（一）Z检验1.单总体Z检验（参见书74页）单总体Z检验是检验一个样本平均数与一个已知的总体平均数的差异是否显著。2．双总体Z检验（参见书75至76页）双总体Z检验是检验两个样本平均数各自代表的总体的差异是否显著。（二）t检验当总体呈正态分布，如果总体标准差未知，而且样本容量n＜30,那么这时一切可能的样本平均数与总体平均数的离差统计量呈t分布。1．单总体t检验（参见书76至77页）单总体t检验是检验一个样本平均数与一已知的总体平均数的差异是否显著。2．双总体t检验（参见书77至78页）双总体t检验是检验两个样本平均数与其各自所代表的总体的差异是否显著。小结：单总体：σ已知时，用Z检验σ未知时，用t检验双总体：σ1，σ2已知，且是独立样本时，用Z检验σ1，σ2未知，且是独立大样本时，用Z检验σ1，σ2未知，且是独立小样本时，用t检验σ1，σ2未知，且是相关样本时，用t检验（三）F检验Z检验、t检验的平均数差异的显著性检验的前提假设是两个总体的方差是相同的，至少没有显著性差异。对两个总体的方差是否有显著性所进行的检验称为方差齐性检验，即必须进行F检验。1．F分布若从两个相互独立的正态总体中随机抽取两个独立样本，以此为基础，分别求出两个相应总体方差的估计值，这两个总体方差估计值称为F比值，即F=S12/S22。F比值的抽样分布称为F分布，F比值称为F统计量。2．F检验（参见书80至81页）（四）x2检验（参见书81至84页）x2检验是对样本的频数分布所来自的总体分布是否服从某种理论分布或某种假设分布所作的假设检验。第四节方差分析（略）方差分析又叫变异数分析，它用于对多个平均数之间的差异进行检验。F检验是对两个总体的方差所进行的差异检验，而方差分析是对多个平均数之间的差异进行检验。教育测量篇第五章教育测量概述一、什么是教育测量测：检测、观测；事物的内涵（弄清事物的本质）量：衡量、度量；事物的外延（将事物数量化）测量：检测与衡量，弄清事物的本质并将之数量化。教育测量：按照一定的规则对教育活动、教育现象等加以数量化测定的过程。比如，测量一个学生思想品德如何，测量一个学生的学习兴趣如何。二、教育测量有何特点教育测量主要是对学生精神特性的测定，对精神特性的测定不同于对物理特性的测定。具体而言，教育测量具有以下特点：（一）教育测量具有间接性精神特性：潜隐于身体内部，不能直接观察、度量。不像物理特性的测量，可能通过直接观察和度量来达成，学生精神特性的测定，只能通过教育影响在学生行为上的表现以及学生对测试题的反应等，并应用推理和判断的方法去间接测定这些行为属性。（二）教育测量具有不确定性精神特性：具有不稳定性和变化性教育测量的不确定性是指教育测量所使用的工具的单位具有相对性。（三）教育测量服务于教育目标教育测量既是检验教育教学成败的重要工具，又是改进教育工作，提高教育质量的保证。三、教育测量的要素（一）参照点参照点是计算事物数量的起点，又称零点，需点有绝对零点和相对零点之分。相对零点是人定的零点，教育测量中所使用的零点几乎都采用人定的相对零点。比如，智商。相对零点最大的限制是不能以倍数的方式解释分数。（二）单位任何测量都得有单位，如物理测量中的长度以单位米、分米、厘米等，重量单位千克等。教育测量也有单位如百分数、标准分数等。（三）量表量表是测量的工具，是参照点和单位的连续载体。如称是事物重量的量表，尺子是事物长短的量表，又如教育测量中的智力量表、学习态度、学习能力量表等。1．称名量表称名量表是用一定的数字对事特的类别加以标识，是与事特的分类相联系的量表。如用“1”表示男生，用“0”表示女生。称名量表，只起到分类的作用。2．顺序量表顺序量表是表示事物相对关系（如顺序关系）的数值特征量的量表。如学业成绩的第一名，第二名等，又如学生品德的优、良、中、差。顺序量表既能分类，又能排序，但不具有等距性，不能进行运算。3．等距量表等距量表最显著的特点是等距性，它对事物所作的数量划分是等距离的。等距量表具有等距性，但没有绝对零点。如，水的冰点（温度量表）等距量表示的数值可以进行加减运算，但不能进行乘除运算。4．比率量表比率量表又称绝对量表，它既有相等的单位，即具有等距性，又有绝对零点，它是测量中最高水平的量表。如，重量，长度，身高、体重量表等。比率量表中的数值可能进行加减乘除计算。四、教育测量有何功能与作用（一）在教学方面的反馈与激励功能（二）在教育行政管理方面的评鉴与选拔功能（三）在教育科研中的导向与信息提供功能五、什么样的测量是好的测量（良好测量的特征）（一）信度（可靠性）信度是指可靠性或可靠程度，测量的信度是测量结果反映被试真实水平和程度。（二）效度（有效性）效度是针对特定的目的而言，测量的效度是指测量出所要测量的特性的程度。（三）难度（难易性）难度是就测验所含的项目（题目）而言，测验的难度是指项目（题目）的难易程度。（四）区分度（鉴别性）区分度也是就测验所含的项目（题目）而言，测验的区分度是指项目能区别不同水平的被试的程度。区分度与难度是有关系的。一般而言，过高或过低的难度都晚使项目的区分度较低，项目要有良好的区分度，难度必须适中。区分度又影响到效度，若测验区分度较低会导致效度低。第六章信度第一节信度的计算对信度的估计或计算，一般采用相关分析的方法，即计算出两种变量的相关系数（rxy）,用相关系数的大小来表示一致性程度的高低。一、再测信度再测信度是用同一测验试卷，在先后两个不同时间对同一组被试施测后求得的实得分数的相关系数。再测信度是一种表示测验稳定性的方法，因此可用稳定性系数表示。计算再测信度实际上使用的是重测法。测验A1适当时距测验A2实质上，再测信度强调所测特质的稳定性，求得的稳定性系数本质上是考察跨时距上所得分数的一致性。因此，应注意以下几个问题：首先，前后测验的时间间隔要适当。其次，在两次施测的间隔期内，被试在所要测查的特质方面没有获得更多的学习和训练。再次，再测信度适用于速度测验而不适用于难度测验。二、复本信度复本信度是一种表示测验等值性的方法，因此，复本信度可用等价值性系数表示。等值性系数是以两个等值但具体内容不同的量表，在最短时距内，对相同被试先后施测两次测验所获得的两组对应分数的相关系。测验A1最短时距测验B1使用复本法计算等值性系数是为避免重测法的时间间隔对测验的影响，复本法十分强调两份测验的平行等值。因此，使用复本法计算等值性系数时，应注意：1．测验的同质性与等值性2．测验时距宜短3．测验的信度系数有稍微偏大的倾向可以结合再测信度和复本信度，利用等值稳定性系数来判断测验信度。测验A1适当时距测验B2在使用等值稳定性系数时应注意：其一，两个测试试题要具有较高的等值性其二，两次测验的时距需要妥善规定三、内部一致性系数内部一致性系数是同一测验的各题项（例如分为奇数题和偶数题）得分的相关系数（一）分半系数分半法是将一个测验分为两个假定相等而独立的部分来记分，通常以奇数题为一组，偶数题为另一组，不宜将前后两部分分组。分组之后，求两组分数的相关系数，最后用期皮尔曼-布朗公式校正，以求得整个测验的信度系数。（二）系数主观性试题的评分，没有严格的评分标准，以致对同样一个题，被试得分各不相同。对于主观性试题的内部一致性系数，可以采用克龙巴赫创造的系数公式来求。计算内部一致性系数应注意：1．用分半法时，以按奇偶题分半为宜，不宜前后分半2．速度测验不宜用分半法3．客观性试题可以用分半法来计算信度，主观性试题宜用系数公式计算测验信度。四、评分者信度当测验是主观性试题，且评分者有多人时，不同评分者对同一分试卷评定的分数或等级常常不同，甚至有较大差异，这时需要考虑评分者之间的一致性问题。评分者信度即评分者评分的一致性系数。若只有两人参评N分试卷，或一人先后两次评N份试卷，可用斯皮尔曼等级相关方法估计；若三个或三个以上的评分者评N分试卷，则而计算肯德尔和谐系数以表示信度。五、目标参照测验的信度（略）六、速度测验的信度（略）第二节影响测验信度的因素影响测验信度的因素很多，不过根本原因在于测量误差的影响。一、系统误差系统误差是由于量表有问题或评分标准掌握过宽或过严等原因导致测验结果有规律性的偏大或偏小。因而系统误差虽然会导致辞测量不准确，但不影响测量结果的稳定性或可靠性，所以不影响测量信度。二、随机误差随机误差是由于各种偶然因素的影响而使测验产生的误差。随机误差有可能在第一次测验中出现，而在第二次测验中不出现，这就影响了两次测验的一致性系数，从而影响随机误差。三、抽样误差抽样误差是由于测验中被试之间的差异造成的误差。被试之间差异程度由标准差或方差来描述。而方差的大小正好反映测验的信度系数。第三节提高测验信度的方法一、测验信度与测验长度的关系测验长度增加，测验信度系数随之加大。然而，测验长度受到测验时间等因素的限制，在实际应用中应在有限范围内尽可能地增加测验的长度。二、测验信度与测验难度的关系测验太难或太易都会使信度降低。应使测量的难度适当，经验表明测验的难度在0.40-0.70之间是合适的。三、测验信度与测验项目的区分度的关系项目区分度提高，测验信度系数相应提高。提高项目区分度是提高测验信度的有效方法。测验信度与测验内容同质性的关系测验内容同质性越高测验信度越高。测验信度与评分客观性关系要尽可能客观地评分测验信度与测验程序统一性的关系测验程序应前后统一测验信度与被试差异性的关系被试差异性增大，信度系数也随之增大。加大被试的差异，一方面可增大样本的容量，另一方面可坚持随机分层抽样。第七章效度第一节效度的估算一、内容效度内容效度是指测验内容与预定要测的内容之间的一致性程度。一致性程度高则效度高，一致性程度低则效度低。比如，要测验学生的学习能力，学习能力包括识记、理解、应用、分析、综合以及评价等方面的能力，检测内容效度就可以看测验内容是否反映了这些方面的能力。二、构想效度构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。构想效度主要适用于心理测验效度的确定。所谓构想，是指心理学理论所涉及的抽象而属假设性的概念特质或变量，如智力，能力倾向、人格结构等。三、效标关联效度效标关联效度是指测验分数与作为效标的另一独立测验结果之间的一致性程度。一般是用本测验与效标测验去测同一组被试得到的两组分数的相关系数表示。所谓效标，是检验测验效度的参照标准。第二节提高测验效度的方法一、控制系统误差二、精心编制量表三、有效组织测验四、扩大样本的容量扩大样本的容量，可以增加样本对总体的代表性，增加代表性便可以抵消测验的随机误差，使测验更稳定可靠。五、合理处理信度与效度的关系测验效度要受测验信度限制，事实上效度的最大值受它的信度所制约。信度是效度的必要条件，虽然信度高的测验效度不一定高，但效度高的测验，信度却一定比较高。六、适当增加测验的长度增加测验的长度，能提高测验的信度，从而使效度得到相应的提高。因此，增加测验的长度，既能提高测验信度也能提高测验效度。不过测验长度对信度的影响大于其对效度的影响。第八章难度第一节难度的计算一、客观性试题计算难度的方法（一）原始定义法当测验题目是采用二分法记分（即通过记1分，未通过记0分）时，可用公式P=R/N计算项目的难度。为平衡猜测对难度的影响，可用公式CP=（KP-1）/（K-1）校正（二）极端分组法极端分组法是根据测验总分按高低次序排列，用两极端组在某项目上的平均通过率表示项目的难度。极端分给法计算项目难度的公式为：P=（PH+PL）/2用极端分组法计算难度的步骤为：（1）按测验总分由高到低排序；（2）从高分段向下选出全部试卷的27%作为高分组；（3）从低分段向上选出全部试卷的27%作为低分组；（4）按公式P=（PH+PL）/2计算项目难度值。二、主观性试题计算难度的方法（一）平均分数法主观性试题的难度可用公式P=X/W来计算（二）极端分组法用极端分组法求主观性试题难度的公式为：P=（XH+XL-2NL）/2N(H-L)基本步骤为：（1）按测验总分依次排序，确定比例各25%的高分组或低分组；（2）为高分组、低分组分别编制每题得分的分析表；（3）用以上难度公式计算难度值。第二节难度对测验的影响一、难度对测验分数分布的影响测验项目的难度值越小，测验项目的难度就越大，正确回答试题的人数就越少，测验分数就越集中在低分端，其分数分布越呈正偏态分布；项目的难度值越大，难度就越小，正确回答试题的人数就越多，测验分数就越集中在高分端，其分数分布越呈负偏态分布。二、难度对测验鉴别力的影响测验的主要功能之一是鉴别学生水平的高低，适宜的难度可以加大考生得分的差异，从而提高测验的鉴别力。项目难度值为0.5左右时，测验得分的方差才可达最大值，而方差越大，测验的鉴别力越强。三、难度与测验目的的关系项目难度应根据测验目的来确定，不能认为任何测验项目的难度值等于0.50最好。一方面，如果每个项目的难度值都等于0.50,会使测验分数的分布呈又峰状态，即50%的人所有题目全部答对，得满分，50%的人所有题目全部答错，得零分。所以，最好使测验题的平平均难度接近0.50，即在0.50加减0.20之间，而不要求每个试题的难度值都等于0.50；另一方面，项目难度不能一概而论，应由测验目的的需要来确定，如果测验的目的在于选拔人，则应采用难度值接近录取率的项目，如果要录用10%的应聘者，则适宜难度应为0.10,又如要高考要录取80%的高生，则适宜难度为0.80。第九章区分度区分度是测验对考生实际水平的区分程度第一节区分度对测验的影响区分度通常用D表示。D的取值范围在-1.00和+1.00之间，D值越大，试题的区分能力越强。当D为正值时，说明试题是积极区分，即高分组通过率高，低分组通过率低。D为负值时，说明试题是消极区分，高分组通过率低，低分组通过率高。D为0时，说明试题无区分作用。一、区分度与难度的关系区分度与难度有着直接关系，在一定程度上说，难度决定了区分度。试题难度过大过小，其区分度都较低。当难度值为1.00或0时，高分组和低分给或全部得满分，或全部得零分，这时区分度都为0。调整难度是提高区分度的重要方法。虽然试题难度为0.50时区分度达到最大值，但并不需要所有试题的难度都为0.50,最好是各题难度在0.50加减0.20之间，平均难度接近两0.50为最佳。二、区分度与信度关系测验中各试题的区分度D值的平均数越大，测验的信度就越高。同时，试题的区分度是测验是否具有效度的指示器。项目区分度应根据测验目的而的，若测验是为了选拔人员，区分度要求较高，若测验只是考查学生对知识的掌握情况，可不过多考虑区分度。第二节区分度的计算一、极端分组法极端分组法仍然是依照前面的方法将测验总分排序，确定一定比例的高分组与低分组，然后根据高分组和低分组在某项目通过率上的差异比率，最后确定其区分度指标。（一）客观性试题区分度的计算计算公式为：D=PH-PL计算步骤为：（1）按测验总分由高到低排序（2）确定测验总分最高的27%的被试为高分组，最低的27%为被试低分组（3）分别求出这两给被试通过试题的百分比（4）将算得的有关数据代入计算公式（二）主观性试题区分度的计算计算公式为：D=（XH-XL）/N（H-L）计算步骤为：（1）按测验总分由高到低排序（2）确定测验总分最高的25%的被试为高分组，最低的2%为被试低分组（3）列出试题分析表（4）将有关数据代入区分度计算公式二、相关法用极端分组法求项目区分度，只使用了高分组和低分组的数据，中间还有部分数据没有参加计算，因而所得结果不够准确。为避免这一不足，可采用相关法分析项目的内部一致性，即以项目分数与效标分数（效标分数不易得到时，则以测验总分代替）的相关作为项目区分度的指标，相关越高，区分能力越强。（一）积差相关当考生在试题上的得分与测验总分都属于连续变量时，可以采用积差相关法计算试题的区分度。（二）点二列相关当测验的一个变量为连续变量，另一个变量为真正的二分变量时，要用点二列相关系数表示项目的区分度。（三）二列相关法当测验总分和项目分数均为连续变量，而其中一个被人为分为两个类别，欲研究它们之间的关系就要用二列相关法。（四）φ相关法当测验的两个变量都是二分变量时，可用φ相关系数来表示某项目的区分度。（五）项目效度分析法前面四种相关法都用内部一致性计算区分度，测验项目效度分析是要了解被试对某一试题的反应与外在效标之间的关系。具体采用什么分析法计算项目区分度，应根据测验的特质和种类来决定。如果该测验所要测的是单一特质，即测验量表由同质性题目所组成，宜采用内部一致性分析方法，如果测验是用来测量多种不同特质的，用来考验效度的效标也是多种特质的组合，则适用项目效度分析法。第十章教育测验的编制与实施第一节编制测验的一般原则一、目的性原则二、典型性原则三、灵活性原则四、科学性原则第二节编制测验的一般步骤一、确定测验目的二、分析教育目标教育目标的分析一般以布卢姆等建立的教育目标分类学为依据。双向细目表就是编制测验的蓝图。编拟测验双向细目表的一般步骤为：（1）按照各级教学目标的试题在整份试卷中的一般比例和学生的实际水平进行横向设计。（2）根据知识内容的重要性和综合性程度进行纵向设计。（3）根据纵横双向比例把实际得分点分配到中间每个格子中去，这样就制成了测验的双向细目表。三、测验取材并编拟题目（一）测验取材要有目的性（二）测验取材要有代表性（三）测验取材要有普遍性（四）测验取材要有鉴别性四、试测与分析五、编制测验第三节测验的编辑与实施一、测验的编辑（一）试题的检查（二）试题的编排1．将测验认知目标相同的试题编排在一起。2．应将同一类型的试题编排在一起。3．应由易到难排列试题。（三）编写答题说明答题说明一般包括以下内容：测验的目的测验的时间限制回答试题的方法记分的方法二、测验的实施（一）测验前的组织工作印制试卷时，一般可采用两种形式：其一是分离式试卷，基二是传统的综合式试卷。试卷应注意以下事项：不同类型的试题之间，应留出两行间隔，以达到使考生易读的效果；多重选择题的题干与选项不能印在同一行中，每个选项应单独占一行；一道试题不能分开印在两页上，以避免考生来回翻阅试卷，耽误时间，分散精加，发生错误；试卷上的试题作答空间应该够用；试卷应统一规格印制，并力求美观、经济与实用。（二）测验的施行（三）试卷的评定教育评价篇第十三章教育评价概述一、什么是评价评价：公平地说人或事物的价值，对人或事物的价值进行判断。二、教育评价活动的范畴任何一项教育评价工作，必须首先要解决这样几个问题：为什么评价，评价谁，谁来评价，用什么依据来评价，评价什么，如何评价。明确了这几大问题，教育评价才能科学、有效地实施。（一）为什么评，即教育评价的目的教育评价目的服务于教育目的，改进、优化教育活动。（二）评价谁，即教育评价的对象（也称教育评价的客体）（三）谁来评价，即教育评价的评价者（也称教育评价的主体）（四）用什么依据来评价，即教育评价的标准（五）评价什么，即教育评价的内容（六）如何评，即教育评价的模式、方法、过程等内容三、现代教育评价发展趋势及特点（一）评价功能从侧重鉴定走向侧重发展（二）评价范围由片面转为全面（三）评价主体由一元走向多元（四）评价过程从封闭走向开放（五）评价方法由单一的定量发展为定量、定性相结合四、教育评价的功能与作用（一）导向功能（二）鉴定功能（三）激励功能（四）改进功能五、教育评价的类型（一）按评价目的分类1．诊断性评价诊断性评价（diagnosticevaluation）又称为事前评价或准备性评价，它是指在某项活动开始之前，对评价对象的现实状况、所存问题及问题产生的原因作出的评价。布卢姆认为，诊断性评价就是在学期、学习单元的教学活动开始之前所实施的评价，其目的主要是了解学生是否具备接受新的学习任务所必需的基础知识、技能和能力；是为了制订课时教学计划而进行的评价。2．形成性评价形成性评价（formativeevaluation）是通过诊断教育方案或计划、教育过程与活动中存在的问题，为正在进行的教育活动提供反馈信息，以提高实践中正在进行的教育活动的质量的评价。3．终结性评价终结性评价（summativeevaluation）是指对评价对象在一定时期内的比较全面的状况所进行的评价。（二）按评价的参照标准分类1．相对评价相对评价是指在评价对象群体中选取参照标准，以确定评价对象在群体中的相对位置或与群体中某一个体之间的差距的评价。相对评价的参照标准，一般是该群体的常模，因此，相对评价也被称作常模参照评价。2．绝对评价绝对评价是指在评价对象的集合外选取某一参照标准，将评价对象与这个标准进行比较，判断其达到客观标准程度的评价。绝对评价关心的是评价对象是否达到了既定的参照标准及其达到程度，因此也称为目标参照评价。3．个体内差异评价个体内差异评价是把评价对象集合中各元素的过去和现在相比较，或者对一个元素的若干侧面相互比较。（三）按评价主体分类1．自我评价自我评价又称内部评价，是指被评价者依据评价原理对照一定的评价标准对自身进行的价值判断。自我评价的主体可以是个人、团体与组织，如学生的自评、教师的自评、学校的自评等等。2．他人评价他人评价又称外部评价，是指被评价者以外的人按照一定标准对被评价者进行的价值判断，如社会评价、领导评价、同行评价、专家评价、行政评价等等。（四）按评价方法分类1．定量评价定量评价是指在评价过程中运用数学方法去处理、分析信息，取得数量化评价结果的一种评价。2．定性评价定性评价是指在评价过程中采用非数量化的方式，对事物发展过程和结果采用观察和质性分析的方法进行描述、分析和评价，作出定性的评价结论。第十四章教育评价指标体系第一节教育评价指标体系概述一、教育评价指标体系的内涵（一）评价指标（二）指标权重（三）评价标准二、制定教育评价指标体系的依据（一）教育方针、政策和法规（二）教育评价目标（三）教育规律（四）教育实际三、制定教育评价指标体系的原则（一）时代性与导向性原则（二）科学性和可靠性原则（三）有效性与可行性原则（四）完备性与独立性原则第二节教育评价指标体系设计一、拟定评价指标（一）初拟指标 1．头脑风暴法2．因素分解法（二）筛选指标 1．经验法2．调查统计法二、分配指标权重 1．专家会议法2．特尔斐法3．层次分析法4．两两比较法三、制定评价标准（一）分解末级指标，形成评价要点（二）确定等级数量（三）确定标号和标度第十五章教育评价内容第一节学校评价一、学校评价观二、学校评价内容三、学校评价实施方向定位系统，产品输入系统，资源条件系统，组织管理系统，过程监控系统，产品输出系统，评价反馈系统。第二节教师评价一、教师评价观二、教师评价内容三、教师评价实施上课、说课、听课第三节学生评价一、学生评价观二、学生评价内容三、学生评价实施发展性评价第十六章教育评价模式教育评价模式是教育研究工作者依据某种教育理念、教育思想或特定的教育评价目的，选取一种或几种评价途径所建立起来的相对完整的评价体系。第一节目标模式一、目标模式的提出二、目标模式的基本内容（一）确定教育目标（二）设计评价情境（三）选择和编制评价工具（四）分析评价结果目标模式可以进一步具体化为以下几个步骤：（1）确定教育目标；（2）根据行为和内容来界说每一个目标；（3）确定应用目标的情景；（4）设计呈现情景的方式；（5）设计取得记录的方式；（6）决定评定时使用的记分单位；（7）决定获取代表性样本的手段。三、目标模式的优缺点目标模式的优点是：（1）在泰勒主张“用教育评价来代替测验”的概念下，运用目标分类理论，不仅考察学生对知识的回忆，还考察了理解、应用、综合等复杂的目标。并且在评价方法上也不只限于纸笔测验，只要是关于行为目标是否达成的有效证据，都可以看成是评价的有效方法。目标模式涉及观察法、访谈法以及对学生作业和练习的评估等方法。（2）注重目标和注重目标分类，并用行为术语表达目标，评价目标的标准简洁明了。（3）通过对学生行为的考察确定达到目标的程度，通过反馈信息，促进教育活动能够尽可能地逼近教育目标。（4）操作性强，容易见效，且比较经济。目标模式也有很多不足，主要有：（1）评价以目标为中心和依据，评价目标来源于课程目标、教育计划等，忽视对目标本身合理性的判断。（2）针对学生的特定行为结果进行判断，有些行为结果被排除在评价之外，因此容易造成教育评价内容不全面。（3）教育目标需作行为化表述，可是有的教育目标不易用行为语言恰当表述，像人类情感和意识等因其本身的复杂性，用行为目标来表述难免有简单化之嫌。（4）对学生行为结果作评价，重视结果评价，忽视了过程评价。（5）用统一的目标模式评价每一个人，忽略了人的个性化特征。四、目标模式的运用第二节CIPP模式CIPP模式是用四种评价方式的第一个英文字母命名的，即背景评价(Context-evaluation)、输入评价(Input-evaluation)、过程评价(Process-evaluation)和结果评价(Product-evaluation)。一、CIPP模式的提出二、CIPP模式的基本内容（一）背景评价(Context)（二）输入评价(Input)（三）过程评价(Process)（四）成果评价(Product)三、CIPP模式的优缺点CIPP评价模式的优点是：（1）根据现实需要和社会需要，考虑了评价目标的选定及其合理性问题，使目标更符合社会需要，符合实际。克服了目标评价模式的不足。（2）评价贯穿教育活动的始终，使评价成为改进工作，提高教育质量的工具。（3）评价的内容广泛，从对教育需要的调查开始，包括需要、问题、目标、条件、计划、实施、结果以及结果的影响等教育过程的所有阶段。对教育过程不同阶段、不同方面的评价，评价发挥着不同的功能，对上述全部内容的评价也就

人人文库> 全部分类> 教育资料 > 中学教育

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

教育统计与测评技术教案

文档简介

温馨提示

最新文档

评论

教育统计与测评技术教案

文档简介

温馨提示

最新文档

评论

相关文档