当前位置:
  第二节 有效教学测验的基本要求

既然教学测量与评价是有效教学活动的一个必要环节,而教学测量是以科学的教学测验为工具施行的,那么有效教学测验有哪些基本要求呢?

 

一、测验的效度

 

(一)效度的含义

 

测验的效度指的是测量的正确性和有效性,即它能够测出所要测量的心理特质与行为特征的程度。换言之,效度指测验能在多大程度上达到测量目的。它是科学测量工具最重要的质量指标。一个测验若无效度,则其他任何优点都无法发挥其真正的功能。因此,在编制教学测验时首先必须考虑其效度。当然,效度也不是绝对的,而是相对的。任何一种测验只是对一定的目的来说是有效的,对其他目的和用途却不一定有效。另外,由于测验是根据行为样本对所要测量的目标作间接推断,因此效度只能达到某种程度,不可能全有或全无。

 

(二)效度的类型

 

考察效度的方法很多,根据其侧重的问题不同,可将测验的效度分为三类,即内容效度、构想效度、实证效度。

 

1.内容效度

 

内容效度指测验题目对有关内容或行为范围取样的适当性,也就是测验所选的项目是否符合所要测量的东西,其代表性是否适当。要编制内容效度高的测验,必须注意两点。

 

第一,要有一个定义完好的内容范围,即对测量目标应有一明确的界定。对学绩测验而言,它所要测量的是学生能力的形成状况,而能力是概括化和系统化了的知识和技能。因此,在编制学绩测验时,应依据教学内容和教学目标,对能力结构中的知识因素和技能因素进行综合测量。

 

第二,测题对所界定的内容范围应是代表性取样。也就是说,要根据教学内容和教学要求的重要性来选择题目,而非随机取样,以便使选出的题目能包含所测内容范围的主要方面,并使各方面题目比例适当。学绩测验尤其强调取样的适当性。但是有的教师编制测验的随意性很大,不注意取样的策略,他们或者对什么感兴趣就出什么题,或者觉得怎么方便就怎么出题,或者为难倒学生而出一些偏题、怪题。这样编出来的测验内容缺乏代表性,其内容效度必然很低。为了防止这种情况发生,必须对内容范围进行系统分析,将该范围区分为细目,并对每个细目作适当加权,然后再根据权数从每个细目中随机取样,直至得到所需要的题目。

 

鉴定学绩测验的内容效度最常用的方法是,请有关学科专家和有经验的教师对课程标准和教科书作全面考察,并与测验题目作系统比较,看测验题目是否适当地代表了所规定的内容。如果测验题目具有较好的代表性,说明该学绩测验具有较好的内容效度。

 

2.构想效度

 

构想效度指测验对某种理论的符合程度,其目的在于用心理学的理论观点对测验的结果加以解释及探讨。当测验的目的是用来测量能力、创造力、人格等抽象而带有假定性的特质或结构时,我们就应重点考虑测验的构想效度。

 

要建立具有构想效度的测验,必须先从某一理论出发,导出与这一理论构想有关的基本假设;据此设计和编制测验;然后由果溯因,审查测验结果是否符合心理学的理论见解。例如,能力的类化经验说认为能力是一种概括化与系统化了的知识和技能,根据这一理论,可以提出下面三项假设:(1)能力随学习的进程(年级)而增长;(2)能力不由年龄决定;(3)能力和学习成绩密切相关。如果我们据此编制学绩测验,并对测验结果分析后发现,测验分数随年级的上升而提高,同一年级不同年龄的学生无显著差异,测验得分高的学生平时学习成绩好,那么我们就可以说该学绩测验具有良好的构想效度。

 

检验构想效度的方法很多,比较简单和常用的方法有以下几种。一是利用测验的内容效度。根据某种理论构想所编制的测验如果有内容效度,也就证明了该测验有一定的构想效度。二是利用相容效度,将测验结果与另一个效度已知的同类测验结果进行相关检验。如果相关高,说明所编制的测验具有一定构想效度。三是利用预测效度。如果用来测量某一理论构想的测验可以有效地预测某一行为,那么可以说该测验具有一定的构想效度。

 

3.实证效度

 

实证效度又称效标关联效度,指测验对处于特定情境中的个体行为进行预测的有效程度。一个测验预测得越准确,就越有效。其中被预测的行为是检验效度的标准,简称效标。

 

根据效标资料搜集的时间,实证效度可分为同时效度和预测效度。前者与用来诊断现状的测验有关,后者与预测将来结果的测验有关。例如,用大学入学考试来预测学生进入大学的学习成绩,用职业测验来预测个体在一定工作岗位的工作能力等。

 

检验测验的实证效度,最主要的难点在于找到合适的效标。因为有些效标无意义,有些效标有种种缺点。好的效标应该是有效的、可靠的、客观的。实证效度一般可通过考察测验分数与效标的关系来确定。常用的方法是求两者之间的相关系数。相关系数高,说明该测验实证效度高。

 

通过上面的介绍,我们明确了三种效度之间的差异。但实际上它们之间有着一定的内在联系:内容效度和构想效度既是实证效度的保证,又需要实证效度的支持;考察内容效度和实证效度可以帮助确定构想效度;用于测量某种构想的测验可以作为实证效度的预测源来使用。总之,内容效度、构想效度和实证效度既相互区别,又相互联系。根据不同的需要,一个测验可以采用不同的效度。对教学测验而言,我们感兴趣的主要是取样的适当性,也就是内容效度,有时也需要考虑构想效度和实证效度。

 

二、测验的信度

 

(一)信度与信度系数

 

测验的信度又叫测验的可靠性,指的是测量的一致性程度。一个好的测量工具必须稳定可靠,即多次测量结果要保持一致,否则便不可信。但是,高信度并不是测验追求的最终目的,它只是使测验有效的一个必要条件。

 

信度指标通常以相关系数表示,即用同一被试样本所得的两组资料的相关系数作为测量一致性的指标,称为信度系数。估计信度系数的方法很多,常见的有以下几种:(1)再测法。用同一种测验前后两次施测同一组被试的测验得分的相关系数表示信度。它反映测验分数的稳定程度,其相关系数又称稳定性系数。(2)复本法。用两个等值(复本)测验施测同一组被试的测验得分的相关系数表示信度。这种相关系数反映两个复本测验的等值程度,所以又叫等值性系数。(3)分半法。将同一测验分成对等的两半并施测同一组被试,用得到的测验分数的相关系数表示信度。它是复本法的特例,还可用来估计测验内部的一致性。这种相关系数又叫内部一致性系数。(4)同质法。用测验内部(测量同一特质或属性)不同分测验(异质而有关联的测验题目)之间的得分的相关系数表示信度,估计的是测验题目的同质性或普遍性,其相关系数也叫普遍性系数。对于教学测验而言,由于两次测验之间的学习和遗忘不同,所以用稳定性系数来估计其信度是不适当的。除了成套测验的分测验外,一般学绩测验所测量的均不止一种能力,因此用同质性来估计信度也不适当。估计学绩测验的信度最常用的是复本法,如果没有复本,也可用分半法。

 

(二)信度的影响因素

 

要想提高测验的信度,了解并掌握影响它的因素是十分必要的。信度的影响因素,主要来源于四个方面,即测题数量、测题难度、施测对象和施测过程。

 

1.测题数量

 

由于测验是测量的一个样本,因此取样的适当性必然影响到测验的信度。如果测题数量太少,不能代表整个学习内容的全域,这样的测试必然带有偶然性,其信度不可能很高。要提高信度,一般来说,增加测题数量是一个有效的方法。但必须注意,只有当新增加的题目和原来的题目取自同一总体,即与原题目具有同质性时,增加题目数量才能提高信度。

 

虽然增加题目数量可以提高信度,但并不是题目越多越好。增加题目数量的效果是遵循报酬递减律的,即当题目达到一定数量后,再增加题目数量往往得不偿失,有时会引起学生的疲劳和反感而降低可靠性。为了节省经费和时间,有时还需要把过多的题目适当删减,而不使其对信度有大的损害。

 

总之,增加测题数量可以提高信度,但是测题数量须有一定限制,并非越多越好。

 

2.测题难度

 

测题的难度和信度没有直接的关系。然而,如果测题对某团体过难或太易,则分数范围将缩小,信度也将降低。这表明,要使信度达到最高,能产生最广分数分布的难度水平方为合格。

 

当测题难度过大,远远超出被试能力水平时,被试对许多项目作随机反应即瞎猜,则所有被试的总分接近随机分布,因此其信度极低。反之,测题太易,几乎所有被试均能正确作答,则分数分布很集中,因此信度也很低。有关测题难度及区分度的问题,我们下面还将讨论。

 

3.施测对象

 

即使一个测验经过精心编制,题目取样具有代表性,由于受测者动机和焦虑的变化,也会给测验信度带来影响,这是最难控制的因素。

 

由于学生的应试动机不同,他们的注意力、情绪状态、焦虑水平也不同,从而影响测验成绩,使信度受到影响。一般来说,恰当的动机、适度的焦虑水平会使人的兴奋性提高,注意力增强,提高反应速度,从而对测验成绩产生积极影响。动机过强、焦虑水平过高都会使工作能力降低,注意力分散,思维变得狭窄而刻板,从而对测验成绩产生消极的影响;反之,动机过弱、焦虑水平过低的被试往往采取满不在乎的态度,从而测验成绩大多较低。可以说,适当的动机和焦虑水平是保证测验信度的必要条件,过强或过弱的动机和焦虑水平都不利于测验信度的提高。

 

4.施测过程

 

测验的环境条件如通风、室温、采光等条件会影响到测验的稳定性,室内燥热、考场周围嘈杂、座位拥挤、考试秩序混乱等都会导致测验信度下降。主试错误理解指导语,不按规定严格施测,或故意制造紧张气氛等也会影响测验的信度。

 

应该说明的是,虽然信度和效度都是鉴定测验质量的指标,但两者并不是完全一致的。一般而言,效度高的测验,其信度也一定高;信度高的测验,其效度却不一定高。也就是说,高信度是高效度的必要但非充分条件。

 

三、项目的难度与区分度

 

信度和效度是就整个测验而言的,难度和区分度则是就测验题目(简称项目)而言的。每个测验都包含有许多项目,每个项目都有它的难度和区分度。

 

(一)项目难度

 

项目难度指测验题目的难易程度,通常以答对或通过该项目的人数占应试总人数的百分比来表示。也就是用通过率来表示难度,通过率越高,难度越小。但对于不同的测验题型,其计算有所不同。

 

对于是非题,当只有正确或错误两种答案时,可以用通过该题人数的百分比代表难度,公式为P=R/NP,难度;N,受测总人数;R,通过该题的人数),也可以用极端组的方法计算难度,公式为P=PH+PL/2PH,高分组(总分最高的27%的学生)答对该题的人数占高分组学生总数的百分比;PL,低分组(总分最低的27%的学生)答对该题的人数占低分组学生总数的百分比]。

 

对于选择题,如在K个选项中(K>2)只有一个正确答案,则其难度可以在该项目的通过率P的基础上进行矫正,计算公式为CP=KP1/K1)(CP,矫正后的难度;P,未矫正的难度;K,选项的数量)。这是因为对单选题学生可能随机猜测,用此公式则能排除这种影响。

 

对于论文型题目,可以用某题的平均分数为依据计算难度,公式为P=M/WM,全体考生某题的平均得分;W,某题规定的最高得分),也可以用极端组的方法计算难度,公式为P=MH+ML2Nl/2Nhl)][MH,高分组(总分最高的27%的学生)考生该题得分之和;ML,低分组(总分最低的27%的学生)考生该题得分之和;N,所有考生总人数的27%;h,该题最高得分;l,该题最低得分]。

 

至于项目的难度多高合适,则取决于测验目的。如果测验是为了考察学生对某些方面的知识、技能是否掌握(掌握性测验),可不考虑项目难度,只要是教学目标中重要的内容就可以,甚至通过率100%0%的测题也不必淘汰,可以继续使用。当测验主要用于选拔时(选拔性测验),就应比较多地采用那些难度值接近录取率的项目。如果我们要把全体受测者作最大程度的区分,则050左右的难度最合适。总之,对项目的难度特征进行分析时,应考虑到测验的目的,不能一概而论,一般在030070为宜。

 

(二)项目区分度

 

区分度又称鉴别力,是指试题对所要测量的心理特性的识别程度,也就是项目的效度。项目效度越高,其区分度越大,鉴别力越强。但对于不同的测验题型,其计算也有所区别。

 

对于客观题,项目区分度的简便计算公式是D=PHPLD,区分度;PH,高分组通过该题的人数占高分组总人数百分比;PL,低分组通过该题的人数占低分组总人数百分比)。

 

对于论文型题目,项目区分度可以这样计算,D=MHML/Nhl)][D,区分度;MH,高分组(总分最高的27%的学生)考生该题得分之和;ML,低分组(总分最低的27%的学生)考生该题得分之和;N,所有考生总人数的27%;h,该题最高得分;l,该题最低得分]。

 

项目区分度多高合适也和测验目的密切相关。就学绩测验而言,一般要求项目与总分的相关达到020以上,高分组与低分组通过率之差达到015020。一般认为D>040,该题非常优良;D<019,该题必须淘汰。但是这一标准也不是绝对的。一个测验用于选拔,其区分度应该高一些;如果一个测验只是用于考察学生对知识、技能的掌握情况,可不考虑区分度,即使区分度为0,只要该项内容是重要的,今后仍可继续使用。

 

总之,信度、效度、难度和区分度是鉴定测验质量的客观指标。一个良好的测验必须既有较高的信度,又有较高的效度,并且每个项目都有一定的难度和区分度。广大教师在编制教学测验时,应该综合考虑这些要求。