当前位置:
  第三节 教学测验的类型及其应用
   一、教学测验

 

(一)常模参照测验和标准参照测验

 

在学校教学过程中,教学测验可以用来测量和评价学生在一定群体中的等级,也可以用来测量和评价学生是否有效地完成了教学目标。前者即常模参照测验,后者即标准参照测验。

 

1.常模参照测验

 

常模参照测验(norm-referenced test)是以学生团体的平均成绩作为参照标准,就某学生得分的高低来说明其在学生团体中的相对位置(或名次),将学生分类排队。其特点是学生成绩的高低是相对的。它着重学生个人之间的比较,适于区分学生的成绩水准,可供选拔、编班、编组之用。这种测验要求测得的分数变异性要大,得分的范围要广,充分显示个别差异;要求试题有很强的鉴别力。这种测验重视名次排列,鼓励竞争,对学生的学习起考核和监督的作用,但缺少诊断的效用,且易引起学生过度的紧张与焦虑。

 

2.标准参照测验

 

在学校里,凡是参照规定的作业标准,核对学生的测验得分,评定其是否达到标准以及达标的程度如何的测验,都属于标准参照测验(criterion-referenced test)。其特点是学生成绩的高低是绝对的,不是表示他在同辈集体中的相对位置。这种测验在课程和教学改革的推动下产生,从20世纪60年代起颇受重视。学生的学业成绩宜用学习的数量和程度来表示,而且只有与预先规定的某种标准加以比较才具有确定的意义。这种测验的试题必须正确地反映教学目标,方可作为评价的标准,所以要求试题在数量上和质量上同要测定的内容和范围一致,而不必关心题目的难易和区分度。在测验中如果发现多数学生不能正确回答某些题目,那么就要检验这些题目是否体现了教学目标,要考虑教学方法是否恰当,而不是简单地剔除它。标准参照测验能用来考查学生的基础知识与技能的学习情况,哪些学得较好,哪些没有学好,需要补救。因此,标准参照测验主要用于基本知识、基本技能的测量,用于诊断及个别指导。

 

(二)准备性测验、形成性测验和终结性测验

 

测量与评价贯穿于教学过程的始终,从教学开始至教学结束。教师必须根据教学过程的不同阶段,灵活选用不同的测验。

 

1.准备性测验

 

准备性测验(preparatory test)一般在教学活动开始之前施行,目的在于了解学生对未来的教学活动的准备状态,即是否具有完成新的教学任务所必需的基本知识和基本技能,从而有效地安排教学。准备性测验一般属于掌握性测验,试题难度较低,考核内容主要是有关基本知识和基本技能,目的在于为制订教学目标和教学计划提供依据。这种测验往往在教师不了解学生的知识和能力时,或者所预测的学习结果非常具体并有明显的顺序的情况下采用。

 

2.形成性测验

 

形成性测验(formative test)一般在教学过程中进行,目的在于了解学生在教学过程中达到教学目标要求的程度,探究教学中存在的问题或缺陷,以便及时调整教学,提高教学的自觉性和主动性。形成性测验一般要根据情况进行多次,它应成为教学过程的一个有机组成部分。它通常也属于掌握性测验,试题根据教学内容和教学要求编制,可难可易,一般由任课教师本人根据教学进度和实际教学情况实施。但它一般不以区分学生的优良程度为目的,不重视对学生分等鉴定,以及学生之间成绩的比较。教学测量与评价的反馈—调节功能主要是通过形成性测验来实现的。

 

3.终结性测验

 

终结性测验(summative test)一般在教学活动结束后进行,目的在于考察教学目标达到何种程度,判明是否有必要修订教学目标,重新进行补救教学,同时,检查教学活动的组织是否得当,教材的安排是否合理并确定学生的学习成绩。其目的在于对整个教育活动所取得的较大成果作更为全面的评价。它与形成性测验有明显的区别。形成性测验比终结性测验频繁。通常当一种新观念或新技能的初步教学完成时,都应进行形成性测验。终结性测验则着眼于较大范围内教学内容的掌握,往往是在形成性测验的基础上进行的。终结性测验因其涉及的范围广,所以测验的内容须注意代表性,各种试题的比例应与整个课程各类学习结果所占的比例相当。

 

然而,准备性测验、形成性测验和终结性测验三者之间并没有不可逾越的鸿沟。某一教学单元的终结性测验,往往可以作为下一教学单元的准备性测验;某一小的教学单元的终结性测验,往往是某一大的教学单元的形成性测验。在实际教学中,我们应该综合运用三种测验形式。

 

(三)标准化学绩测验和教师自编测验

 

标准化测验指经过标准化程序编制的心理与教育测验,教师自编测验则指教师根据教学需要自行设计与编制的测验。

 

1.标准化学绩测验

 

标准化学绩测验(standardized achievement test)是指由学科专家和测验编制专家共同按照标准化程序为受过某种教学或训练的人员编制的测验,目的在于评价经教学或训练后的实际工作表现。

 

所谓标准化程序,包括:选取有代表性的材料编成测验的试题;选取有代表性的被试,从而得到有代表性的一组分数;根据测得分数的统计分析,求出常模;按照规定程序建立效度与信度;明确规定施测步骤和记分方法。简言之,标准化测验即是已经具备常模、效度、信度、施测程序和记分方法等基本条件的心理教育测验。智力测验和人格测验都可以是标准化测验,而标准化学绩测验则是标准化测验的一种。

 

由于标准化学绩测验具有客观性和可比性的优点,所以它是评价学生学业成绩的重要工具之一。这种测验在国外使用比较普遍。例如,美国教育测验中心举办的托福考试(TOEFL)考核非英语国家学生的英语水平,决定是否录取留学和授予奖学金。目前,我国的标准化测验工作也正在进行。高考的标准化工作已取得一定进展,并在逐步推行。对外汉语水平考试(HSK)则是其中的典型代表,外国学生通过四级才能进入中国的大学学习,通过六级才可申请攻读硕士学位。

 

2.教师自编测验

 

教师自编测验(teacher-made achievement test)是指教师根据自己的教学经验和教学风格,自行设计和编制的用来考察学生学习进步情况的测验。由于学校科目繁多,教学检查需经常进行,而教师自编测验操作过程简单,施测手续方便,应用范围一般限于自己所任教的学科,在实际教学中颇为有用,所以是应用得最多和教师最愿意用的测验。虽然这种测验未经标准化,但其编制也需要遵循一定的原则。例如,测验应能测量明确规定的学习结果,忠实反映教学目标;测验应能测出预期的学习结果和教材的代表样本;测验应按预期的学习结果选择试题类型;测验要有效、可靠等。教师只有掌握教学目标,并熟悉各种形式的试题的特点与性能,方能编制出恰当的测验,从而保证评价工作顺利进行。

 

二、学绩测验的命题

 

编制学绩测验的核心是命题。要编制良好的学绩测验,最重要的是要掌握命题的方法和技巧。

 

(一)试题的类型

 

试题的类型(题目的形式)在学绩测验中占有很重要的地位。如果题型不适当,测验就要浪费时间,评分时就会发生种种困难。因此,在编制学绩测验前,必须慎重选择适宜的题型。

 

人们在长期的测验实践中,发展出了多种多样的题目形式,根据应答方式的不同可以分成两大类:客观题和主观题。

 

1.客观题

 

客观题具有良好的结构,对学生的反应限制较多。学生的回答只有对错之分,因此教师评分也只能是得分或失分。这类题目包括选择题、填空题、匹配题和是非题等。

 

1)选择题,由题干和两个或更多的选项组成。题干可以是直接提问或者以不完整的句子的形式出现,目的是为了设置问题情境。而选项则提供可供选择的答案,包括一个或多个正确答案和若干具有干扰性的错误项或迷惑项。学生的任务就是阅读题目,再从一系列选项中挑选出正确的项目。

 

教师在出题时,要综合考虑题干和选项,使整个题目清楚明了。选项的数量一般没有统一的规定,教师可以随意确定选项的个数,大多是45个,这样可以避免学生猜测答案。所有的题目也可以安排各自不同数量的选项。良好的选择题的题干应该明确简单,选项具有迷惑性。

 

经过精心设计的题干和选项,可以有效地测查学生知识的掌握水平。此外,选择题还有一种常用变式,选项中有一至多个正确答案,即通常称为多选题。这种题型的难度大大高于常规的选择题(单选题),可以有效地检查学生学习的深度,在测验中也广泛使用。

 

总之,由于选择题可适用于文字、数字和图形等不同性质的材料,可以考察记忆、分析、鉴别、推理、理解和应用知识的能力,再加上它的评分客观、省时,学生猜测的可能性相对小些,因此在标准化的学绩测验中被广泛采用。其缺点是:答案固定,测不出学生组织材料的能力和创造力;题量大,要为每个题目编写迷惑答案,任务比较繁重。

 

2)是非题,又称正误题,可以看做具有两个备选答案的选择题。它常用的形式是,陈述一句话,要求学生判断对错或是非。是非题主要适于考察学生对简单观念或知识的了解。

 

是非题形式简单,能够在一份试卷内覆盖大量的内容。教师在评判时也较客观,记分简便省时。但是由于答案非对即错,即使在完全猜测的情况下,学生也有50%的机会选择到正确答案,因此其可靠性较差。一种改进的办法是,增加题目的数量。由于题量大,对题目总体的取样较全面,学生很难只凭猜测获得高分。

 

3)匹配题,是另一种可提供多种选择的考试形式。通常,匹配题包括两列词句,一列是问题选项,一列是反应选项。学生根据题意按照某种关系将左右的项目连接起来。匹配题形式简单,能够有效地测量学生对知识联系的掌握情况,且易于记分。但是,它只能用于测查彼此存在着简单关系的知识。

 

4)填空题,呈现给学生一句或一段不完整的话,要求学生简要作答。当教师的目的是考察学生对知识的回忆时,填空题十分有用,它可将学生猜测的可能性降到最小。如果经过精心设计,也可以通过填空题来考察学生对知识的理解、推理和判断能力。填空题的问题在于,学生的答案各不相同甚至还会出现出人意料的答案,学生的答案还会受笔迹、用词等无关因素的影响。

 

2.主观题

 

主观题要求学生自己组织材料,并采用合适的方式表达出来。这类题型包括论文题、问题解决题等。教师在评分时,对学生的回答需要给出不同量的分值,而不仅仅是满分或零分。

 

1)论文题,指要求学生用文字论述方式阐述相关观点的题目,回答字数可以从几段到几页不等。一般较常使用的有两种类型:有限制的问答题和开放式论文。有限制的问答题是指教师对回答的内容和长度都有规定,如平时测验中的简答题等。例如,说明戊戌变法中的重要人物、事情经过以及结果。简答题适合于考察学生对知识的记忆和理解程度,还可以测量学生对材料的概括能力。开放式论文则允许学生在内容上可以自由选材,自由发挥,而且篇幅较长,如平时测验中的论述题等。论述题有利于学生清楚地表达自己的思想,可以考察学生对材料的理解深度和对材料的组织能力、综合能力,有时还可以测量评价能力和创造能力。

 

不过,使用论文题也有许多不便之处。首先,学生回答论文题需要花费很多时间。因此,在一份试卷里只能出现少量的题目,对课程内容的取样也就非常有限。一般可以通过增加小的论文题(即简答题或问答题)来尽量避免这个问题。其次,对于熟悉自己学生的教师,在判卷时很难做到客观,教师对学生的总体印象往往会影响到对论文的评价,导致信度较低。

 

2)问题解决题,是向学生提供一定的问题情境和目标情境,要求学生通过对知识进行组织、选择和运用等复杂的程序来解决问题。通常有两种形式。一种是间接测验,与前面提到的几种测验形式一样,采用纸笔测验来评价学生的学业成就或能力。学生通常必须写出若干步骤或过程,以展现他的思路。评分时,按照步骤记分,如果缺少某些步骤就不能得分。平时的物理、化学、生物等学科的考试经常会出现这种类型的题目。另一种则是直接测验。例如,为了考察学生学习本节内容的情况,让学生编制一份测验两步应用题的试卷。由于它考察了学生处理实际问题的能力,所以有时我们又把这种形式叫做操作测验。在实际考核过程中,教师可以要求学生设想一个可以解决本市垃圾处理问题的方案,或者要求学生测量学校操场的面积等。操作测验对于考察高级思维技能十分有效,但是往往费时费钱,而且主观性较大,其效度也经常受到质疑。

 

当然,主观题和客观题并不是彼此对立的,而是各有短长,各有自己的独特的功能。在实际教学中,应根据不同情况,灵活选择题目形式,以提高测验的信度和效度。

 

(二)命题的一般原则

 

虽然学绩测验的试题形式繁多,性质不同,功能各异,但在编制时还是有规律可循的。

 

1)试题要符合测验的目的。学绩测验的目的有多种,是作为选拔、诊断之用,抑或作为评价或分类之用?这一点是命题时必须明确的。测验目的不同,编制测验的取材范围及试题难度也就有所不同。

 

2)试题内容的取样要有代表性。由于学绩测验只是测量目标的一个样本而不是全部,因此试题内容的取样应有代表性,能代表该学科的全部内容,而不能只偏重某一方面的内容而忽视其他方面的材料;否则,这个测验的效度就不可能高。

 

3)题目格式应多种多样。在同一份试题中,应依据测验的目的与要求的不同,选用各种不同的题形式,不宜“单打一”。如果要考察学生对概念的记忆,宜用简答题;要考察对事物的辨别和判断,宜用多选题;要考察学生综合运用知识的能力,宜用论述题。此外,题目格式应明确,不要使学生误解。

 

4)文句要简明扼要。测验题目的文字应力求浅显简短,不要使用艰深的字词,要排除与题目无关的多余信息;同时又不能遗漏解题所必需的条件,否则试题便无法解答。

 

5)答案应正确可靠。对于标准化学绩测验,应有不致引起争论的正确答案,即测题的答案应是没有疑义的,是可靠的。

 

6)测题应彼此独立。各测题不能含有暗示本题或他题的正确答案的线索。如果一个题目的命题或答案的内容为另一个题目的解答提供了线索,那么这后一个题目就失去了测验的意义,得分也就不能准确地反映学生的成绩。

 

以上是编制学绩测验时命题所应遵守的一般原则。只有遵守这些原则,学绩测验才有可能达到较高的信度和效度。

 

(三)命题的准备和搜集

 

要编制良好的学绩测验,仅明确命题的类型和一般原则是不够的,还必须了解如何制订编题计划以及如何进行命题准备等问题。

 

1.制订编题计划

 

编制测验就如建筑房屋,必须事先设计周详的蓝图,以作为命题的依据。这样,测题的内容才能具有适当的代表性,从而发挥测量的功能,实现测量的目标。对于学绩测验而言,在命题前,应根据课程标准,列出教学内容和行为目标的双向细目表;并依据本次测验的性质、目的,确定题目的取材范围、形式与数量。

 

命题前,测验蓝图的制订通常就是编制一张双向细目表。它能有效指出测验所包含的内容和要测定的各种目标以及对每个内容—目标的相对重视程度。所谓内容就是能力与品格的构成要素,即有关的知识、技能、态度等;所谓目标就是教学中所要达到的要求,即有关知识、技能、策略的掌握层次及态度的内化水平等。

 

但是,根据课程标准编制的教学内容和教学目标的双向细目表,只是学绩测验的一个总的蓝图。在具体编制测验时,还必须根据本次考试的性质、目的,将它具体化,即:要依据本次考试的教材内容,确定题目的取材范围;依据本次考试的教学目标和目的,确定题目形式;依据内容—目标的相对重要性,确定题目数量。例如,本单元包括哪些要点,在这些要点中,哪些属于知识因素,哪些属于技能因素;在知识因素中,哪些属于概念,哪些属于命题……在具体编制测验时,要把相应的题目和它们一一对应。

 

2.进行命题准备和搜集

 

测验计划编好后,就要搜集有关资料作为命题取材的依据。一个测验的好坏和测验材料的选择适当与否有密切关系。为此,教师在平时教学中,要随时把教材中重要的地方做好标记;在批阅作业或日常考试的试卷时,要记载学生常见的错误;经常搜集其他教师编拟的现成试题,并随时把搜集到的或自编的试题记在卡片上,分科分类储存,以建立试题库。

 

前已阐明,学绩测验只是所要测量的能力与品德结构的一个有代表性的样本,不可能顾及所有的构成要素与层次,而样本的代表性和教材的重点与难点、资料的丰富性与普遍性密切相关。教师只有在平时留意教材的重点与难点,注意搜集现成试题并分类储存,才有可能使试题的内容更有针对性,从而编制出可信和有效的学绩测验。反之,如果教师在平时教学中不做扎扎实实的工作,则所编试题可能没有代表性,不能达到测验的信度和效度要求。

 

(四)命题难度梯级的建立

 

为了考核学生对教材的掌握程度,可以对同类试题的难度列成一个梯级。难度是命题时要考虑的一个重要问题。教师在建立试题库时,不仅要把搜集或自编的试题分类储存,而且应该根据自己的主观经验,将同类试题进行分类。可先将其分为难、中、易三部分,然后按照由易至难的顺序排列,形成一个同类试题的难度序列,以便考察学生的知识掌握程度。

 

三、测验的评分及结果分析

 

(一)学绩测验的评分

 

一套好的命题并不等于一个好的测验,即使测验的内容和施测等方面都进行了标准化,测验的评分也会影响其信度和效度,从而影响测验的质量。就学绩测验而言,特别是对于教师自编的学绩测验,其评分应注意以下几点。

 

1.评分要客观公正

 

客观评分是学绩测验的基本要求。对于客观题,客观评分比较容易做到。但是对于主观题,由于评分标准很难把握,各个评阅者的偏好各不相同,即使是同一位教师一次评阅多份试卷,受情绪、疲劳、试卷前后位置引起的对比效应以及对学生成见的影响,标准也可能不统一,因此其评分的客观性较差。为了使评分尽可能客观,一般可采取多人评阅求平均和每人负责评阅一题的办法。

 

2.评分标准要规定答案要点及可接受的变式

 

对于客观题,只要提供正确答案即可。对于主观题,则应详细规定答案要点,并对评分规则作详细的说明。评分时将每个人的反应和评分说明书上所提供的样例相比较,然后按最接近的答案样例给分。同时,由于同一问题可以从不同角度用不同方法进行解答,因此评分标准不仅要规定一般的答案要点,而且应有可接受的变式。

 

3.评分标准要依据题目的难易及要点的主次配给分数

 

为了科学地给每个题目配给分数,应该对所要测量的心理活动进行系统的结构分析和功能分析,确定其内容—目标的相对重要性。并在此基础上,依据题目的难度,合理配给分数。

 

4.评分时要注意分析评分和综合评分相结合

 

    分析评分即按各要点给分。分析评分便于诊断以往学习中的断裂点和断裂带,明确学生个体内部的差异以进行针对性教学。综合评分即从整体上考察,分别为不同等级确定样本。综合评分可以了解学生的一般状况,便于总体了解和把握。因此,在对学绩测验进行评分时,应注意二者的有机结合,以实现教学测量与评价的目的。

 

5.评分标准应注重内容,不宜注重形式

 

学绩测验所要测量的是学生对有关知识、技能、策略的掌握程度,因此评分时注重的应是考生回答的内容,而不应是作答的形式。除中文科目之外,其他科目试卷的评阅不应受错别字、书法、句法以及卷面整洁等因素的影响。

 

(二)测验结果的分析

 

运用科学的测量工具得到一个精确的分数,并不是学绩测验的最终目的,还必须对学绩测验的结果进行分析和解释。这主要包括对测验本身(每个测题、整个测验)的分析和对教学活动的分析两个方面。

 

1.对测验本身的分析

 

对每个测题而言,测验结果的分析可以了解每个测题的性能,提高测验编制技术,积累好的试题。主要应分析的是其难度和区分度(前已阐述)。对于多选题,还要分析备选答案的合适度,考察标准答案是否正确、是否唯一、是否过于明显,错误答案是否具有迷惑性等。对于备选答案不合适的题目,今后不应再用或经过修改后再用。

 

就整个测验而言,应分析其信度和效度(前已阐述),并确定其分数分布。分数分布反映的是整个测验的难度,它直接依赖于组成测验的项目的难度。如果被试样本具有代表性,一般来说分数是常态分布的。当分数不是常态而是偏态时,有两种情况:一是正偏态,分数集中在低分端,表明缺少难度低的题目,应加入一些较易的项目;一是负偏态,分数堆积在高分端,说明缺少足够数量的难题,应加入较难的项目。当然,并不是任何测验都要求分数呈常态分布。掌握性测验如用于教学前的摸底,出现正偏态是正常的;如用于终结性评价,出现负偏态说明教学是有成效的,否则说明教学是失败的。

 

2.对教学活动的分析

 

对教学活动而言,测验结果的分析可以对教与学提供反馈信息,从而改进教学,促进学习。为实现这一目的,首先就要对测验中发生的错误进行登记和分析。其次,对学生发生的错误进行分析,以说明教学中存在的问题。是基本概念不明确,还是基本技能不熟练?是教师阐述不清楚,还是学生理解不透彻?如此等等。最后,应针对教学中存在的问题提出改进措施,以促进学习。