如何进行考试质量分析
的有关信息介绍如下:一、研究课题的提出(一) 传统考试统计理论的不足个体差异的普遍存在使“因材施教”成为教育学的理想教育原则。虽然在现实中我们很容易“……把表达思想不清楚的天才与表达思想清楚的白痴区分开来——表现为前者通过运算和结论,显示出对科学的深刻体会,但不大能够‘说出它是怎样的’;后者看上去充满恰当的词汇,却没有相应能力去利用这些词汇所代表的观念;亦即好的教育工作者凭籍其多年教学经验很快会对学生的天赋和潜能做出判断。但借助于正式的测验却往往很难达到应有的效果。因为当今的学绩测验及智力测量主要是以再认或再现方式测量学生能够有意识提取的外显记忆知识以及对这种知识的运用能力,而对学生的内隐学习与内隐记忆等无意识加工能力则很难测出,但这种内隐加工能力却又确实存在,且对学生的学习及其基本心理品质的形成具有重大影响。对这种加工能力的测量将有助于对学生的全面理解与因材施教,因为测评的目的不是为了给学生贴上优劣的标签,而是为了将儿童置于合适的教育环境中,尽可能帮助学生扬长避短,在加强外显记忆能力训练的同时注意开发其内隐心理潜能,多方位、多侧面地进行综合培养。 经典的测验理论在整个测验的水平上分析测验结果,忽视了个体差异以及不同的项目反应模式,混淆了相同测验分数所包含的不同性质的特征。有研究表明,相同数目的正确反应很可能是由于不同反应模式的结果,而这种反应模式的差异恰恰反映出真正的心理特征或某种心理定势。现代测量理论中的潜特征理论及其发展即项目反应理论则力图克服这一缺点,在一定程度上确定了测量结果与那些不可直接观察测定的心理特征之间的关系。(二) 专门化统计分析工具的缺乏由于考试统计学是一门集教育学、数理统计学、计算机科学于一身的综合性交叉学科,而目前市场上的统计分析软件面向各行各业,单用于教育统计有很多的功能浪费及功能不足,且分析结果过于抽象,不能深入浅出的阐明给使用者。因此,设计出专门化的考试统计分析工具,就成了提高考试质量的当务之急。(三) 项目反应理论的崛起提供了数据分析的新工具70-80年代,在测量理论中,最显著的进步是项目反应理论的应用,它是继经典测量理论之后的一个重要的测量里程碑。项目反应理论之所以优于经典测量理论,在于它克服了后者分析数据对“考分=能力”的局限,而将能力看作是一个潜在的变量,又将项目的难度、区分度等重要参数看作是项目本身的固有特性,独立于被试团体。目前该理论主要应用于客观性考试、试题库的建立、不同团体被试在不同测验中能力反应的等值化、跨文化比较等多种测量领域。在发达国家的人才测评数据分析中,项目反应理论已经成为一种常规的分析工具。二、研究目标及意义首先介绍从宏观层面运用传统教育统计方法分析试卷,将试卷质量及学生整体水平的反馈信息提供给教学管理者,帮助其改进教学工作与决策。其次,针对传统教育统计方法的弊端,从微观层面进行试卷分析。运用项目反应理论,重视学生内隐学习和内隐记忆,通过项目反应模式的差异突破“考试=能力”的局限,反映出学生真正的心理特征或某种心理定势,对试卷分析结果进行形成性评价。形成性评价(与总结性评价相比,形成性评价能提供更多的有关日常教学情况的信息)的目的不仅在于要诊断和评价学生的学习状况,还要审查、评价教学内容和教学方法。试卷的宏观分析一、试卷宏观分析的需求分析测试可以在短时间内,省时省力地获得有关教学的大量信息,有助于教学管理者作出改进教学工作的决策,通过对试卷的分析获得反馈信息,了解教师和学生在教学中存在的问题。有计划的通过考试对教学措施进行检查和研究,是管理者改善教学管理的重要依据,也是管理者掌握教师教学情况,进行具体帮助、指导和控制的重要依据之一。教学管理者与学科教师通过对试卷的宏观分析,可以把握学生集体知识水平、集体走向等重要信息,及时调整教学策略与方法。二、试卷宏观分析案例本层面统计分析的主要内容为:试卷分数的总体分布形态,平均值,总体难度,差异系数,偏态量数,标准差及其频数与频率分布,试卷难度及区分度分布,试卷总体构成差异,试卷信度,试卷结构效度、内容效度等。本案例对上海市复旦中学高一(2)班第二学期期末成绩SPSS(Statistics Package for Social Science)用进行了全距、标准差、中位数、频数分布、试卷难度、试卷信度、试卷区分度的分析。分析结果如下。(一)全距全距是一群数据中最大值与最小值之差,它指的是两个极端值间的全部差距,常用符号R表示: (2.1) 用全距可以用来表示数据的离散程度或差异程度,如果全距R比较大,说明考生的考分差异较大,如果R比较小,则说明考生的考分比较集中,在这样的状况下,如果能够再就试题的平均得分进行对比,就能很容易地了解全体考生该知识点掌握的水平高低。由表中数据,数学试卷的全距为77,可见学生该科目考试成绩差距较大,而数学平均分为70.2708,说明总体水平较好但差生过差,要提起注意。而语文、历史和政治的全距较小,平均分也较高,说明总体水平较好,学生间差异不大。这也体现了理科与文科的差异。(二)标准差表示变量值与其平均值离散的程度,是反映事物发展变化平均状况的数字指标。在考试中可以用来衡量学生成绩的差异程度[3],以便来对此次考试的区分程度有大概的了解,计算公式为: (2.2)式中,S为标准差; 为各观测值; 为平均数;N为观测值的个数。一般情况下每次考试的标准差控制在9-15分之间比较恰当。如果标准差小于8分,说明成绩分布较为集中,试卷区分度太小,中等难度的题目偏多;标准差如果大于16分,则说明成绩过于分散。 考试的标准差控制在9-15分之间比较恰当,因此数学和外语考试的成绩分布正常。而政治、语文、物理、化学、历史的成绩过于集中,说明试题的区分度不够好。(三)中位数中学的成绩通常采用百分制,因此考试成绩分布并不会有明显的集中趋势,所以一般不采用众数这一统计量,而采用中位数计量。其公式为:中位数位置= (2.3)以数学试卷为例,众数为60,中位数为71。说明考分出现最多的是60分,处于中间位置的分数为71。这表明试卷难度适中,稍偏低。而外语试卷中位数为56.5,说明试卷偏难,学生普遍成绩较低。历史试卷中位数为90,相对简单,学生普遍分数较高。(四)频数分布一般情况下,考试分数接近正态分布,但在实际考试中,考试成绩有以下四种分布形态(如图所示)。反映出试题质量信息各自不同 图2.1 频数分布图其中,A图反映出试题难度分布正常;B图中,正态分布反映出低分人数较多,平均分较低,说明难度大的试题占分比例较大;负偏态分布说明高分人数较多,平均分较高,难度小的试题占分比例较大;C图中,高峰形频数分布表明学生分数集中在平均分周围,中难试题占分比例较大;平峰形频数分布表明学生分数差异较大,易、中、难三类试题占分比例接近;D图反映出高低两类分数集中,试题难度梯度大,中难试题占分比例较小。 以数学试卷为例,全班48人的分数频数分布图如下: 由图可知,数学试卷考生分数频数分布为负偏态分布。说明高分人数较多,平均分较高,难度小的试题占分比例较大;绝大部分考生分数在60~80之间;从10~20到40~50有断层,即没有考生成绩在20~40分,说明差生过差,应特别提起注意。