首页 >> 科研评价 >> 考试评价
 
考试科研方法(四)

四、定量分析
   
通过观察、调查、测验、实验以及文献查阅等方法收集到研究资料之后,需要在分类整理的基础上,进行定量分析和定性分析,以把握事物量的规定性和质的规定性。本部分介绍考试研究资料的定量分析。
   
研究资料的定量分析,主要采用统计数学的方法,其中应用最多的是描述统计和推断统计;对于其类属不完全确定的事物,还需要采用模糊数学的方法。下面分别讲述描述统计、推断统计和模糊数学在研究资料分析中的应用。
    不过,在进行这种讲述之前,还需要先介绍一下数据(量表)的水平问题。
    (一)数据(量表)的水平
   
任何数字只有放到一定的计量系统中才具有明确的意义。比如数字“5”,只有把它放到公制长度单位系统(如5米),或公制重量单位系统(如5公斤),或其他计量系统之中,才有明确的意义。这个计量系统就叫做量表。考试研究所获得的数据(变量),依据其量表的水平,有四个等级:类别量表中的变量、等级量表中的变量、等距量表中的变量和等比量表中的变量。因为量表水平的差异,这些变量需要选用不同的统计分析方法。
   
类别变量。它是研究中划分类别时所使用的变量,如考生号(其前两位代表省,次两位代表市地等等),各类编码(如问卷中的编码),车牌号。它本身并不反映事物的数量状态,不能进行加、减、乘、除等运算。一般只能计算频率和比例。
   
等级变量(顺序变量)。它是反映事物含有某种属性的等级顺序的变量。如用“5、4、3、2”表示会考的成绩等级优、良、及格、不及格,或操行的评定等级优、良、可、不合格。它的邻近等级之间的差距并不相等(等级5与等级4的差额,并不等于等级4与等级3的差额),因而不能进行加、减等四则运算。其量表的水平比类别量表高一个水平,除可进行频率、比例运算外,还可运用等级相关、秩次检验等方法进行统计处理。
   
等距变量。它是反映事物某种属性在数量上的差别和间隔距离大小的变量。它不仅能够表示等级顺序,而且其邻近等级的差距是一定的,相等的。但它没有绝对的零点,只能做加减运算,而不能进行乘除运算。比如用摄氏温度计测量温度,所获得的就是等距变量,可以加减,但不能乘除(如运用乘除运算,须换算为绝对温度。在热力学和统计物理中通用的就是绝对温度。)其量表的水平比等级量表更高一级,可采用平均数、标准差、积差相关、t检验、z检验、F检验等统计分析方法。标准化的心理和教育测量所获得的分数,大都属于等距变量。
   
等比变量。它是反映变量的比例或比率关系的指标。它不仅具有等级性(可比性)和等距性(可加性),还具有可除性。就是说,它既有等距的赋值单位,又存在具有实际意义的绝对零点。这是最高水平的量表。如通常用“T”表示的绝对温度就是等比变量。在考试研究中,除了(由其他级别的变量得到的)比例、比率之类的数据外,很少可能获得这一等级的变量。
   
广大考试工作者(包括实际工作者和研究工作者)特别关心考试分数是属于什么等级的变量这一问题。严格地说,原始分数只是等级变量,因为它的赋值单位并不是固定的(比如99分上升到100分,远比59分提升到60分困难。都相差1分,但其知识和能力含量、以及为增加1分所付出的劳动量是不相等的),因而原始分数不能进行加减等四则运算。为便于统计分析,需要把原始分数变换为标准分数(标准分数的赋分单位具有明确的含义,是等距的)。不过,由于原始分数的等级特别细密,在其评分标准规定得比较仔细与合理(使得给出的每1分的知识含量大体相同)的条件下,也可以采用平均分、标准差、积差相关和t检验等统计处理。
   
此外,还有一种计数变量。它是计算事物个数的变量,其数据只能取整数的形式,如考生人数,及格人数,某个分数段的考生数,违纪考生数,考场数等。这类数据可用计数数据的统计方法,如百分比,列联相关,百分数检验和卡方检验等统计方法。
    (二)描述统计
    描述统计是在数据资料统计分类的基础上,分析数据分布形态和特征的统计方法。
    为描述数据资料的特征,首先要按不同的标志对数据进行统计分组,保持组内的同质性和组间的差异性,为进一步的统计分析提供基础。
   
其次应根据需要做出统计图表,以直观地显示数据的形态特征和性质。统计表有简单表、分组表和复杂表。统计图是以点、线、面、体和色彩直观的表示数据特征和性质的图形。考试研究中常见的有直条图、圆形图、线形(直线和曲线)图和直方图。
   
再次要有选择地计算数据分布的集中量数和离散量数。反映一组数据集中趋势的度量,主要有:算术平均数(各单位数值之和除以单位数目所得的商数),多数情况下,它是真值的最佳估计值,计算简便,反应灵敏,受抽样变动的影响较小;中位数(数据的次数分布处于50%位置的那个数值,也可能不是原始数据),计算简便,但反应不大灵敏,且受抽样变动的影响较大,常被用于偏态分布或有极端数据的分布中;众数(一组数据中出现次数最多的数据),查找方便,较少受极端数据的影响,但不够稳定,易受样本变动的影响,常用于较为粗略、要求快速的计算;加权平均数(对每个数值与其权数之积再取和,除以权数之和),主要用于所得的各个数据的权重不相等的情况。此外还有几何平均数、调和平均数。
    反映数据离散趋势的差异量数主要是方差(S2)和标准差(S),计算公式分别为:
                
其中,X为变量的各个观测值, 为算术平均数,N为观测的总次数(数据的个数)。
    此外,全距(一组数据中最大数与最小数之差)、平均差、四分差等差异量数也偶有应用。
   
又次要根据数据的特点和研究的目的,计算相关量数。变量之间的相关关系有三种:正相关、负相关、零相关。研究中用相关系数(r)表示变量之间的相关程度。相关系数的数值介入-1.00和+1.00之间,正值表示正相关,负值表示负相关,0表示零相关。相关系数的绝对值越大,相关程度越高。最常用的是积差相关、等级相关和点双列相关。积差相关适用于正态分布的两列变量,且用等距和等比量表测得的数据。常用的皮尔逊积差相关的计算公式为:
                         
式中,rxy为变量X与Y的相关系数,,N为成对变量的数目,Sx为变量X的标准差,Sy为变量Y的标准差。
    等级相关适用于等级变量和非正态分布的变量之间的相关分析。常用的斯皮尔曼等级相关的计算公式为:
                   
式中,N为总次数,D为二列变量对应的等级之差(用X的等级减相对应的Y的等级,或用Y的等级减相对应的X的等级,所得之差)。
    点双列相关适用于一个二分变量(如男和女、及格和不及格、拥护和反对,属于类别变量)和一个连续变量之间的相关分析。其计算公式为:   
                      
式中, 为p类的平均数,为q类的平均数,S为全部X变量的标准差,P为p类次数的百分率,q为q类次数的百分率。
    通过上述统计方法,可以反映数据资料某些方面的特征和相关关系。
    (三)推断统计
   
在科学研究中,我们所要探寻的是研究对象总体的特征(如全体考生的特征),但由于总体过于庞大或其他原因,我们不能对于总体中的每一个个体进行观察、调查或实验,只能从总体中抽取一个有代表性的样本进行观测,再根据样本的数据对于总体的特征做出估计和推断,这种由样本推断和估计总体的方法就是推断统计。
   
在推断统计中,我们把描述样本特征的集中量数、差异量数、相关量数,叫做统计量,而把描述总体特征的量数称作参数。习惯上,样本的平均数、标准差、相关系数等统计量分别用来表示,而总体对应的参数则用希腊字母μ、σ、ρ表示。
   
从样本统计量推断总体参数,需要研究样本统计量的标准误(它反映了用统计量估计参数的误差大小)。样本统计量的标准误就是样本统计量的标准差。从同一个总体中,用随机抽样的方法,可以抽出许多个样本,每个样本都可以计算出平均数、标准差等统计量。如果把各个样本的平均数都求出来,就构成了一种次数分布,称为平均数的抽样分布。同样,也还有样本标准差的抽样分布。简言之,从同一总体中所抽出的各种可能样本的某种统计量的次数分布,称为抽样分布。而各种统计量的抽样分布的标准差,就称作标准误。从样本资料中计算出平均数、标准差、相关系数等统计量后,要利用它们对相应的各总体参数进行估计和推断,就需要计算标准误,用来表示这些统计量代表总体参数的可行性程度。
   
推断统计主要包括两个方面的内容,一是由样本的统计量估计总体的参数,即总体参数的估计;二是检查从两个样本统计量的比较中发现的差异是否存在于两个总体之间,即统计检验。
    1、总体参数估计
    参数估计分为点估计和区间估计两种情况。
    (1)点估计
    当总体参数未知时,用样本的统计值来估计总体所对应的参数,如用
估计μ,用S估计σ,称为点估计。比如,我们随机抽取没有接受助学的自学考试应考者(即依靠自学而参加自考的人员)1000人(这是样本),进行自学能力的考核,平均分为68.12分(这是样本统计值),据此推断,这68.12分就是几十万名没有接受助学的应考者(这是总体)自学能力考核平均分(这是总体参数)的估计值。
    点估计,方法简便,但没有考虑抽样误差。一个好的估计量,应具备无偏性、有效性和充分性等特性。
    (2)区间估计
   
用样本统计量估计总体参数,即使统计量符合无偏、有效、充分等要求,也还是存在误差。有误差并不可怕,问题是设法估计出误差的大小。统计学中的抽样理论提供了这种估计的具体方法。不过,它所估计的并不是误差的数值,而是总体参数落入某一区间的概率大小。
   
区间估计,就是用样本统计量的数值估计总体(其参数未知)参数值所在的区间,并且给出总体参数落在这个区间的概率大小。这个概率称为置信度(一般取90%、95%或99%),这个区间称为一定置信度(如90%、95%或99%)下的置信区间。比如上例中,用样本的平均分68.12分估计总体的平均分落在68.12-9.45--68.12+9.45分之间的概率是95%,那么68.12-9.45--68.12+9.45就是用样本平均数68.12分估计总体平均数在95%置信度下的置信区间。
    根据抽样理论,平均数的标准误为 ,标准差的标准误为
。由公式可见,用统计量估计总体参数的抽样误差与样本容量的平方根成反比(样本容量越大,标准误越小),而与总体标准差(在大样本的情况下可以用样本的标准差来代替)成正比(总体分布的离散程度越大,标准误越大)。
    在大样本(样本容量N>30)的条件下,总体平均数在置信度95%和99%的置信区间分别为:
                             
    总体标准差在置信度95%和99%的置信区间分别为:
                          
    比如,从某校高一学生中随机抽取100名学生,英语考试平均成绩为76分,标准差为12分,我们就可以有95%的把握说,这个学校一年级学生英语成绩平均分在 与
之间,即73.65-78.35分之间;有99%的把握说,该校一年级学生英语成绩平均分在
与亦即72.03-79.07分之间。当然,对总体标准差也可以进行类似的区间估计,如用样本标准差估计总体标准差,在95%置信度下的置信区间为:
              
    小样本的平均数、标准差以及其他参数(大样本和小样本)的估计,请参照有关统计学书籍。
    2、统计检验
   
在考试的实际工作和科学研究中,经常会遇到判断两个或多个样本统计量之间的差异,或者样本统计量与总体参数之间的差异,是否具有本质意义的问题。比如,我们现在强调要发挥高考等大规模教育考试的信息对于学校教育的评价功能,而要发挥这一功能,就存在一个对于下述差异是否具有实质意义的推断问题:使用同一试卷的不同地区、不同学校、不同班级的成绩差异是否具有实质意义?对于等值处理后的不同年份同一学科的成绩差异是否具有实质意义?再比如,自学考试正在建设包括自学指导、助学辅导等在内的学习支持服务体系,为探索适应自学者特点的指导和辅导的方式方法,常常需要进行相应的实验研究,在这种研究中,同样存在对于不同方法指导(辅导)下的考生成绩差异是否具有实质意义的推断,并进而对于实验结果做出合理解释的问题。统计检验就是处理这类问题的科学方法。
   
统计检验采用反证法来检验所得到的差异是否具有实质性意义。它首先假设两者无显著性差异(称作“虚无假设”),通过检验,若接受假设,就表示两者差异是由随机误差引起的,并无实质意义;若拒绝假设,则表示两者的差异是显著的,具有实质意义。
   
如何检验样本统计量与总体参数之间、两个或多个样本统计量之间的差异是否显著呢?统计理论告诉我们,大样本的统计量呈正态或近似正态分布,小样本的统计量则呈t分布,而统计学家们又给出了这两种分布下任意两个取值所对应的分布曲线下的面积(据此可以推断它们来自同一个总体的概率有多大),这样,在规定出“差异显著”的界限(如95%以上的概率不是来自同一个总体)之后,我们就能够对于这种差异是否显著做出判断,以决定接受或拒绝“虚无假设”。
    统计检验的一般步骤是:
    建立虚无假设与备择假设。例如:(即假设样本来自于原总体。其中 为样本来自的那个总体的平均数,
为原总体的平均数,现假设两者相等);(备择假设:样本不是来自于原总体)。如果检验的是标准差,则把 。
    计算统计量z(大样本)或t(小样本)值。根据有关统计量和总体参数,计算z值或t值。大样本情况下的z值计算方法,我们将在后面的具体例子中给出。
    确定显著性水平,并查表找出对应的临界z或t值。
    做出判断。把计算出的z值或t值与临界值相比较,若小于临界值,则接受虚无假设;若大于临界值,则拒绝虚无假设。
    下面通过两个例子说明大样本(n≥30)条件下的平均数差异的显著性检验的一般方法。
    例1:单总体的z检验
   
某自学考试助学组织参加会计学考试的全体学员的平均分数为64.3分,标准差为8.1分。一年前从该批学员中随机抽取50人编为实验班,进行自学指导,该班平均分数67.1分。试检验自学指导的效果。
    单总体的z检验,是检验一个样本的平均数与一个已知的总体平均数的差异问题。单总体z检验统计量z值的计算公式为
                               
    式中 为已知总体的平均数, 为总体标准差, 为样本平均数, n为样本容量。
    按上述步骤对本例进行检验。
    首先建立虚无假设与备择假设:   。
    其次计算z值:把已知的 ,代入z值计算公式,得:
                            
    再次规定显著性水平,如定为0.05,查表,z的临界值为1.96。
    最后通过比较,做出判断:2.43大于1.98,否定原假设,认为两者的差异显著,亦即自学指导法在会计学的助学中取得了显著效果。
    例2:双总体z检验
   
从甲乙两校高中三年级参加高考的学生中分别随机抽取200名学生,比较其高考数学成绩,其中甲校平均成绩为118分,标准差23分,乙校平均成绩为113分,标准差29分。试检验甲乙两校高考数学平均成绩有无显著差异。
    双总体z检验讨论的是不相关的大样本平均数之间的差异是否显著的问题,亦即检验两个样本是否来自相同的总体问题。双总体检验统计量z值计算公式为:
                              
式中,分别为甲校和乙校的平均分、标准差、样本容量。
    仍按上述步骤对于本例进行检验。
    首先建立虚无假设与备择假设   
    其次计算z值:把已知量代入计算公式
                              
    再次规定显著性水平:如仍规定为0.05,z的临界值为1.96。
    最后通过比较,做出判断:1.91小于1.96,接受原假设,认为两者之间没有显著差异。
    关于小样本的t检验,相关系数、比率等统计量差异的显著性检验,卡方检验,非参数检验等内容,请参看有关统计学书籍。
    (四)模糊数学在研究资料分析中的应用
   
考试研究的对象,有三种情况:一种其类属(属性和类别)是确定的,“非此即彼”,对这类现象的定量分析要运用普通数学;另一种其类属是不确定的,随机的,可能是“此”,也可能是“彼”,对这类现象的定量分析需要运用统计数学,核心是确定属于“此”或“彼”的概率;还有一种其类属也是不确定的,但不是随机的,而是模糊的,一定程度地隶属于“此”或“彼”,对这类现象的定量分析则需要运用模糊数学,其核心是确定对于“此”或“彼”的隶属度。
   
在考试活动中,考生成绩的高与低,考场秩序的好与坏,考风考纪的优与劣,考试社会声誉的好与差等等,就是模糊的,定量分析的核心问题就是科学地构建隶属函数,确定相关事件对于高或低、好或差、优或劣的隶属度。
   
在考试研究中,应用模糊数学进行定量分析,主要有两个方面,一是对某些不确定事物之间的界限使用模糊聚类分析方法进行分类,二是采用模糊综合评判方法对某些考试现象进行评价。下面通过一个具体例子说明模糊综合评判方法的应用思路。
    设有100名考生、20名监考员、5名巡考对某考点的考场秩序的评价等级(好、较好、一般、较差)如下表:

      等级好较好一般较差合计
      考生2158183100
      监考1082020
      巡考23005

求该考点在指标“考场秩序”的综合评价分数。
  第一步,求三类人员评价的模糊集。
  首先计算考生对考点“考场秩序”评定为好、较好、一般、较差各等级人数占接受调查考生数(本例中是100)的百分比:21%、58%、18%、3%,并表示为模糊集:
  
式中, 表示模糊集,脚标F1代表考生。
  再求出监考员对该考点的“考场秩序”评定为好、较好、一般、较差各等级的百分比:50%、40%、10%、0%,并表示为模糊集:
  
式中,脚标F2代表监考员。
  最后求出巡考员对“考试秩序”评定为好、较好、一般、较差的百分比,并表示为模糊集:
  
式中,F3代表巡考员。
  据上述模糊集写出评价矩阵:
                  
  第二步,确定考生、监考员、巡考员的评价权重(三类人员的评价意见在总评中所占的比重)。关于如何构造权集,我们将在后面的“评价的技术方法”中进行详细讲解,这里只是假定研究者认为考生和监考员的意见同等重要,而巡考员的意见比前两者略为重要,经查权数对照表,求得考生、监考员、巡考员的评价权重分别为0.30、0.30、0.40,写成矩阵为:
  
  第三步,计算考生、监考员、巡考员的综合评价的模糊集。办法是用 :
 
=[(0.30∧0.21)∨(0.30∧0.50) ∨(0.40∧0.40),(0.30∧0.58) ∨(0.30∧0.40)
∨(0.40∧0.60),(0.30∧0.18) ∨(0.30∧0.10) ∨(0.40∧0),(0.30∧0.03) ∨(0.30∧0)
∨(0.40∧0)]=(0.21∨0.30∨0.40,0.30∨0.30∨0.40,0.18∨0.10∨0,0.03∨0∨0)
=(0.40,0.40,0.18,0.03)
式中,∧为取小号,表示两者之中保留数值小的一项,∨为取大号,表示两者之中保留数值大的一项。
  经归一化处理(使模糊集中的各项之和等于1,而又不改变各项在总和之中所占的比例。办法是用各项的数值除以各项数值之和,再乘以100%),得:
  
   
上式表示,三类人员对该考点“考场秩序”总的评价是:39.5%的程度为“好”,39.5%的程度为“较好”,18%的程度为“一般”,3%的程度为“较差”。这些百分比,就是该考点的“考场秩序”对于“好”、“较好”、“一般”、“较差”的隶属度。
    第四步,计算三类人员对该考点“考场秩序”的综合评价分数。
假设“好”、“较好”、“一般”、“较差”对应的分数区间为90-100、80-90、70-80、60-70,代表分数为95、85、75、65,把代表分数写成矩阵形式
 C=(95 85 75 65)
  综合分数记为X,则
     这样,这个考点的“考场秩序”就可评为86.550分,属于“较好”的范围。
  “考场秩序”这类指标还算比较具体,被调查对象知道指的是什么,可以直接进行等级性的评价。还有一些指标比较笼统,不是专业考试工作者常常不知指的是哪些事,为使被调查对象能够进行等级性评价,还需要根据其内在规定性或外在表现分解为被调查者易于评价的若干方面。当然,对于这样指标的综合评判,将会更复杂一些。不过,这种“复杂”只是多加几道手续,其基本思路和方法还是一样的。
   
比如我们对较为笼统的指标──某个地区某种考试的“考风”进行评价。首先,我们将“考风”这项指标按“考试纪律”、“考试部门作风”、“考试声誉”三个方面进行分解,并给出权重。其次,向若干名考生、考试工作者、关心这种考试的社会人士进行了调查,请他们对于该地区这种考试的“纪律”、“考试部门作风”和“社会声誉”分别给出好、较好、一般、较差的等级,并给出这三部分人员的评价权重。再次,按上述的方法和步骤分别对“纪律”、“作风”、“声誉”进行综合评判,或者分别求出考生、考试工作者、社会人士对于“考风”的综合评判分数。最后,把这三个方面的综合评判分数(或这三部分人员的综合评判分数)与各自的权重数相乘,然后再相加,所得的数值就是该地区这种考试“考风”的综合评价分数。
    鉴于模糊综合评判在考试评价和考试研究中应用的广泛性,这里再以“考风”评价为例。
  我们通过具体例子介绍了模糊综合评判法在考试研究中的应用。这种示例虽然不能帮助读者理解和掌握模糊量化、模糊综合评判的有关概念和基本方法,但也能使我们了解模糊综合评判法的基本思路和解题步骤。而一旦熟悉了这个思路和步骤,也就能够大体适应考试研究中类似量化分析的需要。

     1 版权所有 重庆市教育考试院(重庆市大学中专招生委员会办公室、重庆市高等教育自学考试委员会办公室)
地址:重庆市渝北区红锦大道61号 咨询信访电话:(023) 67869200 邮编:401147
Copyright chongqing Municipal Educational Examinations Authority All Rights Reserved.
渝ICP备10014322号   |   渝公网安备 50011202500521