首页 >> 科研评价 >> 考试评价
 
考试科研方法(五)

、评价的技术方法
   
评价和考试、考试研究具有特殊的关系。一方面,教育考试是为教育评价提供评价信息的,完整的教育评价工作之中常常包含考试活动。另一方面,大规模社会考试是一个以试卷为中心的复杂的控制系统,为了确保试卷运动的有序性并实现预定的考试目的,几乎时时处处都面临着评价问题,如在现代考试中,试题需要评价,没有通过评价的试题不能用于组配试卷;试卷需要评价,没有通过评价的试卷不能用于决定人员取舍的重要考试;命题、施测、评卷等工作方案需要评价,没有通过评价的方案,不能保证实现预定目标的方案不能应用于实际工作;一项新的技术措施或科研成果需要评价,没有通过评价的措施或成果不能应用推广;考试结果需要评价,否则便不能说明实现考试目的的状况。同时,考试研究也经常遇到评价问题,除了课题立项和结题需要通过评价(外部评价)、选题和设计需要评价(自我评价)之外,考试工作中那些尚无成规可循的评价活动,大都需要通过科研来构建评价指标体系和评价标准,并形成工作方案。
  掌握评价的一般技术方法,应该成为考试研究人员的基本功。
  (一)评价的类别、功能和程序
  1、评价的类别划分
这里说的评价,是以考试系统为对象、以预定目标为参照、以系统收集的事实资料为依据的价值判断活动。从本质上说,评价是事实判断基础上的价值判断过程。
  依据不同的标准可以对评价进行不同的分类。
  (1)经验性评价和科学评价
  按与日常管理活动的关系和所采用的技术方法,评价活动可以划分为日常管理中的经验性评价和系统的科学评价两大类。
  在日常的考试管理活动中,经常需要对某人、某事、某物做出可否或优劣的评判。如对参加命题、印题的人选做出判断,对命题地点、印题场所、考点选择做出判断,对命题计划、考试日程安排、评卷学校分配做出判断等等。这些评判从性质上说,都是事实判断基础上的价值判断,都属于评价的范畴。这些评价是日常管理活动的一部分。由于对象比较简单,标准比较具体,在日常管理中又经常遇到,经常重复,往往都有成规可循,因而通常并不需要建立理论模式,选择技术方法,进行量化和综合评判,一般只需凭借管理者的经验就可以做出优劣或可否的判断。这一类评价属于日常管理中的经验性评价。
  在大规模考试活动中,为了改进工作,进行重大的管理决策,有时需要对某一方面工作,或某一重要工作环节,或整个考试活动,进行全面的系统的评价。由于对象比较复杂,标准比较笼统、原则,进行事实判断的信息资料需要专门收集,价值判断需要在分项量化的基础上进行综合评判。这时,单靠主管者的直觉和经验很难提出令人信服的判断结论,难能为管理决策提供可靠的和有效的支持,就需要在现代评价理论的指导下,采用科学的技术方法,按照严格的科学程序进行系统的评价。这一类评价就属于系统的科学评价。考试活动中的这一类评价,其评价指导体系的构建和评价方案的提出,往往就是考试研究的具体成果。
  (2)领导部门评价、社会评价和自我评价
  按评价主体划分,有领导部门评价、社会评价和自我评价三类。
领导部门评价是由各级考试机构的政府主管部门或上一级考试机构对下属组织的考试活动所进行的评价。领导部门评价的主要目的是全面检查工作目标的实现情况,发现具有普遍意义的工作经验和带有倾向性的问题,为宏观决策提供依据。领导部门评价具有系统性、科学性、权威性等特点,通常要组成专门的工作组开展评价工作。
  社会评价是在各级政府主管部门或上一级考试机构的指导下,由社会有关力量组织的评价。大规模社会考试为全社会所关注,为取得社会信誉,使考试结果为社会所接受,在特别需要的时候,组织有代表性的社会力量参加的社会评价,是十分必要的。社会评价通常着重评价考风考纪、考试公平、考试质量等社会所关心的热点问题,是领导部门评价的重要补充。
  自我评价是各级考试机构自行组织的对自身工作的评价。自我评价既是本部门提高管理水平和工作质量的有效措施,又常常是主管部门组织的外部评价工作的基础。
  (3)条件评价、过程评价和结果评价
  按评价内容,有条件评价、过程评价和结果评价。
  这里讲的“条件”,是对于考试组织实施而言的广义的条件,既包括有形的物质条件,又包括无形的精神条件,既包括考试系统的既有状态和环境,又包括管理者向系统输入的信息指令。考试活动的条件评价是以实现考试管理目标必需的条件为标准,对考试组织实施能够产生影响的各种因素所做出的评价。这种条件评价相当于斯塔弗尔比姆(Stufflebeam)1966年提出的CIPP模式中的背景评价和输入评价,目的在于有针对性地获取与决策有关的系统内外状态信息,为选择最优的工作方案和工作方法提供依据。日本学者桥本重治把这种在决策前能够发现问题的评价称为诊断性评价。
  过程评价是对某项工作的组织实施和控制的过程所做的评价,目的是取得改进方案实施过程的反馈信息,并可发现计划方案的潜在问题,为调整正在实施的工作方案提供依据。过程评价相当于斯克里芬(Scrifen)1967年提出的形成性评价。
  结果评价又称终结性评价,它是在完成计划方案后进行的,以预先设定的工作目标为标准、以工作结果为对象的评价形式。终结性评价作为一种理论模式是由泰勒(Tyler)在上个世纪40年代提出的,即著名的“行为目标模式”。终结性评价的主要目的是了解目标现实的程度,据以对工作方案和活动过程做出判断,作为下一阶段工作决策的参照。
  (4)相对评价、绝对评价和内差异评价
  按评价结果的解释方式,可分为相对评价、绝对评价和内差异评价。
  相对评价又称相互参照评价,它是以被评对象的群体的平均状况作为参照,以各被评对象在群体中的相对位置来解释评价的结果。以选优为目的的评价就是一种典型的相对评价,因为它是用等级或名次来解释评价结果的。以区分被评对象优劣等级的相对评价,需要特别注意评价项目的区分度。
  绝对评价又称达标度评价,它以预先设定的目标为评价标准,将每一被评对象与标准相比较,用达到目标的程度来解释评价的结果。绝对评价不关心评价项目对于被评对象的区分能力,只要是规定的目标内容,不管对象是否都能达到或都不能达到要求,都应列入评价项目。检查被评对象是否达到最基本要求的鉴定性(合格性)评价就是一种典型的绝对评价。
  内差异评价又称发展评价,它以评价期之前被评对象的状况为参照,用评价期前后被评对象的变化程度来解释评价的结果。内差异评价通常在实施某种改革或整顿之后进行,以检验改革或整顿的效果。需要注意的是,在这里“参照”和“标准”是两个不同的概念,评价期之前的状况只是解释结果的对照物,而不是评价标准,所预期的变化才是评价的真正标准。
  这三种评价形式,特别是相对评价和绝对评价之间的划分是相对的。根据实际需要,也可以对同一次评价采用两种、甚至三种方式解释评价结果,同时实现多种评价目的。
  在考试活动评价中,终结性的绝对评价是最基本的评价形式,后面所介绍的技术方法大都以终结性的绝对评价作为研究的基本模式。
  2、评价的基本功能
  鉴别功能。即它能够按照一定的价值标准区分被评对象的优劣,能够鉴别被评对象是否达到规定的基本标准。鉴别有两种方式,一是根据内部标准,区分一组对象之间的相对优劣;二是根据外部标准,鉴定对象是否合格。
  导向功能。评价项目内容的确定和各项目在综合评定中所占的权重大小,对于被评对象实际工作的努力方向和精力分配都有重要的导向作用。
  诊断功能。它能够发现被评对象在评价项目上存在的问题及其原因。在决策方案实施之前,对目标和方案、环境和条件所作的评价(输入评价),主要目的之一就是发现和研究问题;一段工作结束时进行的输出评价,虽然其主要目的不在于诊断,但它也能发现被评对象在评价项目中存在的问题,如能辅之以条件和过程评价,还能进一步揭示问题的原因。
  反馈功能。形成性评价的主要功能就是反馈,即在管理方案执行过程中将评价获得的信息传输给决策者和执行者,用以纠正方案执行中的偏差。如果我们把考试各个阶段的工作或循环,首尾相接,看作是一个连续的整体,那么任何形式的评价都是在“过程中”进行的,它提供的信息都将影响下一步的工作,从这种意义上可以说各种形式的评价都具有反馈功能。
  认识功能。考试评价对于提高认识具有三重作用:能够加深对考试系统内部状态和外部环境的变化及其趋势的认识;能够发现考试工作中的新鲜经验和倾向性问题;有助于把实践中的具体经验提高到理论高度,加深对考试活动规律的认识。
  3、评价的程序
  评价是以一定目标为依据的价值判断过程。为了不同的目的进行的不同类型的考试评价,其评价内容和具体要求可能不完全相同,但它们却有着共同的逻辑步骤和工作程序:建立评价指标体系;规定评价标准;获取和分析评价信息;依据标准赋分并合成总分;评价结果的检验和解释。
  建立评价指标体系。评价指标体系包括两方面内容,一是由目标逐层分解所得到的指标系列,一是由每项指标的权重数所构成的权集。前者规定的是评价的项目和内容,后者规定的是每个项目的评分在总体评价中所占的比重。评价指标体系就是由评价指标系列及其权集所构成的体系。从技术角度说,构建评价指标体系是考试评价的核心工作,指标体系的合理性和科学性在很大程度上决定着评价的水平和质量。
  规定评价标准。工作目标作为评价的依据,包含相互关联的两个方面:一是工作的内容(项目);二是工作的要求,即各工作项目应该达到的水平和程度。在对工作目标逐层分解时,工作要求是连同项目内容一起分解的,但为使指标体系较为清晰、醒目,通常只列入项目内容,而把各项目的工作要求另外注明、列出。习惯上人们把前者称为评价指标体系,而把后者称为评价标准。从评价角度说,前者回答的是“评什么”、“搜集什么信息”,后者回答的是“按照什么给分”、“达到什么程度给多少分”。评价的项目和评价的标准,实际上是同一事物的两个方面,而且这两个方面的划分只具有相对的意义。一般地说,指标分解得越细、越具体,项目的数量就越多,标准的内容就越少(把可作为标准的内容也列入项目中去了);反之,指标划分得越粗,越笼统,为便于评价,标准的内容就越多(把可分解为指标的项目也列到标准内容中去了)。
  搜集和分析评价信息。通过查阅能够反映被评对象工作状况的档案资料和工作记录,以及个别的和集体的访谈,全面掌握各评价项目的信息材料,并通过仔细的分析,“去粗取精”、“去伪存真”,保证评价信息的可靠和有效。
  赋分和合成,并给出评价结论。根据评价标准对被评对象的各个指标评等赋分,并采用加权取和等方法把单项分数合成为评价总分。评分(定量分析)并不是“价值判断”的全部,更不是评价工作的结束,任何定量分析都须以定性分析为引导,并以定性分析为归宿。对信息资料定量分析基础上的定性分析包括两个方面,一是对被评对象实现目标的状况做出结论;二是依据资料说明被评对象在评价的工作方面的基本经验。
  评价结果的检验和处理。作为一项完整的评价工作,在给出结论之后,还对评价结果进行的可靠性和有效性进行检验,对评价结论做出解释,并对整个评价工作进行总结。
  (二)分解目标的方法
  现代评价有诸多理论模式,除目标游离模式外,都以目标作为评价的出发点,都主张由目标逐层分解得到指标体系。
  被评价的考试活动或其某一方面工作的目标之所以能够分解,是因为它是由众多要素(分目标)构成的系统。系统理论是目标分解的基本理论依据,系统分析(要素分析和功能分析)是目标分解为指标的基本方法。
  凡动态系统都有构成性要素和过程性要素,因而按构成分解和按过程分解是目标分解的最基本的具体方法。
考试评价的对象大都是考试工作,又主要是管理性工作,按管理职能(即功能)分解也是目标分解经常采用的具体方法。
  工作目标通常包括工作内容和完成这些内容的工作中的具体要求两个方面。上述的“按构成分解”、“按过程分解”和“按职能分解”实际上都是“工作内容”的分解,在必要的时候,也要分解“工作要求”──而这主要是一种按事物质的规定性(事物属性)的分解方式。
  1、按构成分解
   
被评价的考试活动是众多要素(子系统)按一定结构形成的有机系统,从道理上说,我们总可以按照某种标准或参照将其分解为诸多要素(子系统)的组合。那么以什么为参照进行怎样的分解最容易进行且效果最佳呢?
    任何活动都是在一定时空中进行的,最适宜、最方便的分解方式,是从“空间角度”进行的横向分解和从“时间角度”进行的纵向分解。
   
从空间角度进行的横向分解,是对被评价的考试系统一种静态的要素分析。被评价的考试工作通常都不是单一的,只做一件事,只干一种活,而是多样的,同时要管多方面的工作,如考务工作、财务工作、人事工作、行政和后勤工作等等。我们把考试工作中这些具有自身特殊规律因而有特殊的规定和要求的相对独立的各种活动,亦即我们通常称谓的考试工作的组成“部分”或“方面”,叫做考试系统的构成性要素,相应地,把这种从空间角度进行的横向分解称为考试工作系统的构成性分解。
   
我们说按构成分解是最方便的,是因为考试机构大都按工作种类划分部门:或者一种(一方面)工作即设置一个部门,或者数种相近的工作归并为一个部门,分解时只需思考机构中的部门设置和每个部门中的工作种类,就大体能够保证分解的完全且符合逻辑(分解出的各个部分具有相对独立性,又属同一个层次的子系统)。
   
这种按系统构成所作的分解,是对评价总目标进行第一次分解主要采用的方法。这是因为按活动的特点和特殊要求进行首次分解,把同种性质的活动归并在一起,后续的分解较易于进行。比如我们对一项考试活动进行全面评价,首次分解时,把总目标分解为考务、财务、科研、行政等分目标,就比分解为计划、组织、控制等分目标,或分解为命题、施测、评卷等分目标,更为合理,后续分解更易于进行。
   
实际上,考试工作的任何相对独立的部分也都是一个系统(考试系统的子系统),都有其构成性要素,从理论上说都可以按系统构成对目标进行再分解。如作为考试活动一个环节的命题工作,就可以按系统构成分解为试题和试卷编制、行政和后勤、安全和保密等分目标。
    2、按过程分解
  从时间角度进行纵向的分解,是对被评系统的一种动态的要素分析。考试工作中的各种活动都是在时间中进行的,表现为由相对独立的诸多环节所构成的连续过程。据此,我们可以把考试工作中的每一种活动,都按其过程分解为诸多环节的组合。我们把考试活动中那些相对独立的工作环节称作考试系统的过程性要素,相应地,把这种从时间角度进行的纵向分解,称为考试系统的过程性分解。
  有经验的考试工作者对于考试工作包括哪些环节,每个环节主要工作内容是什么,通常比对于考试工作包括哪些方面还要熟悉,因而按过程分解较之按构成分解更易于进行。
  在把总目标按构成分解为部分或方面的分目标之后,对部分或方面的分目标再进行分解通常采用按过程分解的方法。
  3、按职能分解
  考试评价中很大一部分是对考试管理的评价。在构造管理评价指标体系时,按构成和过程分解管理目标较易于进行,因为这两种分解是把管理目标系统连同管理对象系统同时分解的,只要明确考试活动(考试管理的对象)包括哪些部分和环节,分解是不困难的。但在进行了这两种分解并欲进一步分解管理分目标时,就需要把管理性工作和非管理性工作区分开来,否则分解时就可能漏掉某些管理目标而列入其他专业性技术性工作的目标(如命题管理可能漏掉命题方式选择、命题文件编制、命题教师选聘和培训、命题工作协调和质量控制等管理工作内容,而列入试题编制技巧、试题取样方法、试题参数分析等非管理性内容);还需要把管理性工作按一定标准归类,否则便难以形成合乎逻辑的次一级目标。为此,需要求助于管理职能理论。
  考试工作不同方面、不同环节的具体内容可能千差万别,但其中被称作“管理”的那些活动都可归入计划、组织、控制等几种基本职能,而每种基本职能又都包括若干次一级职能。据此,我们不仅能够把管理性工作和非管理性工作区别开来,而且能够把管理性工作按基本职能和次级职能进行归类。这就为我们分解管理目标提供了一种新的思路:在不宜进行部分和环节的分解时,可将管理目标依计划、组织、控制等基本职能及它们的次级职能进行分解。
  按职能分解本质上就是系统的功能分析。其实,只要是考试工作,不管是管理性的还是非管理性的,都有其基本功能和职责,都可以进行类似的职能分解。
  4、按属性分解
  前面说过,评价目标包括工作内容(回答“干什么”)与工作要求(回答“干到什么程度”)两个方面,上述几种分解方式所分解的都是工作内容,在工作内容不宜再进行分解时,如欲继续分解,就只能分解“工作要求”了。
   
关于考试工作的具体要求,通常都是考试主管部门规定的。但是这种规定不是随意的,而是由被评价的具体工作及其结果的质的规定性(属性)所决定的。这种质的规定性或属性既是考试工作中主管部门提出“具体要求”的客观依据,又是评价工作中对“工作要求”进行分解的基本依据。既然这种依据是客观的,是由被评事物的属性决定的,那么,即使主管部门在工作中没有明确提出的“具体要求”,这种规定性也还是存在的,评价设计者照样可以依据这种规定性(属性)来分解目标。
    我们把这种按事物质的规定性(属性)进行的分解,叫做按属性分解。按属性分解是获得末级指标的常用方法。
   
比如,命题工作评价通常设有“编制试卷蓝图”这一分目标,如欲对其再分解,就不宜按“内容”、而应按“要求”进行,如分解为“符合测量学要求”、“符合学科特点”、“符合考试的性质”等指标。科研成果评价的末级指标也大都是按属性分解得出的:如科学价值方面的创新性、学术水准、指导意义和应用价值方面的先进性、实用性、应用潜力等项内容,都是质的规定性方面的指标,而不属于工作部分、工作环节或工作职能。评价一次演说、一场辩论、一次表演等具体活动的水平,也常常按这一活动应该具有的某些属性来分解评价指标的。按属性分解对于各类活动评价获得末级指标具有普遍的方法指导意义。
    5、四种分解方法应用中需要注意的问题
如果掌握了上述四种方法,同时又熟悉被评价的工作活动,那么由评价目标分解形成评价指标就是一项并不十分困难的工作。不过,在应用这些分解方法的时候,还应该注意以下几个问题:
   
第一,应用每一种分解方法,都必须结合被评工作的实际进行相应的理论分析。如应用构成性和过程性分解,须对被评系统的构成和过程进行分析,找出它的构成性和过程性要素;应用职能性分解方法,需要结合工作实际分析其具体职能;按属性分解,则要根据实际工作要求分析其目标的质的规定。这种结合实际的理论分析(要素分析、功能分析、质性分析)是正确运用上述方法的必要前提。
  第二,要灵活地合理地运用上述四种方法。首先,先按构成、次按过程、再按职能,必要时再按属性分解,是分解目标的一般次序,但这种次序不是一成不变的,可以根据被对象的实际情况和特点适当调整和变更这种次序;其次,每种分解方法都根据需要多次应用,包括连续应用及与其他方法交叉应用;再次,在特殊情况下,为了减少分解层次,在同次分解中也可以同时应用多种方法。
  第三,不论采用哪种方法,在分解时都须坚持与目标相一致、并列指标相互独立、整体完备、简易性等原则。
  第四,为简化指标体系,减少分解的层次,并使各分目标层次分明,整齐明了,还应灵活运用合并较小的项目、分解较大的项目、把某些指标的内容列入评价标准之中等方法。
总之,这里所提供的是分解目标的一种思路,一种思考方法,而不是分解的操作程序和规则,应根据被评对象的实际灵活地应用,而不能机械地照搬和套用。
   (三)构造指标体系权集的方法
    在把评价目标分解为指标后,需要逐层次地给各级分目标(或称指标)赋予权系数。这些分层次的权系数的集合称作指标体系的权集。
   
同一层次的分目标(指标)权数的相对大小是由各分目标(指标)对于上一级目标的相对重要程度决定的,而这种“重要程度”只能由专家凭经验去判断,去确定。从这种意义上可以说,权集的构造只能采用专家评定法。问题是如何提高专家判定的一致性和精细程度。美国学者萨蒂(Saaty)曾提出一种通过两两对比分层确定权集的科学方法——层次分析法,较好地解决了上述问题。但是萨蒂的方法有计算繁琐等缺陷,于信凤等人在萨蒂方法的基础上又提出了应用十分方便的五等级排序法。这里主要介绍五等级排序法。
    1、萨蒂的层次分析法
  为克服设计者仅凭个人经验确定权集的主观随意性等缺陷,萨蒂设计了一个指标两两比较以判断相对重要程度的“萨蒂相对重要等级表”,要求专家据以判定各指标的优先顺序和等级,然后通过计算确定各指标的权数,再进行判定结果的一致性检验。
  下面通过一个虚拟的例子扼要介绍萨蒂的方法及其应用步骤。
假设命题管理评价的分目标“命题文件”(A)包括“试卷蓝图”(C1)、“命题程序及工作要求”(C2)、“命题工作计划”(C3)三个指标,试用萨蒂层次分析法确定C1
、C2、C3三个指标的权数。
萨蒂相对重要等级表
      相对重要程度   定  义      说  明
         1同等重要两者对目标贡献相等
         3略为重要据经验,一个比另一个对评价稍为有利
         5基本重要或高度重要据经验,一个比另一个对评价更为有利
         7确实重要一个比另一个对评价更有利,其优势已为实践所证明
         9绝对重要明显重要的程度可以断言为最高
      2、4、6、8两相邻程度的中间值需要折衷时采用

  
专家利用上表把各指标Ci(i=1,2,…,n)两两地比较,如果认为Ci与Cj同等重要,记Cij=Cji=1;如果认为Ci比Cj略为重要,记Cij=3,记Cji=1/3;认为Ci比Cj基本重要,记Cij=5,Cji=1/5;认为Ci比Cj确实重要,记Cij=7,Cji=1/7;认为Ci比Cj绝对重要,记Cij=9,同Cji=1/9;认为Ci比Cj的重要程度在略为重要与基本重要之间,记Cij=4,Cji=1/4;余者类推。这样就得到一个如下的比较矩阵:
       C1 C2 … Cn
      C1
      C2
      ┆
      CnC11 C12 … C1n
      C21 C22  … C2n
      ┆ ┆   ┆
      Cn1 Cn2 …  Cnn

   
在所拟的例子中,假定专家认为C2比C1略为重要,记C21=3,C12=1/3;认为C1比C3确实重要,记C13=7,C31=1/7;认为C2比C3绝对重要,记C23=9,C32=1/9。于是得出关于A分解为C1、C2、C3的比较矩阵:
      AC1 C2 C3
      C1
      C2
      C31  1/3  7
      3  1  9
      1/7 1/9 1

    第二步,计算Ci(i=1,2,,n)相对优先权数。计算公式为:

    在上例中,

   
第三步,对判断和计算结果进行一致性检验。从逻辑上说,知道了C1对C2重要程度和C2对C3的重要程度,就能大约地推断C1对C3的重要程度。如果实际判断的C1对C3的重要程度与这种判断差距较大,那么关于这三者之间重要程度的实际判断就出现了矛盾和不一致的情况。由于专家只进行两两比较,而不进行整体排除比较,判断有可能出现这种整体不协调、前后不一致的情况。为了解决这一问题,萨蒂根据N阶相容矩阵的最大特征值为n的特点,设计了一种检验判断结果是否一致(比较矩阵是否为相容矩阵)的具体方法。由于计算过程比较繁琐,这里就作介绍了。
   
萨蒂的层次分析法把专家的经验判断与理性分析结合起来,确实是构造权集的较好方法:它仅仅要求专家对指标的重要程度进行两两比较,而不直接给出权数,从而使专家判断中的不确定因素受到较好的控制;它给出五个等级,并允许选取等级间的中间值,从而使等级判断既有很高的稳定性,又有足够的精细度;它在专家等级判断的基础上,通过计算确定权数,从而大大降低了权数判定中的主观随意性。
   
其不足是:专家判断后要经过一系列计算,应用起来不够方便;在指标数稍多时,常会出现判断结果不一致的情况,需要通过繁琐的计算来进行检验和调整;据比较矩阵计算出的不同权数的差别往往比人们所理解的“略为重要”、“确实重要”等的含义更大。如n=2时,认为C1比C2“略为重要”,计算出的权数分别为0.75和0.25。比方说,工资750元的比工资250元的贡献,恐怕不能说“略为重要”。再如n=3时,认为C1比C2“略为重要”,C2比C3“略为重要”,C1比C3“基本重要”,计算出的权数分别为0.64、0.26、0.10。显然,占分比例64%的指标比占分比例26%的指标,对评价的贡献不只是“稍为有利”,比占分比例10%的指标对评价的贡献也不仅仅是“更为有利”。就是说,计算的结果与萨蒂本人所给出的等级差的定义及其说明不大符合,至少与我们对于其定义的理解不大符合。
   
那么,可不保留萨蒂法“两两比较”、控制经验判断随意性的长处,而设法克服它的不足呢?比如,可不把那些可能的或常见的等级组合,预先计算出权数,再列表给出,从而减少设计者计算之苦呢?进一步,可不在“两两比较”的前后,再增设整体排除的程序,并对等级组合提出某些限制性条件,从而保证判断结果的一致性而不必检验呢?再进一步,可不设计一种新的由等级组合推算权数的逻辑,使权数差更好地符合等级差的定义呢?
    正是沿着这样的思路,1994-1996年间,于信凤和邵友竹研究提出了五等级排序法。
    2、五等级排序法的基本假设和权数推算公式
    五等级排序法的基本假设有以下四项:
   
(1)同层次的n个指标可按重要程度与依次递减的五个等级相对应。今用“1、3、5、7、9”表示这五个等级,用“2、4、6、8”表示等级之间的中间值。其中对应“1”的指标最重要,对应“3”的指标次重要,等等。
    (2)五个等级的各相邻等级的等级差是相等的。
   
(3)任一等级组合的平均等级的权数等于权数的平均值。根据第一项假设,我们总能在同层次的n个指标与表示等级的5个数字之间建立一种对应关系(“指标集”到“等级集”的映射),如果这种对应恰能使表示等级的数字组合与n个指标的相对重要程度相一致,我们就称这个数字的组合为这n个指标的等级组合。在同层次指标的权数之和为“1”的前提下,根据此顶假设,n个指标的等级组合若为(K1,K2,…,K3),其平均等级所对应的权数为1/n。
    (4)在权数和为1的条件下,相邻等级的权数差Δ=1/(2n+1)。
根据上述假设,如有n个同层次的指标,其等级组合为(K1,K2,…,Kn),对应的等级数为Ki的指标权数Wi为

    这就是五等级排序法的权数推算公式。根据此式,可以求得任何等级组合的权数分布。
    3、等级组合的判断方法
    有了权数推算公式,求一组指标的权数分布,关键是找到这组指标的等级组合。
那么怎样判断一组指标的等级组合呢?
   
第一步,按重要程度给一组指标排出序号。做法是:首先选出最重要的指标,排为第1号;然后再选出次重要的指标,排为2号;依此类推,直到排完为止。其中认为同等重要的指标排在同一序号上。
   
第二步,根据下面的“相对重要等级比较表”对序号相近的指标进行两两比较,给出各指标的相对重要等级。做法是:首先把第1号指标排在第1等级上;然后把已经排好的第1号指标与第2号指标相比较,认为后者比前者低几个等级,就把后者排在低几个等级的位置上(如认为后者比前者低两个等级,就把2号指标排在第5等级上);再依次把刚排好的指标与邻近的下一序号指标相比较,根据两者的等级差排放后者的等级(如将排在第5等级的2号指标与3号指标相比较,认为后者比前者低一个等级,就把后者排在第7等级上),直到排完为止。序号相同的指标要放在同一等级。
    根据下面的“相对重要等级比较表”关于等级差的定义和说明,确定相比较的两指标的等级差。
    通过这样的两两比较,我们就初步构建了一个等级组合。
          相对重要等级比较表
       等级等级差定义     说    明备注
      用1、3、5、7、9表示依次递减的五个等级,2、4、6、8表示等级间的中间值。一个等级略为重要据经验,一个比另一个对评价稍为有利。相邻等级差是等距的。
      两个等级明显重要据经验,一个比另一个对评价较为有利。
      三个等级高度重要据经验,一个比另一个对评价更为有利。
      四个等级绝对重要一个比另一个重要的程度,可以断言为最高。

   
第三步,通过不相邻指标的两两比较,检验等级的协调性。单靠相邻指标的两两比较,有可能出现整体不协调的情况。为此,需要对不相邻的指标再进行两两比较,以检验等级排列的协调性和一致性。做法是:逐对检验通过上一步所得到的等级组合的不相邻指标,中间隔一级(即相差两级)的一个比另一个是否“高度重要”,中间隔三级的一个是否比另一个“绝对重要”。如果“是”,认为等级排列协调一致;如果“不是”,则认为不够协调,需要做出适当调整,直到协调时为止。
   
通过这样的排序、比较和检验,我们就将n个指标按重要程度与五个等级数字对应起来,建立了一个等级组合。这样,我们就可以利用上面介绍的公式或后面将给出的等级组合与权数分布对照表,计算或查找每个指标的权数值。
    下面通过一个例子,说明构建等级组合和求解权数的过程。
    如评价基础性研究成果,共有5项评价指标(即n=5):新颖性(C1)、独创性(C2)、先进性(C3)、学术价值(C4)、应用价值(C5)。求各指标的权数。
   
第一步,排序。研究认为,对于基础(理论)性研究成果来说,C3(先进性,即达到何种水平)、C4(学术价值)最重要,排为1号;C2(独创性)次重要,排为2号;C1(新颖性)、C5(应用价值)又次,排为3号。
   
第二步,定等级。首先把C3、C4排在第1等级上;然后把C3、C4分别与C2相比较,认为C3、C4都比C2“明显重要”,把C2排在第5等级上;再把C2与分别与C1、C5相比较,认为前者比后两者“略为重要”,把C1、C5排在第7等级上。这样就初步建立了一个等级组合。
    第三步,检查协调性。把排在第1等级的C3、C4分别与排在第7等级的C1、C5相比较,认为前两者确比后两者“高度重要”,即整体协调一致。
    通过上述三步,就把指标C3、C4、C2、C1、C5与等级数1、3、5、7、9对应起来,得到了一个等级组合(1,1,5,7,7)。
    第四步,计算权数。根据权数推算公式,求得C3、C4、C2、C1、C5权数分别为:0.35、0.35、0.16、0.07、0.07。
    4、五等级排序法的权数对照表
    五等级排序法的权数公式比较简单,但通过计算求得权数总是一件比较麻烦的事。为方便指标体系设计者,五等级排序法的研究者通过计算给出了
的各种组合的权数对照表。为了比较的方便,同时列出了按萨蒂层次分析法计算的权数表。
   
一般情况下,一个评价指标体系的末级指标都有十几项、几十项甚至更多。但是,指标体系都呈树状结构,由同一分枝直接分解出的同层次的指标数大都在2-5个之间,所以在多数情况下都可以通过查表逐层次地求得各级指标的权数。在n>5的特殊情况下,可以直接使用权数推算公式计算各指标的权数。
    下面列出的权数对照表,第1行为等级组合,用符号R表示;第2行为五等级排序法的权数公式推得的权数,用W表示;第3行为按萨蒂法计算的权数,用表示。
          权数对照表
      n=2
      R 1  1 1  3 1  5 1  7 1  9
      W0.50  0.500.60  0.400.70  0.300.80  0.200.90  0.10
      0.50  0.500.75  0.250.83  0.170.88  0.120.90  0.10

      n=3
      R 1     1     1 1      1     3 1      1       5 1      1      7
      W0.33  0.33  0.330.38  0.38   0.240.42   0.42    0.160.47   0.47   0.06
      0.33  0.33  0.330.43  0.43   0.140.45   0.45    0.100.47   0.47   0.06

        1      3      3 1      3      5 1      3      7 1      3      9
      0.42    0.29   0.290.47   0.33   0.200.51   0.37   0.120.56   0.42   0.02
      0.60    0.20   0.200.64   0.26   0.100.64   0.28   0.080.65   0.29   0.06

        1      5     5 1      5      7 1     5       9 1      7      7
      0.52    0.24   0.240.56   0.28   0.160.61  0.33    0.060.60   0.20   0.20
      0.72    0.14   0.140.73   0.19   0.08 0.72  0.22    0.060.78   0.11   0.11

        1      7     9 1      9      9 
      0.65    0.25   0.100.70   0.15   0.15 
      0.78    0.15   0.070.82   0.09   0.09 

        n=4
      R 1  1  1  1 1   1   1   3 1   1   1  5
      W0.25  0.25  0.25  0.250.28   0.28   0.28   0.160.30   0.30   0.30  0.10
      0.25  0.25  0.25  0.250.30   0.30   0.30   0.100.31   0.31   0.31  0.07

       1      1      1      7 1      1      3      3 1      1      3      5
      0.32   0.32   0.32    0.040.30   0.30   0.20    0.200.33   0.33   0.22   
      0.12
      0.32   0.32   0.32    0.040.38   0.38   0.12    0.120.39   0.39   0.15   
      0.07

       1      1      3      7 1      1      5      5 1      1      5      7
      0.36   0.36   0.24    0.040.36   0.36   0.14    0.140.38   0.38   0.17   
      0.07
      0.39   0.39   0.16    0.060.42   0.42   0.08    0.080.42   0.42   0.11   
      0.05

       1      1      7      7 1      1      7      9 1      1      9      9
      0.41   0.41   0.09    0.090.43   0.43   0.11    0.030.46   0.46   0.04   
      0.04
      0.44   0.44   0.06    0.060.44   0.44   0.08    0.040.45   0.45   0.05   
      0.05

       1      3      3      3 1      3      3      5 1      3      3      7
      0.34   0.22   0.22    0.220.36   0.25   0.25    0.140.38   0.27   0.27   
      0.08
      0.50   0.17   0.17    0.170.62   0.20   0.20    0.080.52   0.21   0.21   
      0.06

       1      3      5      5 1      3      5      7 1      3      5      9
      0.38   0.28   0.17    0.170.42   0.31   0.19    0.080.44   0.33   0.22   
      0.01
      0.55   0.25   0.10    0.100.56   0.26   0.12    0.060.56   0.27   0.13   
      0.04

       1      3      7      7 1      3      7      9 1      3      9      9
      0.45   0.33   0.11    0.110.47   0.36   0.14    0.130.50   0.38   0.06   
      0.06
      0.57   0.29   0.07    0.070.56   0.29   0.09    0.060.59   0.31   0.05   
      0.05

       1      5      5      5 1      5      5      7 1      5      5      9
      0.40   0.20   0.20    0.200.44   0.22   0.22    0.120.47   0.25   0.25   
      0.03
      0.61   0.13   0.13    0.130.63   0.15   0.15    0.070.63   0.16   0.16   
      0.15

       1      5      7      7 1      5      7      9. 1      5      9      9
      0.47   0.25   0.14    0.140.50   0.28   0.17    0.050.53   0.31   0.08   
      0.08
      0.65   0.19   0.08    0.08064   0.21   0.10    0.050.65   0.23   0.06   
      0.06

       1    7    7    7 1   7    7     9 1   7    9    9 1   9    9    9
      0.49 0.17  0.17 0.170.53 0.19 0.19  0.090.56 0.22 0.11  0.110.58 0.14 0.14
       0.14
      0.70 0.10  0.10 0.100.70 0.12 0.12  0.060.71 0.15 0.07  0.070.76 0.08 0.08
       0.08

        n=5
      R 1       1       1      1       1 1       1       1       1       3
      W0.20    0.20    0.20    0.20     0.200.22    0.22    0.22     0.22    
      0.12
      0.20    0.20    0.20    0.20     0.200.23    0.23    0.23     0.23    
0.08

       1    1     1     1    5 1    1    1     3     3 1    1     1     3    5
      0.24  0.24  0.24  0.24 0.040.24 0.24  0.24  0.14  0.140.26  0.26  0.26 
      0.16 0.06
      0.24  0.24  0.24  0.24 0.240.27 0.27  0.27  0.09  0.090.28  0.28  0.28 
      0.11 0.05

       1    1     1     5    5 1    1    1     5     7 1    1     1     7    7
      0.28  0.28  0.28  0.08 0.080.29 0.29  0.29  0.10  0.030.30  0.30  0.30 
      0.05 0.05
      0.28  0.28  0.28  0.08 0.080.30 0.30  0.30  0.07  0.030.30  0.30  0.30 
      0.05 0.05

       1    1     3     3    3 1    1    3     3     5 1    1     3     3    7
      0.26  0.26  0.16  0.16 0.160.27 0.27  0.18  0.18  0.100.29  0.29  0.20 
      0.20 0.02
      0.33  0.33  0.11  0.11 0.110.34 0.34  0.13  0.13  0.060.34  0.34  0.14 
      0.14 0.04

       1    1     3     5    5 1    1    3     5     7 1    1     3     7    7
      0.29  0.29  0.20  0.11 0.110.31 0.31  0.22  0.13  0.030.33  0.33  0.24 
      0.05 0.05
      0.36  0.36  0.16  0.06 0.060.36 0.36  0.16  0.08  0.040.37  0.37  0.18 
      0.04 0.04

       1    1     5     5    5 1    1    5     5     71     1     5     7    7
      0.32  0.32  0.12  0.12 0.120.33 0.33  0.15  0.15  0.040.35  0.35  0.16 
      0.07 0.07
      0.38  0.38  0.08  0.08 0.080.39 0.39  0.09  0.09  0.040.39  0.39  0.12 
      0.05 0.05

       1    1     7     7    7 1    1    7     7     91     1     7     9    9
      0.38  0.38  0.08  0.08 0.080.38 0.38  0.11  0.11  0.020.40  0.40  0.12 
      0.04 0.04
      0.41  0.41  0.06  0.06 0.060.41 0.41  0.07  0.07  0.040.41  0.41  0.10 
      0.04 0.04

       1    1     9     9    9 1    3    3     3     3 1     3    3     3    5
      0.44  0.44  0.04  0.04 0.040.28 0.18  0.18  0.18  0.180.29  0.20  0.20 
      0.20 0..11
      0.44  0.44  0.04  0.04 0.040.44 0.14  0.14  0.14  0.140.44  0.16  0.16 
      0.16 0.08

       1    3     3     3    7 1    3    3     5     5 1     3    3     5    7
      0.31  0.22  0.22  0.22 0.030.30 0.22  0.22  0.13  0.130.33  0.24  0.24 
      0.14 0.05
      0.44  0.17  0.17  0.17 0.050.46 0.20  0.20  0.07  0.070.46  0.20  0.20 
      0.09 0.05

       1    3     3     7    7 1    3    5     5     5 1     3    5     5    7
      0.34  0.26  0.26  0.07 0.070.32 0.23  0.15  0.15  0.150.35  0.26  0.16 
      0.16 0.17
      0.48  0.21  0.21  0.05 0.050.50 0.23  0.09  0.09  0.090.50  0.25  0.10 
      0.10 0.05

       1    3    5     7     7 1    3     5     7    9 1    3    5     9     9
      0.37 0.27  0.18  0.09  0.090.38  0.29  0.20  0.11 0.020.40  0.31 0.21 
      0.04  0.04
      0.51 0.26  0.13  0.05  0.050.50  0.26  0.13  0.07 0.040.51  0.27 0.14 
      0.04  0.04

       1    3    7     7     7 1    3     7     7    9 1    3    7     9     9
      0.38 0.29 0.11 0.11 0.110.40  0.31  0.13  0.13 0.030.42  0.33 0.15  0.05 
      0.05
      0.54 0.28  0.06  0.06  0.060.52  0.28  0.08  0.08 0.040.53  0.29 0.10 
      0.04  0.04

       1    3    9     9     9 1    5     5     5    5 1    5    5     5     7
      0.44 0.35  0.07  0.07  0.070.36  0.16  0.16  0.16 0.160.37  0.18 0.18 
      0.18  0.09
      0.54 0.31  0.05  0.05  0.050.56  0.11  0.11  0.11 0.110.56  0.13 0.13 
      0.13  0.05

       1    5    5     5     9 1    5     5     7    7 1    5    5     7     9
      0.38 0.20  0.20  0.20  0.020.38  0.20  0.20  0.11 0.110.40  0.22 0.22 
      0.13  0.03
      0.55 0.14  0.14  0.14  0.030.56  0.16  0.16  0.06 0.060.57  0.16 0.16 
      0.08  0.03

       1    5    5     9     9 1    5     7     7     7 1    5    7     7     9
      0.42 0.24  0.24  0.05  0.050.40  0.21  0.13  0.13 0.130.42  0.23 0.15 
      0.15  0.05
      0.58 0.17  0.17  0.04  0.040.59  0.20  0.07  0.07 0.070.58  0.20 0.09 
      0.09  0.04

       1    5    7     9     9 1    5     9     9     9 1    7    7     7     7
      0.44 0.26  0.16  0.07  0.070.46  0.27  0.09  0.09 0.090.44  0.14 0.14 
      0.14  0.14
      0.58 0.21  0.11  0.05  0.050.60  0.22  0.06  0.06 0.060.64  0.09 0.09 
      0.09  0.09

       1    7    7     7     9 1    7     7     9     9 1    7     9     9    9
      0.45 0.16  0.16  0.16  0.070.46  0.18  0.18  0.09 0.090.47 0.20  0.11 
      0.11  0.11
      0.63 0.11  0.11  0.11  0.040.64  0.13  0.13  0.05 0.050.65 0.17  0.06 
      0.06  0.06

      1  9  9  9  9 
      0.48 0.13  0.13  0.13  0.13 
      0.68 0.08  0.08  0.08  0.08 

        说明两点:
       
第一,对于像(1,1,1,9)和(1,1,1,1.9)这样的特殊的等级组合,按五等级排序法的权数公式计算,等级数为9的指标权数有可能为负数,这表示该指标体系中列入如此次要的指标不仅没有实质性意义,甚至可能对评价结论造成干扰。在这种情况下,或者从指标体系中删除这一指标,或者将其适当提级,如(1,1,1,9)中的“9”提为“7”,(1,1,1,1,9)中的“9”提为“5”。
       
采用萨蒂法也会出现类似情况。如按萨蒂法计算,(1,1,1,9)和(1,1,1,7)的权数分布是一样的;(1,1,1,1,9)、(1,1,1,1,7)和(1,1,1,1,5)的权数分布也是一样的。这表明,在这种特殊情况下,最低等级取“9”和取“7”,甚至和取“5”,都没有实质性的差别。
       
第二,为了减小对照表的长度,其中没有列出取中间值2、4、6、8时的权数分布。如果在“排序”之后的“比较”中,确需取中间值;或者在查表之后的“微调”中,感到某一指标的权数不够合理,确需调整为中间值,可以使用权数推算公式求出这一组指标的权数分布。

     1 版权所有 重庆市教育考试院(重庆市大学中专招生委员会办公室、重庆市高等教育自学考试委员会办公室)
地址:重庆市渝北区红锦大道61号 咨询信访电话:(023) 67869200 邮编:401147
Copyright chongqing Municipal Educational Examinations Authority All Rights Reserved.
渝ICP备10014322号   |   渝公网安备 50011202500521