首页>他山之石

周作宇 | 元评价问题:评价的循环与价值原点

发布时间: 2022- 10- 19 14: 53浏览次数:

摘要:

评价在高等教育质量保障中具有重要的作用,既体现在价值引导上,也体现为工具性功能。评价过程以事实为依据,以认识为基础。认识过程不可避免地存在着知识错觉和偏见,必然会影响评价的客观性、公正性和合理性。因此,需要进行元评价,即对评价进行评价。元评价是评价的专业化发展的重要任务,这就需要建立本土的项目评价标准,建设服务于高等教育质量保障的评价文化。

关键词:

评价;项目评价;元评价;价值

评价是个体心理的基本特征,是人类社会的普遍现象。在日常生活中,评价时刻发生。有个人对自己的评价,对别人的评价,对群体的评价,也有对一个民族或国家的评价。评价的存在形式或隐或显,表达或明确或模糊,是主观与客观交互作用的过程和结果。除了自然行动,离开评价,个体活动和集体行动就可能会失去动力和方向。从个体的例行公事到大型的集体创造性活动,评价无不起着这样或那样的作用。评价和人类行为一体。评价具有“情境性”“模式性”“价值性”“工具性”“自发性”“反射性”“即时性”“连续性”“超越性”等特征。作为一个思维对象,即将“评价”作为思考的内容,体现了人类的循环反思性向及能力。在高等教育进入评价时代之后,在各种各样的正式评价越来越成为影响高等教育发展的重要力量的新阶段,对“评价”开展评价是非常必要的。元评价就是对“评价”的评价,是“升维”的评价活动。本文在识大图和求质量的基础上,尝试探讨高等教育领域的元评价问题。

一、识大图:高等教育发展的世界图景

  高等教育评价与高等教育实践紧密相关。实践过程融非正式评价与正式评价于一体。正式评价随着高等教育大众化的发展,从评估主体、评估组织、评估设计、评估工具和技术到评估结果的传播使用,在不同时期呈现不同的特点。按照马丁·特罗的理论,高等教育经历了精英化、大众化和普及化的不同阶段。他的理论在世界各国都有信徒。显而易见的是,同样的百分比后面,比如15%,不同国家的高等教育发展状况很不相同。特殊的本土环境是高等教育发展状况必须考虑的因素。不考虑高等教育所处其中的政治、经济、文化和社会等不同特点,用一般性的数字比例描述国家高等教育发展水平,显然有局限性。虽然如此,在全球化背景下,世界发展的一般趋势,或迟或早,终究会在一定程度上影响到各个国家。其中,以科技支撑的全球经济社会联系,对高等教育发展影响深刻。

(一)“大数据”时代的来临

   中世纪大学诞生之际,科技水平还十分有限。科技进步和工业化大生产相互支撑,助推世界现代化进程。当今,“工业革命4.0”和“社会5.0”的新概念,已成为对现代社会的新概括和新定义。二者都反映了互联网时代的新特征,标志着人类文明进入了新的阶段。新阶段的典型特征就是我们生活在两度空间,一个是实体的物理空间,另一个是虚拟的网络空间。人类社会所面对的三类现实,即客观现实、主观现实和交互现实,因互联网的大面积推广,发生了前所未有的大变迁。尤其是,人际、文化际、国际的交互性增强。不同国家和区域的文明相互接触、相互渗透、相互吸收借鉴不可避免。与此同时,文明间的分歧、误解、矛盾和冲突增多,相互理解、包容和欣赏成为各国文化建设的新使命。在交互现实中,全球视野是应有的观察框架,人类命运意识应该是统摄政治、经济和文化行为的基本价值立场,而判断悬置的客观认识,是高层次的理性交往和情感互动的前提。在这个过程中,数据是新的重要资源。梳理人类发展的不同历史阶段可以发现,由农业文明到工业文明再到信息时代,数据(信息)已逐渐占有稀缺资源的特殊地位,成为现代组织经济活动的核心要素。尤其是天网、地网、人网纵横交错的“大数据”时代的到来,人类社会正经历革命性的大变局。在高等教育从精英到大众化和普及化的发展过程中,远程教育已经显示出其巨大的辐射威力。高等教育发展的未来,更是离不开互联网和大数据这样的基本技术手段。特别重要的现实是,这些过去仅仅是作为环境的技术性、工具性因素,越来越和人的生存融合。数据化生存的新特征,是高等教育全面改革的“硬现实”。切实体认国际社会发展的阶段性新特征,准确把握互联网时代、大数据时代、人工智能时代的高等教育的发展背景和问题情境,是做好评价工作的一个重要前提。

(二)大学交互的新形态

  现代大学最初出现时,以“学生”为主体进行管理。第一所大学——博洛尼亚大学的雏形就是学生机构。稍晚时候成立的巴黎大学,学生生源除法国外,还有英格兰、德国和意大利等遥远的地方。大学以知识为组织基础,围绕知识开展活动,知识的传播、创新和转化是大学的使命。随着人类知识状况的变化,特别是科学知识的进步,大学的使命在不断拓展,组织方式也日渐复杂。纽曼的《大学的理想》表达的博雅教育理念,至今仍然有现实意义。与此相对,大学的组织形式以书院或学院(college)为基础。“洪堡大学”虽然根据德国学者的研究具有“神话发明”的历史根据,但是以其突出知识发现或创新地位的新理念所具有的超越历史的影响力,已经改写了高等教育的历史。以约翰斯·霍普金斯大学为代表的研究型大学的崛起,界定了大学(university)的新形态。在世界不同地方竭力维护“为知识而知识”的合法性的同时,美国的《莫里尔法案》、威斯康星思想等经年积累的经世致用理念和实践,启迪了作为加州大学校长的克拉克·科尔的洞察力。他在《大学的功用》为“多元巨型大学”(multi-versity)的概念剪彩。大学的三大功能集聚一体,赋予大学不同于以往的新形象。“象牙塔”的大学意象失去光彩。知识经济的话语格式化了国际组织和各国政府计划,WTO的影响力逐渐扩大,跨国知识流动爆发。区域高等教育网络或联盟、跨境合作办学(分校、校园)、跨境科研和人才培养项目、师生流动等高等教育之间的交流互动,规模不断扩大,形式不断丰富,互渗程度不断加深。与此同时,本土化的大学之间、大学和各级政府以及企事业单位之间的合作也在不断加强。国际性大学排名、世界一流大学办学指引、政产学研用的新认知,使大学的交互性达到前所未有的程度。大学的新形态出现,交互大学(inter-versity)为大学的组织形式增添了新面相。交互大学概念的提出,旨在强调大学发展的交互性特征,包括大学组织及其成员在跨国、跨界、跨领域、跨机构之间的交互、流动与融合,形成你中有我、我中有你的新特征。它融合了学院、大学和巨型大学的成分,同时突显了更多国际化和社会化的元素。交互性大学的出现,既突显人才培养中的新“花纹”,也为教育教学提出新目标、新组织、新方法、新评价等诸多新挑战。在世界高等教育领域,学院、大学、巨型大学的传统继续在大学“文化场”做惯性运动,但同时,交互大学助推办学扇面的不断扩大,也在倒逼大学全面自我反思,不断探索教育教学改革的新路径和新范式。

(三)课堂教学的范式转换

  在世界范围内看,培养全球胜任力引起越来越多的国家和地区的关注。联合国教科文组织(UNESCO)欧洲委员会于2014年就开始倡导全球胜任力教育。经合发展组织(OECD)的国际学生评估项目(PISA)项目组将全球胜任力从认知、社会情感、公民学习等多个层次制定目标,将全球胜任力定义为“是分析当地、全球和跨文化议题的能力,是理解和欣赏他人视角和世界观的能力,是与不同文化背景者进行开放、得体、有效互动的能力,是为集体福祉和可持续发展采取行动的能力”。在全球化时代,培养全球胜任力是教育系统的整体使命,不限于某一个学段。大学教育是高等教育系统的一个有机部分。从基础教育到高中后教育,对于某一个个体而言,个体教育随时间展开,存在时间上的不可逆的单方向性。但是对教育体系而言,不同年龄段的人处于同一个时空状态。后程教育在前程教育的基础上历时运转,同时和前程教育共同面对新环境和新挑战。这就意味着,它不仅要创新该学段的理念,推动本段教育实践创新,同时还需要面对从前段接受来的“教育产品”,在新理念下“补课”“矫正”,消除前段教育中形成的“恶习”“恶果”。对前段教育寻根溯源,对照新理念新标准逐级检讨,是后段教育必须面对的教育反思任务。没有人是空投到一个学段的。教育的惯习在学段间传递。与没有传统负担轻装上阵比较,肩负传统负重的创新改革,难度更大。大学教育不能等到前段教育改革后接受新人,需要和前段教育同时进入改革“阵地”。全球胜任力需要从早期教育开始,大学教育当然也有作为空间。经合发展组织对全球胜任力的界定重在“交互”,即分析、理解、互动和行动四项能力,说到底就是在全球视野里培养个人首创精神和群体合作精神。摆脱人身依附,实现独立自主,建构公共精神光照下的相互依存、和谐共生、共同发展的人类命运共同体,是教育的永恒使命。在时空隔绝、地区封闭的环境下,教育不可避免地停留在地方性水平。信息技术革命拉平了世界。在合作与竞争、冲突与和平如影随形的国际秩序里,全球胜任力具有价值理性和工具理性双重支点。由理念到行动,获得越来越有利的条件保障。教育新理念在新校园、新教室、新课堂的支持下,展现出教育教学的新范式。以互联网+教育及慕课(MOOCs)为代表的“第三课堂”席卷全球,集装箱式教室、虚拟现实(VR)技术、融合教学、翻转课堂等形式推陈出新。跨国跨境跨界的新探索,催生了“第四课堂”。与传统的课堂教学(第一课堂)与课外活动及实训教学(第二课堂)相联系,同时融合第三课堂的新资源,第四课堂强调国际化、跨学科、创新驱动、设计思维、项目制协作。静态的知识动态化,“为知识而知识”延伸到“知识创价”。“国际化”发挥平台作用,“创客活动”融形式与内容于一体,“设计思维”是重要的教学内容,也是第四课堂的实现途径和条件。这种教学方式颠覆了过去从左到右的教学序列,真正转向“以学生为中心”的“倒转教学”及“学教交互”。在这个过程当中教师的作用不是降低了,相反,相比过去得到了更大的发挥。其作用体现在辅导、设计、评价等诸多方面。同时,学生也由单一的个体学习者转变为群体学习者。我国一批中美创客中心的教学实践显示了第四课堂的积极效果。在新加坡,美国杜克大学和新加坡国立大学合作在医学教育开展翻转课堂教学,也为第四课堂提供了范例。第四课堂对传统的教学评价方式提出挑战。将四类课堂结合起来,在发挥传统课堂的优势的基础上,凸显“知识创价”的重要地位。教学设计相应地要体现创价的价值立场。同时,在微观的评价活动中,评价对象、内容和标准相应地发生变化。学生评价不仅仅是单一的个体学生,“学习小组”和“设计团队”同样是评价的对象。

二、求质量:专业化评价的兴起

  如前所述,评价活动普遍存在。新中国成立之后,在《中国人民政治协商共同纲领》中“文化教育政策”(第五章),就提出要对科学研究(自然科学、社会科学)优秀成果进行奖励,并且提出要加强高等教育。同年,徐特立先生在《科学化民族化大众化的文化教育》一文中指出,“真正的科学就能够提高人民的自觉,非科学的东西就会加重人民的迷惘。”“优秀”“加强”“真正的”等词语都涉及比较、评价和鉴别。在第一个《高等学校暂行规程》中,针对学生入学和学业表现而言,分了四类考试,即入学考试、平时考试、学期考试和毕业考试。在教研组、教务长、系主任的条款中,提到了“检查”“监督”等带有评价性质的职责。在加强工业建设和师范教育的思想指导下,1952-1953年开展了院系调整。马叙伦在1953年对这次改革做了总结,提到了质量方面的问题。他指出,“几年来高等学校的发展是带有盲目性的。表现在重量轻质,要求过急。照顾需求方面多,考虑可能条件方面少。不少措施超出了主观力量。以致今天高等教育的质量一般低”。这是新中国较早关注高等教育质量问题的一份重要文献。其实事求是、务实反思的态度值得学习。1955年为了把好高教入口关,国务院下发了《关于各省、市加强对高等学校招生工作领导的通知》(1955年6月10日)。为解决学业负担过重、质量难以保证的问题,高等教育部召开综合大学和工业大学(学院)校长座谈会。曾昭抡(1955年6月11日)在会上做了《贯彻全面发展方针,解决学生负担过重问题,提高高等教育的质量》的讲话。座谈会检讨了落实“提高质量,稳步前进”方针的偏差。从学生入学水平、师资水平、教学大纲、教学方法、教学设备、教材、课时等多方面检讨工科学生课业负担重的问题。提出“学少一点、学好一点”的朴素原则。在“大跃进”的洪流推动下,许多地区和学校对“教育与生产劳动相结合”做片面理解,高等教育机构数量急速增加,一些大学的招生人数也迅速扩张。有的学校达到一万多学生的规模。1959年5月28日,周恩来总理在天津大学讲话时指出,“教育与生产劳动相结合,教育是主导方面。因为学生来学校就是为了学习。我们一定要认清主导方面。认不清主导就没有方向,认不清主导就没有重点”“你们要保证教育质量,提高教育质量”。提醒不能再在扩大数量上做文章。建国初期高等教育所面临的改革发展任务是特殊的,但是对质量问题的关注,关于质量和数量关系的认识,具有长期持久的意义。当然,如何抓质量,如何评价质量和水平,还有更精细的专业化评价的发展要求。经过不断探索和震荡,“文化大革命”结束后高等教育重回正轨。总体上看,80年代办学经费紧张,高等教育规模小,需求远远大于供给。1985年5月27日发布的《中共中央关于教育体制改革的决定》,提出教育体制改革的根本目的是“提高民族素质,多出人才,出好人才”。在高等教育改革方面,聚焦招生和毕业分配制度改革和扩大高校办学自主权。释放高校活力,挖掘高校办学潜力。文件在教育理念、教育内容和教学方法方面也提出改革要求,强调克服“唯书”“唯上”的封闭的教育思想,倡导创造性和进取精神。“出好人才”对人才有一个笼统的限定。能够适应国家现代化建设需要,适应物质文明和精神文明需要的人才就是好人才。在规模小、数量不足的情况下,高等教育的质量问题还不突出。虽然如此,在高校专业领域已注意到质量问题。以“镜泊湖会议”(1985年6月召开的高等工程教育评估问题专题讨论会)为标志,高等教育评价走上专业化之路。1990年国家教委颁布《普通高等学校教育评估的暂行规定》,推动了高等教育评价的专业化加速发展。在1993年2月13日《中国教育改革发展纲要》中,提出集中中央和地方力量办好100所左右重点大学和一批重点学科、专业,在教育质量、科学研究和管理方面,达到世界较高水平。这份文件为绘制“211工程”建设草图奠定了政策基础,也为之后通过“985工程”和“双一流”建设向国际一流进发摁下了按钮。于是,一方面,在教育评估政策的推动下,专业性评价的国家队组建(以教育部学位与研究生教育发展中心及高等教育教学评估中心两个中心为代表),所谓民间的第三方出现,各种各样的大学排行榜登场;另一方面,高等教育发展的国际性的标杆参照,进一步纳入评价视野。评价的专业化发展是对高等教育质量保证和公共问责的回应。在宏观层面,从高等教育机构、学科、学位点、专业的设置,到政策文件的制定颁布和贯彻落实,再到项目的设计与执行,如何进行决策、如何判断决策效果,无不需要这样或那样的评价活动。宏观的政策评价和项目评价,不仅仅涉及对实施主体的评价,还涉及对政府的评价,如此构成评价的闭环。在高等院校层面,从个体到各级各类学术机构,同样存在类似的评价问责需要。政府推动的大学评价、专业认证与评估、学科评估等外部评估,与大学内部各类评估交错,构筑起越来越复杂的评价体系。随着国内高等教育评价专业化发展进程不断加快,我国与国外评价机构和组织的合作增加。评价的专业化水平在国际互动中不断提升。一方面,一些国际区域性的评价和认证机制引入;另一方面,也参与对境外高等教育机构的评价活动。我国在大学评价、学科评价和专业评价的国际合作也在不断加强。2013年我国加入《华盛顿协议》成为预备会员国,标志着我国工程教育质量得到国际行业领域的认可。2016年成为正式会员。工程认证从试验田走向大田耕作,发展很快。《华盛顿协议》有一套世界普遍认可的工程认证标准。成员国间在工程教育多领域可以进行无缝对接。加入这个共同体,对保障我国工程教育的质量无疑具有积极意义。在工商领域,国内一些大学的优秀商学院(工商学院),或参加欧洲的EQUIS认证,或参加美国的AACSB认证。这对商学领域的国际合作和质量提高,无疑是有益的。有些大学的国际认证工作不是从学校行政层面的角度强制推动的,而是学院自主参加。从国家宏观层面到大学微观层面,再到大学内部的学院和学科层面,办学机构或分层或同步加入国际评价体系,评价的参照标准放大,主体的评价自觉性也越来越突出了。在经济全球化的大背景下,国际性的认证在推动人才培养模式改革方面发挥了一定作用。在“输入”认证和评价的同时,有些评价机构也走出国门,应邀对境外的高等院校开展评价。毫无疑问,在世界范围内观察,评价在教育质量保障中具有重要作用,几乎成为共识。

  评价的活动越频繁,越要看到评价的各种可能后果。越是事关大学声望、资源配置、未来方向的评价,其波及面越广,影响越深入,风险越高。并不是所有的评价活动都能达到积极的效果。好的评价有助于对评价对象做出客观的鉴定,因而有利于进一步的改进。但是糟糕的评价会歪曲事实,带坏风气,可能造成评价对象变形。不好的评价比不上零评价。评价本身需要接受评价。对评价的评价,就是元评价。专业化发展不是自然而然的上升过程,有其自身演进的逻辑。为保证高等教育质量,必须提高评价的专业化水平。重视元评价,树立元评价的意识,提升元评价的能力,是评价专业化发展的应有训练。


三、元评价:评价的循环与价值原点

(一)评价的普遍性:正式与非正式

  元评价是对“评价”的评价,涉及价值判断,是认识问题,受评价者的个人经验以及其所属的特定群体、所处文化环境的影响。评价普遍存在。从广义上看,人们无时无刻不在评价。“江山如此多娇,引无数英雄竞折腰”包含着评价。人们对新老动画片中“哪吒”形象的对比在做评价。改革开放之初的“大学生”和现在的“大学生”形象已有很大差别,也是因为我们的评价参照系改变。参照系变了,人们的心境变了,特别是人们的心智模式变了,对同样的人物、同样的事件的评价可能会很不相同。日常评价与一个人的价值观、世界观、人生观有密切联系。个人的偏好、品味、惯习对评价有着或隐或显的影响。作为特定时代的话语体系和行为举止,是集体意识和集体无意识的写照。个体为外在评价规训,同时又加入到对他者的评价大军以强化公共评价,体现了评价主体客体的双重性。即评价者本身受评价,论断者本身受论断。在一定的权力和权威机制支持下开展的评价活动,同样也存在主客二重性。评价者连同其实施的评价活动,也是评价的对象。评价的最根本的指向,可以集中到隐藏最深的“统御性变量”上来,包括深度假设、信仰体系、价值主张、兴趣偏好、利益诉求等变量。评价不同于研究的鲜明特征就在于“价值判断”。但价值判断并不是纯粹的主观判断,它要以事实为依据。因此,首先要研究事实、了解事实、发现事实、分析事实。评价始于价值,终于价值,但丝毫离不开事实判断。事实数据是评价的“硬件”,对评价非常重要。电影《哪吒之魔童降世》中申公豹有这样一句话:“人心中的成见就是一座大山,任你如何努力都无法搬动”。评价一个重要功能就是帮助对象消除成见和偏见。反过来,评价本身也要消除自身的偏见。这就需要付出“愚公移山”的努力。

(二)偏见的普遍性:客观性及其限制

  偏见是普遍存在的,既见于个体,也见于群体。偏见的反面就是客观公正。在评价过程中,尊重事实,求证事实,追求客观公正立场,是基本的要求。但是所有的客观性都是基于参考框架中的客观性。所见未必为实,事实未必可见。“乔哈里窗”通过“自我与他者”“知与未知”两个维度建立了对个体加以体认的坐标,形成“自知他知”“自知他不知”“他知自不知”“他不知自不知”四个类别。实际上,“他”有“内外人”之别。就“知”而言,还存在“知的错觉”。由此对“乔哈里窗”加以改造,形成新的升级版的认知判断视窗。通过揭示知的错觉,或“伪知”,凸显“偏见”的普遍性。

  客观性涉及我们对现实世界的认识。卡尔·波普尔(Karl Popper)曾将世界三分化,世界Ⅰ是客观世界,世界Ⅱ是主观世界,世界Ⅲ是客观知识。所谓客观知识就是以人所加工的物体为载体的知识(图书、艺术作品、工艺品等)。波普尔的科学哲学主要以科学知识为对象,研究科学发现和知识的进化。如果打通日常的主观世界和科学的主观世界,就会发现一个“主观的交集世界”,即“交互世界”。换句话说,现实有三种形式:一是客观现实;二是主观现实;三是交互现实。进入人们生活的现实,不全是纯粹的客观现实,也不是纯粹的主观现实,还有交互性现实的存在。评价要立足于客观现实,但是不可能离开主观现实而独立存在。作为一项集体性社会活动,更离不开交互现实。因此,我们特别强调对大学发展的认识理解的交互性,强调评价的交互性。交互现实是共识的基础。神话迷信、知的错觉、偏见等偏离客观性的认知倾向,可能在交互现实中强化,也需要在更为开放紧密联系的互动中消除。以知识为对象的评价,对已有知识,必须要面对知的错觉的可能性。而对创造性知识而言,评价则需要更大的自由空间。越是创造性的成果,越难用现有的标准评价衡量。有一项研究结果发现,越是创新指数高的科研项目,获得资助的可能性越小,呈现倒U型。因为大家都不清楚,这究竟是不是好的项目或成果。以“五唯”“排行榜热”“SCI至上”为例,为什么会出现?为什么会持续?为什么会有那么大的影响力?是事实误读,还是价值偏执?如何去解决?个体的心智模式、评价的文化形态是影响评价的“知识存量”的构成部分。在评价过程中,不仅仅是评价模式在起作用,评价参与者已有经验不可避免地会产生影响。毫无疑问,我们不可能在与问题同一个层面解决问题。哥德尔(Kurt Godel)有两个不完备定理:第一定理“任何一个相容的公理体系,必定是不完备的。其中一定有真命题,但不能被证明”;第二定理“任何相容的公理体系不能证明它本身的相容性”。通俗地说,如何判断“克里特岛上的人都是说谎的”这个陈述?假如有一个克里特岛上的人,他说“克里特岛上的人都是说谎的”,那么他说的究竟是不是真的?这个问题就涉及跳出克里特岛的参照系进行观察的问题。“升维”和“超越”为更高级的评价所需。这是一个没有止境的“评价的循环”过程。我们真正的两难困境在于:一是如何在当下评价面向未来的事业?我们和未来不在一个历史窗口。二是如何在现有知识和认知水平上评价超越现有能力的对象?我们和人类知识边缘的认识水平不在一个认知层面。要努力克服历史和现实的“客观性”限制,要超越现在的评价层次,需要沿着元评价的路线上升。

(三)评价的行规:元评价的基本准则

  究竟怎么样判断评价的优劣?习惯上用科学的评价意指好的评价。但究竟什么是科学的?仍然需要有评价的尺度。客观、公平、公正、公开、公允,这是一些抽象的原则。从评价实践看,科学评价涉及的问题复杂得多。美国学者马文·艾尔肯(Marvin C.Alkin)从方法、价值、应用三个维度对评价理论做了分类,绘制了“评价人物树”。虽然这棵树上的个别学者对自身在树上的分叉位置并不完全认可,但对评价理论的这种概括,至少告诉我们评价理论不是“一元”的。从评价的方法、理念或技术路线来说,它是“多元”的。所谓科学的评价毫无疑问并非只有一个模子。不过,理论模型可以有不同,但总归评价是有好坏的。20世纪60年代,迈克尔·斯克瑞文(Michael Scriven)在对评价做出“形成性评价”和“终结性评价”的区分后,提出元评价的概念,推动了评价者对自身的评价工作进行反思评价。斯克瑞文在评价树上被划为“价值”分支。一如他所言,“评价就是要进行价值判断”。评价的目的究竟是什么?谁需要评价?为什么要评价?这是最基本的价值判断问题。克里斯·阿基里斯(Chris Argyris)在倡导学习型组织理论时对学习的类型做了细分。对学习的分类有许多参考标准。他认为人们的学习主要有两类,即单环学习和双环学习。学习是由统御变量到行动策略选择再到结果的循环过程。由结果到策略的反馈构成第一环学习机制。许多人停留在这里。但是学习的结果不完全是由行动策略决定的,统御性变量自始至终发挥着作用。由结果向统御变量反馈,构成第二环学习。两环结合,就是双环学习。在广义上看,元评价也是一个学习过程。评价的结果不仅仅要回到评价的行动策略选择,还要回到指导行动策略的统御变量上来。其原点就是“价值”。当然,探寻客观性事实是必然的要求。非正式评价在日常生活场域非常普遍。即使正式评价,涉及的领域也是很宽的。按对象分,如产品评价、认知评价、报告评价、项目评价、政策评价、档案袋评价和绩效表现评价等是主要的类型。对每一种评价的元评价,侧重点有所不同。元评价是评价家族中具有超越性的一个概念。着眼于为“什么样的评价是好的评价”划界。在元评价的意义上,许多评价协会纷纷总结好的评价实践经验,制定并迭代更新评价的行业标准。元评价的功用体现在多个方面。评价业内的沟通协作需要一套共同理解和认可使用的话语体系,包括概念框架和操作性定义。评价实践会遇到的各种各样的具体问题。要解决这些问题,不能头痛医头脚痛医脚,需要有一套普遍性规则。评价人员需要坚持专业操守,进行自我约束,以赢得公众信任,这需要元评价指导。

  1966年,为了更好地应用心理测量的手段评价教育项目,美国心理学会发表了《教育与心理测试及操作标准》。1974年,美国教育研究会、美国心理学会、国家教育测量委员会三家联合组建了一个专门委员会,负责对1966版的标准进行修订。1975年,评价从心理测验在教育中的应用扩展到整个教育领域。同时,参与制定评价标准的组织增加到12个。最终成立了新的教育评价标准联合委员会(The Joint Committee on the Standards for Educational Evaluation)。最初,来自12个组织的成员的评价观点大异其趣。在诸如评价对象、评价领域和评价范围的一些基本问题上争论不休。经过辩论协商,最后收缩战线,聚焦在项目、工程和资料上。结果是1981年《教育项目、工程、资料评价标准》出台。1988年推出《人事评价标准》。在1975年联合委员会开展的项目评价标准编制工作的基础上,经过近20年的不断实践,1994年在詹姆斯·桑德斯(James Sanders)的带领下,教育评价标准联合委员会制定了更为全面的评价标准。该标准由实用性、可行性、准确性和正当性四个维度构成。实用性包括识别利益相关者、评价者信赖度、信息范围与选择、价值澄清、报告明晰、报告时效和发布、评价影响7个方面。可行性涉及操作程序、政治可行性和成本效率3项指标。正当性涵盖了服务导向、正式协议、人的权利、人际互动、全面公平的评价、结果公开、利益冲突和财务责任8个方面。准确性内容有12项指标,包括项目文件、情境分析、目的与过程描述、精准的信息源描述、数量化信息分析、质性信息分析、结论可证明性、客观报告以及元评价等。项目评价标准联合委员会对评价的专业发展而言具有里程碑的意义。虽然1994版在2010年又有修订,但基本框架保持下来。原有的四个维度没有变化,但具体指标有所调整。比如,“实用性”最初是7项,调整为8项。“可行性”由原来的3项调整为4项,将“实操程序”变为“管理程序”和“实操程序”,“政治可行性”变为“文化可行性”。评价的成本指标保留下来。“正当性”由8项调整为7项。“准确性”由12项调整为8项。在准确性下的“元评价”升级为“评价责任”,成为与原来的四个维度平行的第五维度。评价责任包括在“元评价”(包括内部的元评价和外部的元评价)的基础上增加了“评价建档”。元评价可以在评价的每个阶段实施。评价对象涉及利益相关人、项目描述、评价设计、可信证据收集、证实结论及应用与经验分享。与项目评价标准联合委员的工作平行,1995年,美国评价协会(AEA)开发出评价者指导原则,涵盖系统探究、专业胜任、正直诚实、尊重人和公共责任五个维度的23项指标。可以看出,联合委员会与评价协会都给予公共责任以重要地位。评价的公器性质从评价的指标维度体现出来。1998年OECD也公布了评价的最佳实践指南。这份指南包括9项指标:目标确定(定义与目的、确定主要参加人员、收益与成本评价);组织评价(促进评价文化、评价活动的战略性掌控、保证可信度);有效评价(决策关联、选择合格评价者、利益相关人员参与和结果的公开沟通)。值得注意的是,OECD指南提出“有效评价”的概念,并且倡导“评价文化”建设。这对我国评价专业化发展具有借鉴意义。

通过评价标准的纵横比较可以发现,外部评价与内部评价、评价者与被评价者、评价目标与评价手段、评价效能与公共责任的相互关系,是专业性评价必须重视的“执业关切”。高等教育评价活动过程中,即使是那些看上去和人关系不大的评价对象(比如教育装备),最后还要落到人身上来。评价的价值性与事实性相统一、评价伦理与评价能力相统一、机构利益与公共利益相统一、个人权利与公共责任相统一,是统摄各类评价标准的基本原则。通过有效评价消除高等教育发展过程中长期积淀的偏见陋习,基于至善价值立场,系统探求事实真相,准确诊断问题症结,开发改进计划,以促进事业发展,这是高等教育评价的基本目的。但人类认识具有易错性。评价者与评价组织当然也会有偏见,也是易错的。评价误差不可避免。因此,将评价本身置于被评价的地位,将评价者及其评价活动作为评价对象,是保证评价沿着健康的专业化发展道路进步的必然要求。

(四)元评价实践:意向空间与价值原点

  新中国成立后,高等教育发展历经风雨日趋普及。数量需求已经不是主要矛盾。质量是主要矛盾,也是矛盾的主要方面。质量保证是一个系统工程。评价在质量保障过程中发挥不可替代的作用。内因是变化的根据。内部评价是质量保证的基础。提高内部评价的专业化水平,是国家整体评价专业化发展的有机构成。但是同时,政府组织与专业化评价机构建设,更是肩负引领方向的重要使命。专业化评价机构的素质,在一定程度上反映了国家评价专业化发展整体水平。元评价的开展,既要有高等教育机构的声音,更要有评价机构的引领。树立元评价意识,用第三只眼睛看评价,是任何评价活动都应该自带的“反光镜”。从评价前、评价中到评价后,要始终用好元评价这第三只眼睛,使评价真正有效,克服评价沦为“问题制造者”的反讽。“知之为知之,不知为不知,是知也”。评价者和评价机构既要知他,更要知己。欲评价好他者,先要评价好自己。拥公共权力而放大“自我”(ego)权威,滥挥评价的大棒,是对评价价值的最大反动。以“权力”代“知识”当然要警惕,以“错知”评“真知”无疑要消除,而以“已知”评“未知”,则必须给创新留出空间。一个尾随评价对象其后的“评价器”,是看不清奔跑者的真面目的。交互大学的出现,学习的革命和教育的创新,无法在封闭的评价框架内给出合理有效的“定价”。诸如第四课堂这样的探索,看似局部的微小探索,实对教育惯习具有“颠覆性破坏”的作用。显然它在传统的评价视点还未现身。在互联网大发展时代,高等教育实践正经历着前所未有的大变局。国际大学排行榜的眼球吸引力越来越大,不仅普通民众热搜,高教界自身也蹭热度。各类机构或个人“品牌大战”的鉴定性评价,搅动着东奔西突的暗流。“五唯”和“反五唯”胶着,甚至合演猫和老鼠的游戏。关联资源配置的项目设定,强烈激发竞争者的想象力,各种解数尽相使出。评价因此也由边缘走向中心,成为利益相关的行业。实践中的种种“常规”和“变态”,向高等教育评价提出严峻挑战。评价关涉事实判断,但它的根本任务是价值判断。高等教育实践中的伦理问题自然是评估所要关注的内容,评估活动本身的伦理问题,当然也是必须要反思和检视的重要维度。更新和提高评价的技术水平是重要的,在数据收集过程中进行狐狸式的广泛性探索和刺猬式的深刻性挖掘,为准确把握事实所需。还有更重要的,就是不断回到评价的原点作价值追问:为什么评价?评价为了谁?这样的价值追问是嵌套性的,由作为对象的高等教育项目(包括机构)本身,到作为对象的项目评价,都要经受这样的追问。如此,评价就不仅仅涉及项目评价的价值问题,还涉及对项目本身的价值追问。大学教育评价要追问教育的价值,学科评估要追问学科的价值,世界一流大学建设要追问项目的价值,如此等等。以此为基础,进一步追问评价的价值。与大学教育和学科建设一体化的内部评价相比,外部评价具有一定的独立性。这种独立性不是为了评价而评价的独立性。尽管价值指涉不在一个层面,但评价自身  终究也有价值估计。朴素地说,对评价的价值判定有其专业性标准为参照,但长周期考察,最终还要看它对高等教育实践发展的价值。这就必然涉及评价的价值实现问题。 

  好的高等教育评价不是给高等教育机构鉴定身份,而是鼓舞其理想,激励其向往,帮助其发展。“一流”“卓越”“强基”“杰出”等等的名号在各类隐喻术语(如山岳江河)的修饰下作为工程项目实施。在零和博弈过程中已成为稀缺的“无形资产”。在资源有限的情况下如何配置资源是一回事,而通过给定身份来配置有形资源,其所起的作用已经超过有形资源本身。而政策的导向性对生态和文化而言,一定程度上发挥着“看不见的手”的影响。在高等教育机构分层的现实面前,特别要警惕如下的可能性:有的机构在“马太效应”的影响下,即使“养尊处优”,也可以过上衣食无忧的好日子。而有的机构却无论怎么努力拼搏,终究看不到“翻身的那一天”。从微观层面看,大学绩效表现是内外力量作用的结果。大学内部的个体、团队和组织构成大学的不同主体层级。各级主体在能力、行为和结果之间存在因果关联。在组织层面,绩效表现是个体和团队绩效的整合凸显,组织文化乃是影响大学层面的结果的决定性因素。忽视大学组织文化的评价是残缺的。当然,评价自身也有一个评价文化建设的问题。

  元评价的“元”是一个不断循环的过程。我国评价专业化发展需要拥专业精神,守评价伦理,增评价价值。在评价地位凸显,评价队伍扩大,评价为社会普遍关切的情势下,开发本土评价标准,促进评估机构的协作,加强各类评价队伍的互动交流,推动评价本身学科发展和评价技术手段的不断换代升级,营造追求卓越的评价文化,是一项长期的建设任务和历史使命。

 

作者简介:

周作宇,男,北京师范大学副校长、教授

注:文章来源于《大学与学科》2020年第1期,封面图片来源于网络










Produced By 大汉网络 大汉版通发布系统