日 志
美国联邦科研机构的绩效评价实践
美国联邦科研机构的绩效评价实践
美国政府为了提高行政水平,对联邦机构采取的绩效管理和评价也应用到对科研管理机构和国立科研机构的管理和评价之中。由于科学研究特别是基础研究的特殊性,在实施绩效评价的实践中,这些机构进行了富有特色的绩效评价的探索。
1 政府绩效法的出台
为了改进政府公共行政的效率和服务水平,进入20世纪以来,美国联邦政府的总统们出台了相应的改革措施,例如,从20世纪60年代中期以来,有规划-计划-预算制、目标管理、零基预算和全面质量管理。1993年,克林顿政府出台了政府绩效与结果法(The Government Performance and Results Act ,GPRA),将绩效管理和绩效评估纳入到政府机构的运行与监督之中[1]。GPRA与以前的改革措施不同的是,其权威性、持续性和强制力,因为评价结果与国家财政预算紧密相连。GPRA的目标是通过系统地说明联邦机构的工作业绩,提高美国公众对政府的信任度;把评价结果与预设目标对比检查,实行过程控制和评价,以改善联邦政府的内部管理;通过联邦机构向国会提供有关政府工作情况,为国会的决策奠定基础。根据这项法律的要求,美国所有的联邦机构部都要制订一个至少包括未来5年工作目标的战略规划(且每3年修订一次)、将战略目标分解成年度目标的年度执行计划以及对年度计划执行结果进行评价的年度计划执行情况报告。这三份报告将提交给国会中相应的专门委员会、美国审计总局以及管理和预算局。行政管理和预算局则根据各机构的规划制订情况以及工作绩效的评估情况分配财政预算。根据GPRA的要求,所有联邦机构的首份战略规划需要在1997年9月之前提交,首份年度绩效计划需要在1998年春天提交,而首份年度绩效情况报告则是在2000年3月提交。
2 美国科研部门对绩效评价的回应
GPRA覆盖了联邦预算范围内的所有机构,由联邦经费支持的各种研究机构和计划也不例外。研究机构尤其是从事基础研究的研究机构该不该或者说能否实施GPRA,引起了很大争议,原因在于科学研究成果的不确定性、长期性、资助的多渠道和难以定量。首先,想准确预言在什么时间产生重大科学成就是无法预测的,更无法在实施过程中细化为逐段的、明确的目标,设置“年度进展的里程碑”之类的指标。第二,科研成果的取得需要花费较长的时间,成果的效用也需要数年甚至数十年才能体现出来,这也使得每年对绩效进行即使是定性的评估也是困难的;如果要进行年度评价,必然会导致科学家因更多地关注短期结果而趋于保守,无法进行创新;第三,一个计划的研究成果并非某个单独资助完成的结果,而是多渠道资助的共同成果,要把这些成果进行分解是十分困难的也是不科学的;第四,对于具有明确目标和任务的应用性研究有一些指标是可以量化的,但对于大多数基础研究的质量也就是最重要的部分是无法量化的。因此,实施GPRA就可能对科研活动造成很大损害。
即使有争议,作为联邦资助的科研机构也不可能立于法律的制约之外。鉴于此,科研机构都对实施绩效评价进行了研究和尝试。白宫和国会管理部门也表示,科学界可能对GPRA产生了严重的误解,即使再困难,评价是必须完成的。对于进行研究机构完成“难测量” 的绩效测量,允许寻找到一些灵活的替代性方法,评价要因机构、计划的不同而变化,并允许有一些定性的说明。
1996年,白宫科技政策研究部门出台了具有指导性的报告《评价基础科学》。该报告指出,支持科研的联邦机构必须设计出适合于科学研究过程的特点和促进基础研究在实现国家总体发展目标发挥作用的评价策略。该报告给出了基础科学计划的九条基本原则:首先是对计划目标的清晰详细的说明;制定维持与促进研究系统的优秀和反应能力的标准;建立有利于管理并鼓励创新的绩效指标;避免进行任务繁重或者高成本或者导致副作用的评估;结合效益评价与同行评估规划绩效;使用多种渠道和类型的证据,如定量指标与定性陈述;先行试点一边发展出一套有效的评价工具;评估报告中将告知未来政策走向和对计划规划的后续改进;向公众和相关代表交流结果。
美国国家科学院所属的科学、工程与公共政策委员(COSEPUP)于1998年举办了系列研讨会,对科学研究领域中GPRA的执行情况进行了调研,形成了一份政策建议报告:《评估联邦的研究计划:研究和政府绩效与结果法案》。该报告代表了科研管理机构对GPRA的正式响应。
在评价了年度评价的完全可行与完全不行的极端观点后,该报告给出了关于绩效评价的6个结论:在某种程度上,联邦政府支持的基础研究和应用研究计划都是可以评价的;联邦机构必须是用于研究特征一致的评价方法来评估他们的研究计划;评价联邦资助计划最有效的方法是专家评议;没有持续提供受良好教育和良好训练的科学家和工程师,国家就不能从科技进步中受益;协调多个联邦机构的研究领域或者主题的交叉重合的机制还没有完善;评估和报告绩效的有效方法的发展需要科学和工程共同体的参与,其成员也包含在专家评议中。
在此基础上,该报告推荐了6条评价建议:在战略规划、绩效计划和绩效报告中,应描述研究计划;对应用研究,联邦机构应测量计划进展的实际产出;对基础研究,联邦机构应评价其质量、关联性和领先地位;联邦机构应采取专家评议来评价研究的质量、与机构任务的关联性和领先水平;在战略和绩效计划中,联邦机构应该描述把开发与维持合适的人力资源作为一计划标和任务的情况;尽管GPRA是基于单一联邦机构的,应建立正规的评价机制来确认和协调多部门支持的研究领域的绩效;科学和工程共同体能够也应该在GPRA实施中扮演重要的角色。
该报告在最后还分析了7种常用于研究绩效的评价方法的优缺点。例如,文献计量法是定量方法,适合某些计划和领域的总体评价,但也只是数量方法,不适合跨领域、跨国家的计划、领域;经济回报率只能定量评价经济效益,不能测定社会效益;同行评议比较成熟,主要用于研究质量的评价,但是机构之间差别、依赖于高素质的人员、“老人网络”等是它的不足;案例研究用于评价研究过程,不能用于计划之间的比较;回溯分析,用于确定联邦计划和创新之间的联系,不适合短期评价;标杆分析用于跨计划和国家的领域比较,不能评价计划本身。
至此,美国联邦科研机构不管是管理机构还是执行机构如国家实验室的绩效评价得到了确立。
3 NFS的绩效评价实践
NFS成立于1950年。依据当时的法案,NFS的任务是支持基础科学研究和工程技术的基础研究;提高未来科学与工程的潜力;开展科学与工程的不同领域、不同阶段的教育;为科学政策制定提供信息资源。虽然基础研究一直是NFS资助的主要对象,但也发生了一系列变化。1968年,增加了支持应用研究的任务;1980年,增加了在科学和工程中为妇女和非白人种提供同等机会的任务;1986年,工程基础研究的地位得到强化。
NFS采用的是定量与定性相结合的评价方法。定性评价来自于外部专家委员会(COV)和咨询委员会(AC)。NFS通过专家评议,每年评审约1/3的资助项目,三年一个评估周期。以专家评议报告为基础,综合NFS的内部管理报告和基于内部数据库的数据分析,NFS形成年度绩效报告、年度绩效规划和战略规划。报告经主任办公室和董事会—国家科学理事会审议批准后,最后提交至联邦政府相关部门。
NSF在2000年递交了第一份年度绩效报告《1999财政年度GPRA绩效报告》。报告中,NSF把自己的目标分为三类:成果、投资过程和管理。成果目标是指NSF资助科学与工程领域的研究与教育项目的长期目标,分解为5个具体目标,包括在科学与工程前沿的发现、这些发现与社会应用之间的关系、全球化和多样化的科学家与工程师的人力资源、每个公民需要的数学与科学技巧的提高、国家和国际科学与工程发展的及时和相关的信息;投资过程目标是指NFS资助过程中的战略和方法,分解为10个小目标,包括提供基金建议和资助过程的人力资源、电子信息系统、信用制度的建立、必要的监督程序、过程规章的行政控制、高质量的外部评价;管理目标是指完成NFS任务中行政管理的有效性和效率,分解为5个小目标,包括建立可行可信高效的价值评价体系、对新技术的模范应用和广泛介入、公正操作的有才有能和进取心的员工、与机构相适应的绩效评估和管理改革的执行。年度报告对这20个小目标的完成情况都进行了详细描述。报告显示,NFS成功地完成了78%的目标。由于频繁使用“成功地”一词,该报告对“成功地”作了专门的说明。
4 NIH的绩效评价实践
NIH成立于1887年,既是政府资助医学研究的管理部门,也有管辖20多个研究机构。NIH的目标是获得有助于预防、发现、诊断和医治疾病与残疾的新知识,其任务就是找到那些引导人们健康的新知识。通过指导下属的国立研究机构和赞助国内乃至国际上的非国立机构如大学、医学院、医院和研究机构的科学家;帮助训练研究调查人员;促进医药与健康科学信息的交流,NIH完成自己的任务。
2000年,NIH的第一份绩效报告也用定性和定量的方法对资助结果、领导与管理工作进行了评价。NIH而且还特别准备《NIH研究计划成果评估》报告,来定性描述研究项目的绩效。
NIH成立了专门的研究绩效评价工作组。研究绩效评价小组由原有的院长顾问委员会(ACD)牵头,由6名ACD成员、16名公共代表委员会成员和4名资深科学家组成。每个成员都有一份NIH绩效评价的手册和一份被评估资料。被评估材料由NIH下属研究机构提供,每份材料包括四个内容:10-20个科学前沿描述(涉及到特别的科学发现)、10-20个科学摘要(涉及到研究的广度和范围)、1-2个发现故事(涉及到某个发现的长时间的资助与研究过程)和所获得的荣誉与奖励。
评价小组依据评价手册和被评资料对NIH的研究绩效目标和实现程度进行对比评价,评价标准分为两个水平:“成功实现”和“实质超越”。NIH把自己的研究目标分解为A、B、C、D、E5个目标,目标A是增添关于正常与非正常的生物功能和行为的主要知识;目标B是开发与改进用于研究和治疗的新仪器和技术;目标C是开发与改进在疾病和残疾发作的预防与延缓方法;目标D开发与改进疾病和残疾的诊断方法;目标E是开发与改进疾病和残疾的治疗方法。
NIH对自己的研究计划目标的大多数评价是“成功实现”和“实质超越”。
美国能源部(DOE)拥有的政府研究经费居第四位,位于国防部、国家航空航天局和国家卫生研究院(NIH)之后。能源部下属20个国家实验室。
能源部把国家实验室的绩效分为技术绩效和行政绩效两部分。技术绩效的评价标准有4个:科学的质量(如创新性评价、领域进展与影响、同行认可)、与DOE任务和国家需求的相关性(如对美国保持科学领先水平的贡献、与DOE计划研究的协调)、研究项目管理的有效性和效率(如研究计划的开展、人力资源的最佳利用)、大型设备的有效运行与管理(如预算管理、设备可靠性)。行政绩效的评价有3个标准:运行有效性(如管理成本、运行与生产的经济性)、服务意识(如管理与合同、司法和规章制度的协调程度,特别强调工人与公众健康、环境恢复与保护)、顾客满意度(如根据顾客需求改进质量)。
能源部对实验室的评价主要采取的同行评议和自我评价两种方法。同行评议中,外部咨询委员会对研究方向、研究进展和设备运转进行评估,科学杂志上发表的学术论文也属于同行评议。研究项目不同,采取的评价方法也有差异,应用能源技术与开发研究项目就有来自企业的合作者提供的质量保证。自我评价在负责任的实验室线性管理指导下进行,包括对已有安排的改进行动的执行和消除改进障碍的情况的评估。由于能源部的实验室由大学代管,大学的科研主管副校长也会对实验室做出独立的评价。综合这些评价报告,能源部领域与项目管理办公室对实验室进行总的评价和打分。
三地亚国家实验室(Sandia National Laboratory )是能源部下属实验室之一,年预算经费约为13亿美元。它的任务是为满足国家需要的核武器与相关防卫系统、能源安全、国家面临紧急挑战时提供科学与工程解决方案,核心研究领域为计算机与信息科学、脉冲武器、微电子和光电子科学。
三地亚实验室从1996年开始使用企业平衡计分卡进行绩效管理和自我评价。记分卡包括财务、顾客、员工、运行、未来和任务成功6个方面,每个方面又有具体内容。对每个内容以红黄绿三种颜色表示“顺利”、“延误”和“危险”三种状态。对这些内容进行定量和定性分析就形成了常规报告和年度报告。通过绩效管理,1996年到1999年三个财政年度,三地亚节约经费6400万美元。
6 美国科研管理与执行机构绩效评价特点
1)强调绩效评价本身的合理性及评价的内容。
美国政府绩效评价的目的在于提高公共行政的能力和水平,绩效评价的直接对象是政府机构而不是科学界本身。绩效评价的合理性在于,科研管理机构是公正行政的一部分,不能因为它行政管理的对象—科学技术研究—具有特殊性,就能免除机构的绩效评价,只不过在评价的内容上要区别于其他公共行政部门。对于如何进行绩效评价,政府给予了科研管理机构较大的灵活性。
2)绩效评价的重点在资助和管理上。
科研管理机构主要对科研项目进行评价和投资,对科研经费的使用和项目进展进行监督,而不承担科研项目的具体实施,因此政府机构的绩效评价的重点就是完成项目资助的能力和水平,例如是否建立了完善的同行评议体系、高效廉洁的员工队伍等,而不仅仅是科研项目本身。
3)注重整体绩效而不是单个项目和单个人员的绩效。
为了避免绩效评价对科研带来负效应,如过重过多的评价负担、科研活动中的短期行为,政府机构的绩效评价注重研究项目资助的整体和长期的结果,而不是某个项目的逐年评价。针对基础研究,绩效评价也主要采用定性方法而不是定量指标,主要评价其整体水平是否处于领先地位、其研究范围是否位于前沿领域。针对应用研究的机构则使用平衡计分卡方法,更接近于国际著名企业普遍采用的方法。
4)绩效评价与战略规划和实施计划相结合。
美国政府不是为绩效评估而进行绩效评价,而是把长期战略规划、年度绩效实施计划和年度绩效评价工作结合起来,根据绩效规划设立的目标与实际完成情况开展比较评价,使得评价目标更加明确,评价工作具有可操作性,为持续的绩效评价打下了坚实的基础。这样的评价办法也为科研管理机构和执行机构自身的长远发展提供了良好的管理工具。
7对我国的借鉴作用
1)绩效评价的目标定位必须明确。
政府必须对自己的科学研究的总体目标有一个明确的定位,该定位也就决定了下属科研机构的目标定位。例如,在基础研究方面,美国的国家目标定位于处于世界科学的领先地位,因此所属联邦科研机构的基础研究的进展也就必须处于学科领域的最前沿,其水平必须是真正的国际一流。科研机构绩效评价的前提是科研机构的目标定位。
2)必须把绩效评价与发展战略结合起来。
绩效评价不能为了评价而评价,不能独立于发展战略之外。绩效评价的目的是考察在一个较长的发展时间里阶段成就与总体发展战略的实现程度。科研机构的发展战略是绩效评价的参照物,没有参照物的评价就会变得空洞无物,流于形式。
3)前期良好的信息收集和评价体系的沟通交流。
绩效评价的顺利实施必须有足够多的基本信息和基础数据。为了信息和数据收集的充分和完备,绩效评价从发布到实施应该有一个相当长的准备时间。同时,评价体系的建立也应当在征求多方意见下完成的,不但让被评价机构知其然,也让它们知其所以然。
[1] 关于政府绩效法案和下面提到的白宫科技政策研究部门的报告、国家科学院的评价建议报告、NFS年度绩效报告和NIH的年度绩效报告的具体内容都可以在相关网站找到。
[2] G.B.Jordan, Measuring the Performance of American science and technology laboratories 载于D.Cox et al.(eds.).Government laboratory.IOS Press,2001.
|