让第三方评估基层工作，靠谱吗？-夏日-观察者网

【文/观察者网专栏作者夏日】

近些年，“第三方评估”成为地方政府检查考核基层工作的重要方式之一。

理想来看，作为局外人的第三方可以站在相对客观的立场上，撰写的评价报告能相对真实地反映基层工作的实际情况，具有较高的科学性。然而，如果深入了解第三方的具体评价过程，就会发现所谓第三方评价的“科学性”可能是有待商榷的。

作为一名智库研究人员，笔者多次参与过政府的第三方评估项目，日常中也与其他评估人员讨论过相关问题，因此可以就此与读者分享一些自己的经历与思考。

评估过程

要想进行科学的评估，自然要先有一套科学的评估标准。据笔者了解，在政府项目评估过程中，评估标准主要来自于政府部门发布的评估体系操作手册，里面包含一套完整的评估体系，涉及评估项目、内容、标准、方法等大项。

评估体系一般采取百分制的计分方式，并根据评估对象的行政等级（市-镇-村）在具体指标内容和分值上设置一定的差异。

而评估项目一般分为三级或四级指标，同时，为保证主观评价与客观评价的结合，评估过程要求采用查阅资料、实地考察、访谈交流、查阅活动台账等综合方法。

参考案例

不管是评估指标体系的设计还是评估方法的设定，看上去都具有较高的科学性。但是，这不意味着评估对象、评估过程、评估结果与评估报告也同样具有科学性。

理论上，按照评估方法及评估要求，评估对象要有一定的代表性。实际操作上能达到吗？

当智库获得市级评估项目后，评估人员要根据镇街及村居数量选择对应的评估对象，而评估对象的选择会受到两方面因素的影响：政府相关部门的要求，以及智库的人力成本。

一方面，整体而言，评估对象更偏向于选择实践成效相对更好的试点，而不是按照差异化的科学分类原则相对均衡选择。这里最大的考量就是市政府有督导的需求。上级政府要到试点现场调研与检查，而市政府要提前进行督导，查漏补缺，避免在上级调研与检查时出纰漏。

另一方面，评估对象数量不多，一个镇街一般选择1—3个，且默认评估对象之间不能相隔太远。这里主要是为了政府相关人员和智库人员的评估方便。如果数量太多或分布过散，必然会增加人员和时间的投入。因此，双方就形成了一定的默契。

尽管评估对象不多，但工作不少。在政府经费有限的情况下，智库基于盈利的目标，会有很多变通的做法。也因此，“认真走过场”就成了自然而然的事，证明“第三方”来过就行。当然，为了让评估看上去更可信，评估人员会至少拍三张照片留存，以便进行留痕管理——比如到达现场一张、坐下问询过程一张、现场查看一张等。

为何说是“认真走过场”呢？

一是评估人员的数量和时间大幅度压缩。

时间和人力就是最大的成本，对于智库而言，投入过度的时间和人力是不划算的。一般情况下，以笔者了解的情况为例，智库采取的策略就是派遣1-2名评估人员，按照一天4—6个评估对象的量进行现场评估、查阅资料。

评估人员数量不多，如果有实习生，一般就是正式员工加实习生的搭配模式；但是评估对象又不少，因此除去路上通勤时间，每个评估对象的评估时间只有半小时多点。有的镇街路途较远，在固定的时间要完成规定的任务，评估人员只能走马观花，真就只是“走一走，看一看。”

二是问询评估内容相当粗糙。

评估指标（细则）是比较精细的，甚至具体到活动几次、开会几次、培训几次等。不过当地工作人员一般不知道评估体系，也不可能事先单独统计和准备好这些内容，因此问询的难度增加。而评估时间又匆忙，所以在问询具体评估内容时，评估人员多是只能找到熟悉情况的工作人员大体上问问，很难一个个数数，更不可能去确认。

也就说，整个过程中，面对几十个小项的评估内容，评估人员很难做到每一项都调研得特别细致，甚至有的根据工作人员口头上能回答或不能回答就直接评分。

三是评估方法形式化使用。

根据评估的内容，查阅资料部分大体占80%以上。实际上这么多的资料根本不可能在短期内查阅完。在评估过程中，评估对象通常会准备非常多的材料，有的放了好几个文件盒。根据项目的不同，一般3-8本，有的更多，加起来有几百、上千页。因此所谓查阅资料和活动台账，不少人操作时就是顺手翻翻，表示已查阅。

而所谓实地考察和访谈交流，就是查看一些阵地标识、管理制度、组织架构、活动计划公示等是否上墙，以及了解相关的一些情况。这个过程通常比较随意，就是相关负责人带着评估人员走一圈，大体看看、聊聊天，5-8分钟就结束了，甚至聊天的内容都可能与具体的评估项目不太相关。当然，评估人员如笔者不会也很难纠结具体内容，偶尔会指出一些鸡毛蒜皮的问题，表示细致、认真和敬业。

现场评估过后，评估人员就要计算评估分数与分析结果，撰写评估报告。而在这个过程中，评估的分值会存在三个方面的“偏差”。

其一，评分结果可能与评估对象的实际建设与工作存在较大偏差。

在十几分钟或半个小时内，评估人员很难得出深刻印象与详细情况。也许评估对象做了很多实际的工作，却没有在资料查阅或问询过程中展现出来。

其二，评分结果呈现出的分值排名可能与市政府相关工作人员的主观印象存在较大偏差。

市政府工作人员中长期从事这方面的行政工作，对评估对象一般有自己的主观判断。而外来的评估人员对当地村庄若不是特别熟悉与了解，就只能依靠现场的短期主观印象进行硬性打分，最终进行排名。

其三，评分结果由多个小组的评估人员确定，从而产生较大偏差。

根据评估对象的数量，评估人员分为不同小组，分多个批次进行现场评估。因此，每个小组的人员都会得出一部分评估对象的分值。尽管评估标准体系是一样的，然而不同小组人员评分差异最终在分值排名时会明显地体现出来。

面对这些偏差，评估人员及所在智库不可能“无动于衷”。为弥合这三种分值偏差，评估人员通常会将政府相关负责人的主观印象作为第一标准，适当地调整最终的分值，避免与其主观印象偏差过大。有的甚至会采取先确定一个大体上的评估对象排名，再来重新“赋分”的做法。

同时，评估人员会采取各种技术与数据处理手段，进行模糊化操作，尽量减少不同镇街的分值差异或分值段的差异，避免惹来不必要的麻烦。

结语

一份科学的评估报告是离不开科学的评估过程的。实际上，政府相关工作人员大体也都知道评估对象的建设情况，然而他们为什么仍要求评估？因为，他们聘请第三方的目的关键不在于评估本身，而在于行政上要呈交一份评估报告。

对于第三方而言，他们与政府打过不少交道，关系也比较熟。面对政府相关部门负责人提出的要求，他们大体上会满足。毕竟，他们希望能够长期获得政府的评估项目。

换言之，第三方只能是尽量迎合政府相关部门的要求及减少镇街质疑所带来的潜在风险，而评估对象是期盼不要出现排名上的问题而导致上级的通报批评，最终影响每年的考核。

从整个项目的评估过程来看，唯一具有相对科学性的，或许就是评估指标体系的设计。因此，对于聘请“第三方评估”检查考核基层工作一事，我们或许还需要重新思考其意义及操作手法。

本文系观察者网独家稿件，文章内容纯属作者个人观点，不代表平台观点，未经授权，不得转载，否则将追究法律责任。关注观察者网微信guanchacn，每日阅读趣味文章。