Pass^k:评估智能体可靠性的建议指标
Contents
Google DeepMind 的研究员 Philipp Schmid 指出,业界常用的评估指标 Pass@k 具有一定的迷惑性和误导性,建议使用Pass^k 来评估智能体的可靠性。

图来自Anthropic 的技术博客 Demystifying evals for AI agents
概念释义
$\text{pass@}k$:在 $k$ 次独立解题或者尝试中,至少有一次成功的概率。是代码生成等基准测试中的评估方法。来自OpenAI论文:Evaluating Large Language Models Trained on Code
公式为:
$$ \text{pass@}k = \mathop{\mathbb{E}}_{\text{Problems}} \left[ 1 - \frac{{\binom{n-c}{k}}} {\binom{n}{k}} \right] $$其中,$n$ 是总尝试次数、$c$ 是答对次数、组合数$\binom{n}{k}$ 表示从 $n$ 中采样 $k$ 个样本(无放回抽样)。
这个公式计算的是,从 $n$ 次尝试中随机抽取 $k$ 个解决方案时,至少抽中一个正确解的概率。
注意到 $n$ 越大,$\text{pass@}k$ 的分数就越高:因为“射门次数”多了,至少成功一次的机会自然更大!
$\text{pass\textasciicircum}k$:pass 的 k 次方,表示一个智能体在 $k$ 次独立尝试中全部成功的概率。这对于评估智能体表现的一致性和可靠性很有用。来自τ-bench (Shunyu Yao一作)论文:τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains
公式为:
$$ \text{pass\textasciicircum}k = \mathbb{E}_{\text{task}}\left[ \binom{c}{k} \middle/ \binom{n}{k} \right] \approx \left(\frac{c}{n}\right)^k $$随着 $k$ 增大,$\text{pass\textasciicircum}k$ 数值会下降,因为要求更多次试验都保持一致,这个门槛显然更高!
案例分析
假设 Claude Code 帮你改一段代码bug的成功率是 75%,尝试 3 次,那么全部通过的概率就是,pass^3:
而pass@3
$$ \text{pass@3} = 1 - \frac{\binom{25}{3}}{\binom{100}{3}}\approx98.58\% $$作为Claude Code 的用户来说,你肯定希望每次让它改bug都能成功~ (即便它实际概率只有75%!
对比可知Pass^k 这个指标更严格,这对于ToC的智能体尤其重要,因为用户期望每次交互都可靠。
如果你只关注了后面的pass@k的指标得分,多半会被误导!
因为它关注的是“可能成功”的概率,而不是“持续成功”的概率,夸大了对其性能的感知。
为什么要评估AI智能体?
我们的评估目标应该是衡量其稳定性、可靠性,而不是最佳情况下的表现。

图来自τ-bench 排行榜 2026年3月3日,展示了不同模型在不同任务上的 Pass^2 分数排序。
Pass@k除了拿来吹,对于要完成某个实际任务的智能体来说没有实际意义~
你觉得呢?
References:
- HumanEval: https://arxiv.org/abs/2107.03374
- τ-bench: https://arxiv.org/abs/2406.12045
- Pass@k vs Pass^k: Understanding Agent Reliability: https://www.philschmid.de/agents-pass-at-k-pass-power-k
- 代码生成模型评价指标 pass@k 的计算:https://zhuanlan.zhihu.com/p/653063532
- Demystifying evals for AI agents: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents#:~:text=How%20to%20think%20about%20non%2Ddeterminism%20in%20evaluations%20for%20agents
Author: Yrom
Link: https://yrom.net/blog/2026/03/03/pass^k-for-eval-agents/
License: 知识共享署名-非商业性使用 4.0 国际许可协议