Pass^k：评估智能体可靠性的建议指标

Google DeepMind 的研究员 Philipp Schmid 指出，业界常用的评估指标 Pass@k 具有一定的迷惑性和误导性，建议使用Pass^k 来评估智能体的可靠性。

the-difference-bettween-pass@k-and-pass^k
图来自Anthropic 的技术博客 Demystifying evals for AI agents

概念释义

$\text{pass@}k$：在 $k$ 次独立解题或者尝试中，至少有一次成功的概率。是代码生成等基准测试中的评估方法。来自OpenAI论文：Evaluating Large Language Models Trained on Code

公式为：

$$ \text{pass@}k = \mathop{\mathbb{E}}_{\text{Problems}} \left[ 1 - \frac{{\binom{n-c}{k}}} {\binom{n}{k}} \right] $$

其中，$n$ 是总尝试次数、$c$ 是答对次数、组合数$\binom{n}{k}$ 表示从 $n$ 中采样 $k$ 个样本（无放回抽样）。

这个公式计算的是，从 $n$ 次尝试中随机抽取 $k$ 个解决方案时，至少抽中一个正确解的概率。

注意到 $n$ 越大，$\text{pass@}k$ 的分数就越高：因为“射门次数”多了，至少成功一次的机会自然更大！

$\text{pass\textasciicircum}k$：pass 的 k 次方，表示一个智能体在 $k$ 次独立尝试中全部成功的概率。这对于评估智能体表现的一致性和可靠性很有用。来自τ-bench （Shunyu Yao一作）论文：τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

公式为：

$$ \text{pass\textasciicircum}k = \mathbb{E}_{\text{task}}\left[ \binom{c}{k} \middle/ \binom{n}{k} \right] \approx \left(\frac{c}{n}\right)^k $$

随着 $k$ 增大，$\text{pass\textasciicircum}k$ 数值会下降，因为要求更多次试验都保持一致，这个门槛显然更高！

案例分析

假设 Claude Code 帮你改一段代码bug的成功率是 75%，尝试 3 次，那么全部通过的概率就是，pass^3：

$$ \text{pass\textasciicircum}3 = \frac{\binom{75}{3}}{\binom{100}{3}}\approx 41.76\% $$

而pass@3

$$ \text{pass@3} = 1 - \frac{\binom{25}{3}}{\binom{100}{3}}\approx98.58\% $$

作为Claude Code 的用户来说，你肯定希望每次让它改bug都能成功~ （即便它实际概率只有75%！

对比可知Pass^k 这个指标更严格，这对于ToC的智能体尤其重要，因为用户期望每次交互都可靠。

如果你只关注了后面的pass@k的指标得分，多半会被误导！

因为它关注的是“可能成功”的概率，而不是“持续成功”的概率，夸大了对其性能的感知。

为什么要评估AI智能体？

我们的评估目标应该是衡量其稳定性、可靠性，而不是最佳情况下的表现。

图来自τ-bench 排行榜 2026年3月3日，展示了不同模型在不同任务上的 Pass^2 分数排序。

Pass@k除了拿来吹，对于要完成某个实际任务的智能体来说没有实际意义~

你觉得呢？

References:

HumanEval: https://arxiv.org/abs/2107.03374
τ-bench: https://arxiv.org/abs/2406.12045
Pass@k vs Pass^k: Understanding Agent Reliability: https://www.philschmid.de/agents-pass-at-k-pass-power-k
代码生成模型评价指标 pass@k 的计算:https://zhuanlan.zhihu.com/p/653063532
Demystifying evals for AI agents: https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents#:~:text=How%20to%20think%20about%20non%2Ddeterminism%20in%20evaluations%20for%20agents

Author: Yrom

Link: https://yrom.net/blog/2026/03/03/pass^k-for-eval-agents/

License: 知识共享署名-非商业性使用 4.0 国际许可协议

Contents

概念释义

案例分析

References: