什么是测试时计算（Test-Time Compute）？

测试时计算（Test-Time Compute）是一种在 AI 模型推理阶段（而非训练阶段）分配额外计算资源以提升输出质量的技术，通常通过扩展思维链推理、自我验证或迭代优化来实现。

快速了解

创建时间	2024 年（OpenAI o1 系列）

工作原理

测试时计算代表了 AI 模型性能扩展的范式转变。传统扩展定律聚焦于增加训练计算量（更多参数、更多数据），而测试时计算扩展则在推理时投入更多计算——让模型在更难的问题上思考更长时间。这种方法由 OpenAI 的 o1 模型系列（2024 年）推广，并由 DeepSeek R1（2025 年）进一步验证。关键技术包括扩展思维链推理、思维树搜索、自我一致性验证和迭代自我修正。截至 2026 年，测试时计算已成为前沿模型的标准能力，使其能够以延迟换取复杂推理任务的准确性。

主要特点

自适应计算 — 更难的问题获得更多思考时间和 Token
思维链扩展 — 更长的推理链提升复杂任务的准确性
自我验证 — 模型在最终输出前检查并修正自身错误
延迟-准确性权衡 — 用户可选择快速近似或慢速精确的响应
与训练互补 — 与传统的参数/数据扩展协同工作
任务依赖性 — 对数学、编码、逻辑和多步推理最为有效

常见用途

复杂数学推理 — 通过逐步验证解决竞赛级数学题
代码生成 — 编写和调试复杂程序并进行自我测试
科学推理 — 研究场景中的多步逻辑演绎
战略规划 — 在确定方案前评估多种方法
安全关键应用 — 使用扩展推理避免有害或错误输出

示例

Loading code...

常见问题

测试时计算和普通推理有什么区别？

普通推理在单次前向传播中以固定计算量生成输出。测试时计算允许模型使用可变计算量——通过扩展推理链、回溯和自我验证在更难的问题上思考更久——类似于人类在困难问题上花费更多时间。

哪些模型使用测试时计算？

主要模型包括 OpenAI o1/o3 系列、DeepSeek R1、Google Gemini 2.0 Flash Thinking 和 Claude 3.5 扩展思考版。这些模型在产出最终答案前生成内部推理 Token，以速度换取准确性。

测试时计算总是能改善结果吗？

不一定。测试时计算对复杂推理任务（数学、编码、逻辑）最为有效。对于简单事实性问题或创意写作，额外思考时间可能无法提升质量，只会增加成本和延迟。模型通常会根据问题难度自动校准思考深度。

测试时计算贵多少？

测试时计算对同一提示可能使用比标准推理多 5-50 倍的 Token。推理 Token 通常按与输出 Token 相同的费率计费。但对于正确性比速度更重要的高风险任务，改善的准确性往往证明了成本的合理性。

测试时计算和推理模型是什么关系？

推理模型（如 o1）是专门训练来高效利用测试时计算的。它们学会了何时思考更久、如何验证工作成果、何时回溯。标准模型可以被提示逐步推理，但专门训练的推理模型能更高效地使用测试时计算。

什么是测试时计算（Test-Time Compute）？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

测试时计算和普通推理有什么区别？

哪些模型使用测试时计算？

测试时计算总是能改善结果吗？

测试时计算贵多少？

测试时计算和推理模型是什么关系？

相关工具

JSON 格式化

相关术语

思维链

模型推理

大语言模型

Token（令牌）

相关文章

Test-Time Compute 深度解析：让模型「思考更久」的工程实践

Reasoning Model 自纠错机制：从 o1 到 DeepSeek-R2 的技术演进

GPT-5.5架构解析：MoE与原生多模态