核心摘要
2025 年 5 月 23 日,Anthropic 发布了 Claude 4 系列模型——Claude Opus 4 和 Claude Sonnet 4。Opus 4 以 SWE-bench 72.5% 的成绩登顶全球最强编码模型,能连续自主执行编程任务长达 7 小时;Sonnet 4 以 72.7% 的得分在同一基准上与旗舰并驾齐驱,但成本仅为 1/5。两款模型均采用"混合推理(Hybrid Reasoning)"架构,支持 Extended Thinking 深度思考与并行工具调用。同时,Anthropic 推出了 Claude Code(终端级 Agent 编程工具)、Agent SDK(自定义 Agent 开发框架)和 MCP Connector(一行代码接入 MCP 生态),构建了从模型到工具链的完整 AI 编程生态。
📋 目录
- Claude 4 系列模型概览
- 核心技术突破:混合推理与自主执行
- SWE-bench 横评:编码能力全面碾压
- 开发者工具链:从 Claude Code 到 Agent SDK
- 实战:API 调用与代码示例
- ASL-3 安全体系
- 常见问题 (FAQ)
- 总结
- 相关资源
✨ 核心要点
- SWE-bench 登顶:Opus 4 以 72.5% 刷新记录,碾压 GPT-4.1(54.6%)和 Gemini 2.5 Pro(63.2%);Sonnet 4 以 72.7% 的性价比之王姿态紧随其后。
- 7 小时自主执行:Claude 4 能在无人监督下持续编码、调试、测试数小时,开启了"设定目标 → AI 交付成果"的全新工作模式。
- 混合推理(Hybrid Reasoning):快速响应与深度思考无缝切换,Extended Thinking 模式可生成数万 Token 的内部推理链,并在推理过程中并行调用工具。
- 完整工具链:Claude Code(终端 Agent)+ Agent SDK(自定义 Agent 框架)+ MCP Connector(一行代码接入 MCP),构成了 AI 编程的完整生态。
- ASL-3 安全标准:Opus 4 是 Anthropic 首个部署在 ASL-3 安全级别下的模型,代表了业界最严格的 AI 安全实践。
💡 工具推荐:使用 JSON 格式化工具 快速解析 Claude API 返回的复杂嵌套 JSON 响应,或通过 MCP 工具目录 发现可接入 Claude 的 MCP 服务器。
Claude 4 系列模型概览
Claude 4 系列是 Anthropic 的第四代大语言模型(LLM),包含两个核心成员:
| 特性 | Claude Opus 4 | Claude Sonnet 4 |
|---|---|---|
| 定位 | 旗舰模型,复杂长时任务 | 高性价比,日常开发首选 |
| 发布日期 | 2025-05-23 | 2025-05-23 |
| 上下文窗口 | 200K Token | 200K Token |
| 最大输出 | 32K Token | 16K Token |
| API 定价(输入/输出) | $15 / $75 每 MTok | $3 / $15 每 MTok |
| SWE-bench | 72.5% | 72.7% |
| Terminal-bench | 43.2% | 35.6% |
| GPQA Diamond | 79.6% | 77.2% |
| 安全级别 | ASL-3 | ASL-2 |
| Extended Thinking | ✅ | ✅ |
| 并行工具调用 | ✅ | ✅ |
Sonnet 4 在 SWE-bench 上的得分(72.7%)甚至略高于 Opus 4(72.5%),堪称"小杯超大杯"。但 Opus 4 在需要长时间深度推理的复杂场景中(如 Terminal-bench 43.2% vs 35.6%),仍然有着明显优势。
📝 术语链接:Transformer — Claude 4 底层仍基于 Transformer 架构,但在注意力机制和推理策略上进行了革命性改进。
核心技术突破:混合推理与自主执行
Extended Thinking:思考的革命
Claude 4 最核心的技术突破是混合推理(Hybrid Reasoning)——模型能根据任务复杂度,在"快速响应"和"深度思考"两种模式间自动切换。
传统大语言模型的回答方式类似人类的"系统 1"——看到问题就立刻给出回答。而 Extended Thinking 模式激活了"系统 2"——先停下来想清楚,再动手。
Extended Thinking 的关键特性:
- 超长推理链:模型可以生成数万 Token 的内部思考过程,足以处理极其复杂的多步推理任务
- 推理中工具调用:在思考过程中可以并行调用多个工具(搜索、执行代码、读文件),不必等"想完"再"做"
- 自动摘要压缩:约 5% 的超长推理过程会触发一个较小模型对思维链进行逻辑摘要,避免上下文溢出
- 开发者模式:支持查看完整的未压缩推理链,便于调试和分析
7 小时自主执行:AI 程序员的到来
Opus 4 的另一个里程碑能力是持续数小时的自主任务执行。在 Anthropic 的内部测试中,Opus 4 曾连续自主编码长达 7 小时,期间完成了代码编写、单元测试、Bug 修复和 Git 提交的完整流程。
这并非简单的"循环调用 API"。Claude 4 通过以下机制实现了真正的长时自主执行:
- 持久化记忆文件:当获得文件系统访问权限时,Claude 4 会主动创建并更新"记忆文件",将关键上下文信息持久化存储
- 目标导向规划:模型会将复杂目标分解为子任务,逐步推进并持续追踪进度
- 自我纠错:遇到测试失败或编译错误时,能自主分析原因并修复,而非简单重试
- 65% 更少的投机取巧:相比 Claude 3.7,Claude 4 在解决问题时"偷懒走捷径"(如直接修改测试用例)的概率降低了 65%
在一个经典的演示中,Opus 4 被要求玩 Pokémon Red 游戏。它自主创建了一个"导航指南"文件来记忆地图布局和目标,连续运行超过 24 小时完成了游戏关卡。
这对开发者的意义深远——你的角色正从"逐行写代码的工程师"转变为"设定目标和验收标准的项目经理"。
🔗 延伸阅读:想深入了解 AI Agent 的推理机制?参阅 推理模型 (Reasoning Model) 深度解析,了解 o1 和 DeepSeek R1 如何实现系统 2 思考。
SWE-bench 横评:编码能力全面碾压
SWE-bench Verified 是当前衡量 AI 编码能力最权威的基准测试之一——它要求模型解决真实 GitHub 仓库中的 Issue,涉及代码理解、定位 Bug、编写修复补丁和通过测试。
主流模型横向对比
| 模型 | SWE-bench | Terminal-bench | GPQA Diamond | MMLU | AIME 2024 | 定价(输入/输出 MTok) |
|---|---|---|---|---|---|---|
| Claude Opus 4 | 72.5% | 43.2% | 79.6% | 87.4% | 33.0%* | $15 / $75 |
| Claude Sonnet 4 | 72.7% | 35.6% | 77.2% | 85.6% | - | $3 / $15 |
| OpenAI o3 | 69.1% | - | 83.0% | - | 91.6% | $10 / $40 |
| OpenAI GPT-4.1 | 54.6% | 30.0% | 66.0% | 83.5% | - | $2 / $8 |
| Gemini 2.5 Pro | 63.2% | ~25% | ~83% | 85.8% | ~92% | $1.25 / $10 |
| DeepSeek R1 | 49.2% | - | 71.5% | 79.8% | 79.8% | $0.55 / $2.19 |
注:Opus 4 在开启 Extended Thinking 后 AIME 可提升至 75-90%。
几个关键观察:
编码领域一骑绝尘:Claude 4 系列在 SWE-bench 和 Terminal-bench 上遥遥领先。72.5% 意味着它能独立解决近四分之三的真实 GitHub Issue——这在一年前是难以想象的。
数学短板明显:在 AIME 2024 等数学竞赛基准上,Claude 4 的默认表现(33%)远不如 Gemini 2.5 Pro(~92%)和 o3(91.6%)。但开启 Extended Thinking 后差距大幅缩小。
性价比最强:Sonnet 4 以 $3/$15 的定价达到了与 Opus 4 几乎相同的编码能力,每解决一个 SWE-bench 问题的成本比 GPT-4.1 低了一个数量级。
开启 Extended Thinking 后的 Agentic Coding 成绩
当 Extended Thinking 与工具调用同时启用时,Claude 4 的编码能力进一步飙升:
| 模型 | SWE-bench (Agentic) |
|---|---|
| Claude Opus 4 + ET | 79.4% |
| Claude Sonnet 4 + ET | 80.2% |
| OpenAI Codex-1 | 72.1% |
| Gemini 2.5 Pro | 63.8% |
Sonnet 4 在 Agentic Coding 场景中甚至以 80.2% 反超了 Opus 4 的 79.4%——这可能是因为 Sonnet 4 的更快推理速度在多轮工具调用场景中累积了优势。
🔗 延伸阅读:想了解 MoE 架构如何实现"小杯超大杯"?参阅 混合专家模型 (MoE) 架构全面解析。
开发者工具链:从 Claude Code 到 Agent SDK
Claude 4 不仅是模型的升级,更标志着 Anthropic 从"模型供应商"向"AI 开发平台"的转型。围绕 Claude 4,Anthropic 发布了三大开发者工具:
Claude Code:终端级 Agent 编程工具
Claude Code 已正式 GA(General Availability),它是一个运行在终端中的 Agent 编程工具。与 GitHub Copilot 等 IDE 内的补全插件不同,Claude Code 拥有完整的终端访问权限:
# 安装 Claude Code
npm install -g @anthropic-ai/claude-code
# 在项目目录中启动
cd your-project
claude
# Claude Code 会自主完成以下操作:
# 1. 分析项目结构和代码库
# 2. 理解你的需求
# 3. 编写代码、运行测试
# 4. 修复 Bug、提交 Git
Claude Code 的核心能力:
- 项目理解:自动扫描代码库结构、依赖关系和编码规范
- 文件操作:读写任意文件,创建新模块
- Shell 执行:运行构建命令、测试脚本、lint 检查
- Git 集成:创建分支、提交代码、生成 PR 描述
- MCP 接入:通过 MCP 协议连接外部数据源和工具
Cursor 的团队对此评价:"Claude Opus 4 代表了编码领域的最新技术水平,在复杂代码库理解方面实现了飞跃。"
Agent SDK:构建自定义 AI Agent
Claude Agent SDK 是一个基于 Claude Code 构建的 Agent 开发框架,让开发者可以快速构建自定义的 AI Agent:
from anthropic import Anthropic
from anthropic.agent import AgentLoop
# 初始化 Agent
client = Anthropic()
agent = AgentLoop(
model="claude-opus-4-20250514",
tools=[
{"type": "computer_20250124", "display_width": 1024, "display_height": 768},
{"type": "text_editor_20250124"},
{"type": "bash_20250124"}
],
system="你是一个高级 Python 开发者,专注于代码质量和测试覆盖率。"
)
# 运行 Agent 任务
result = agent.run(
"分析当前项目的测试覆盖率,找出未覆盖的关键路径,并编写缺失的单元测试。"
)
print(result.output)
Agent SDK 的关键设计理念:
- 工具组合:内置文本编辑器、Bash 终端和计算机操作工具,也支持自定义 MCP 工具
- 权限控制:通过
allowedTools和disallowedTools精细控制 Agent 可访问的工具 - 可观测性:完整的执行日志和推理链,方便调试
- 人机协作:支持在关键步骤暂停并请求人类确认
MCP Connector:一行代码接入 MCP 生态
MCP(Model Context Protocol)是 Anthropic 提出的开放协议,用于连接 AI 模型与外部工具和数据源。Claude 4 推出的 MCP Connector 将这一集成简化到了极致:
import anthropic
client = anthropic.Anthropic()
# 一行配置即可接入远程 MCP 服务器
response = client.messages.create(
model="claude-opus-4-20250514",
max_tokens=1024,
messages=[{"role": "user", "content": "查询我的 GitHub 仓库最新 Issue"}],
# 直接在 API 请求中添加 MCP 服务器
mcp_servers=[
{
"type": "url",
"url": "https://mcp.github.com/sse",
"authorization_token": "github_pat_xxx"
}
]
)
此前,接入 MCP 服务器需要开发者自行构建 MCP 客户端、处理连接管理和工具发现。现在,Anthropic API 自动处理一切——只需在请求中添加一个 URL,就能立即访问 MCP 生态中的数千个工具和数据源。
💡 工具推荐:浏览 MCP 工具目录 发现可用的 MCP 服务器,或使用 AI Agent 目录 探索基于 Claude 构建的 Agent 应用。
🔗 延伸阅读:想深入了解 MCP 协议的技术架构?参阅 MCP 协议深度解析。
实战:API 调用与代码示例
Python:基础调用与 Extended Thinking
import anthropic
client = anthropic.Anthropic()
# 基础调用
response = client.messages.create(
model="claude-opus-4-20250514",
max_tokens=4096,
messages=[
{
"role": "user",
"content": "分析这段 Python 代码的性能瓶颈并优化:\n\ndef find_duplicates(lst):\n result = []\n for i in range(len(lst)):\n for j in range(i+1, len(lst)):\n if lst[i] == lst[j] and lst[i] not in result:\n result.append(lst[i])\n return result"
}
]
)
print(response.content[0].text)
# 开启 Extended Thinking 进行深度推理
response_et = client.messages.create(
model="claude-opus-4-20250514",
max_tokens=16000,
thinking={
"type": "enabled",
"budget_tokens": 10000 # 分配给思考过程的 Token 预算
},
messages=[
{
"role": "user",
"content": "设计一个高并发的分布式任务调度系统,要求支持优先级队列、任务重试、死信处理和水平扩展。给出完整的架构设计和核心代码。"
}
]
)
# 解析思考过程和最终答案
for block in response_et.content:
if block.type == "thinking":
print(f"思考过程:{block.thinking[:200]}...")
elif block.type == "text":
print(f"最终答案:{block.text}")
JavaScript/TypeScript:流式响应与工具调用
import Anthropic from "@anthropic-ai/sdk";
const client = new Anthropic();
// 流式响应 —— 实时获取输出
async function streamResponse() {
const stream = client.messages.stream({
model: "claude-sonnet-4-20250514",
max_tokens: 4096,
messages: [
{
role: "user",
content: "用 TypeScript 实现一个类型安全的事件总线(EventBus),支持泛型事件类型和通配符监听。"
}
]
});
for await (const event of stream) {
if (event.type === "content_block_delta" && event.delta.type === "text_delta") {
process.stdout.write(event.delta.text);
}
}
}
// 工具调用 —— 让 Claude 执行函数
async function toolUseExample() {
const response = await client.messages.create({
model: "claude-opus-4-20250514",
max_tokens: 4096,
tools: [
{
name: "execute_code",
description: "在沙箱中执行 Python 代码并返回结果",
input_schema: {
type: "object",
properties: {
code: { type: "string", description: "要执行的 Python 代码" },
timeout: { type: "number", description: "超时时间(秒)" }
},
required: ["code"]
}
}
],
messages: [
{
role: "user",
content: "计算前 100 个斐波那契数的和,用代码验证结果。"
}
]
});
console.log(JSON.stringify(response.content, null, 2));
}
streamResponse();
cURL:MCP Connector 接入示例
curl https://api.anthropic.com/v1/messages \
-H "Content-Type: application/json" \
-H "x-api-key: $ANTHROPIC_API_KEY" \
-H "anthropic-version: 2023-06-01" \
-H "anthropic-beta: mcp-client-2025-11-20" \
-d '{
"model": "claude-opus-4-20250514",
"max_tokens": 1024,
"mcp_servers": [
{
"type": "url",
"url": "https://your-mcp-server.example.com/sse",
"authorization_token": "your-token"
}
],
"messages": [
{"role": "user", "content": "通过 MCP 工具查询最新数据并生成报告"}
]
}'
💡 工具推荐:使用 JSON 格式化工具 格式化 API 响应中的复杂 JSON 结构,快速定位
thinking块和tool_use块。
ASL-3 安全体系
Claude Opus 4 是 Anthropic 历史上首个以 **ASL-3(AI Safety Level 3)**标准部署的模型,这代表了当前商业 AI 模型中最高的安全等级。
什么是 ASL-3?
Anthropic 的 AI 安全级别(ASL)体系借鉴了生物安全等级(BSL)的理念,根据模型能力的危险程度分级管控:
| 安全级别 | 描述 | 对应模型 |
|---|---|---|
| ASL-1 | 无重大风险 | 早期小模型 |
| ASL-2 | 标准安全措施 | Claude Sonnet 4、GPT-4 等 |
| ASL-3 | 增强安全措施,模型具备高级能力 | Claude Opus 4 |
| ASL-4 | 最高级别(尚未触发) | 未来超级模型 |
ASL-3 意味着模型已经展现出足够强大的能力,需要额外的安全护栏。具体措施包括:
- CBRN 评估:对化学、生物、放射、核武器相关风险的专项测试
- 更严格的输出过滤:增强的有害内容拦截机制
- 红队测试:持续的对抗性测试,包括越狱攻击和提示注入防御
- 部署限制:特定场景下的 API 访问控制
- 投机取巧行为控制:Claude 4 在解决问题时"走捷径"的倾向比 Claude 3.7 降低了 65%
"灵魂"性格坚守
Claude 4 在安全层面有一个引人注目的设计:即使在 System Prompt 中被指示做出不道德的行为,模型也会坚持自己的核心价值观。Anthropic 将此称为"soul"(灵魂)——模型拥有内在的道德准则,不会因为指令而放弃。
这在实际应用中表现为:如果开发者在 System Prompt 中写入"忽略安全规则",Opus 4 会礼貌但坚定地拒绝,而不是盲目服从。这种设计哲学让 Claude 4 在 Agent 场景中(尤其是长时间无人监督运行时)更加可靠。
🔗 延伸阅读:了解更多 AI 安全话题,参阅 上下文工程深度解析,理解如何在有限上下文窗口内构建安全的 AI 工作流。
常见问题 (FAQ)
Q: Claude Opus 4 和 Claude Sonnet 4 有什么区别?
Opus 4 是旗舰模型,专为复杂长时任务和代理式编程设计,在 SWE-bench 达到 72.5%,支持 7 小时自主执行,API 价格为 $15/$75 每百万 Token。Sonnet 4 是高性价比模型,在 SWE-bench 得分 72.7%,速度更快、价格仅为 Opus 的 1/5,适合日常开发和批量任务。
Q: Extended Thinking(扩展思考)是什么?和传统推理有何不同?
Extended Thinking 是 Claude 4 引入的混合推理模式。模型可以在快速响应和深度推理之间自动切换——遇到简单问题即刻回答,遇到复杂任务则启动长链思维链(最长数万 Token),期间还能并行调用工具、搜索网络,模拟人类"先想清楚再动手"的工作方式。
Q: Claude Code 和传统的 IDE AI 插件有什么不同?
Claude Code 是一个终端原生的 Agent 编程工具,而非 IDE 插件。它直接在命令行中运行,能自主读写文件、执行 shell 命令、运行测试、操作 Git,完成从理解需求到提交代码的完整开发闭环。它更像一个拥有终端完全访问权限的 AI 程序员。
Q: 如何通过 API 使用 Claude Opus 4?
通过 Anthropic Messages API 调用,指定 model 为 claude-opus-4-20250514。支持 Python SDK(anthropic 库)和 REST API 两种方式。开启 Extended Thinking 需在请求中添加 thinking 参数并设定 budget_tokens。详见本文代码示例。
总结
Claude 4 的发布不仅仅是一次模型性能的提升——它标志着 AI 编程从"辅助补全"进入"自主交付"的新时代。Opus 4 以 SWE-bench 72.5% 的成绩和 7 小时自主执行能力重新定义了"AI 编程"的上限;Sonnet 4 以几乎相同的编码能力和 1/5 的价格让高质量 AI 编程变得人人可及。
与此同时,Claude Code + Agent SDK + MCP Connector 构成的工具链,让开发者能够快速构建从终端编程到自定义 Agent 再到外部工具集成的完整工作流。ASL-3 安全体系则确保了这些强大能力在可控范围内运行。
对于开发者来说,现在是重新审视自己工作流的最佳时机。Claude 4 不会取代程序员,但善用 Claude 4 的程序员将取代不善用 AI 的程序员。
相关资源
- JSON 格式化工具 — 解析 Claude API 的复杂 JSON 响应
- MCP 工具目录 — 发现可接入 Claude 的 MCP 服务器
- AI 工具目录 — 探索最新 AI 开发工具和模型
- Agent 目录 — 浏览基于 Claude 构建的 Agent 应用
- 推理模型深度解析 — 理解 o1 和 DeepSeek R1 的推理架构
- MoE 架构全面解析 — 了解"小杯超大杯"背后的混合专家架构
- MCP 协议深度解析 — 深入 MCP 协议的技术实现细节
- 上下文工程深度解析 — 掌握有限上下文窗口内的最佳实践