核心摘要

2025 年 5 月 23 日,Anthropic 发布了 Claude 4 系列模型——Claude Opus 4Claude Sonnet 4。Opus 4 以 SWE-bench 72.5% 的成绩登顶全球最强编码模型,能连续自主执行编程任务长达 7 小时;Sonnet 4 以 72.7% 的得分在同一基准上与旗舰并驾齐驱,但成本仅为 1/5。两款模型均采用"混合推理(Hybrid Reasoning)"架构,支持 Extended Thinking 深度思考与并行工具调用。同时,Anthropic 推出了 Claude Code(终端级 Agent 编程工具)、Agent SDK(自定义 Agent 开发框架)和 MCP Connector(一行代码接入 MCP 生态),构建了从模型到工具链的完整 AI 编程生态。

📋 目录

✨ 核心要点

  • SWE-bench 登顶:Opus 4 以 72.5% 刷新记录,碾压 GPT-4.1(54.6%)和 Gemini 2.5 Pro(63.2%);Sonnet 4 以 72.7% 的性价比之王姿态紧随其后。
  • 7 小时自主执行:Claude 4 能在无人监督下持续编码、调试、测试数小时,开启了"设定目标 → AI 交付成果"的全新工作模式。
  • 混合推理(Hybrid Reasoning):快速响应与深度思考无缝切换,Extended Thinking 模式可生成数万 Token 的内部推理链,并在推理过程中并行调用工具。
  • 完整工具链:Claude Code(终端 Agent)+ Agent SDK(自定义 Agent 框架)+ MCP Connector(一行代码接入 MCP),构成了 AI 编程的完整生态。
  • ASL-3 安全标准:Opus 4 是 Anthropic 首个部署在 ASL-3 安全级别下的模型,代表了业界最严格的 AI 安全实践。

💡 工具推荐:使用 JSON 格式化工具 快速解析 Claude API 返回的复杂嵌套 JSON 响应,或通过 MCP 工具目录 发现可接入 Claude 的 MCP 服务器。

Claude 4 系列模型概览

Claude 4 系列是 Anthropic 的第四代大语言模型(LLM),包含两个核心成员:

特性 Claude Opus 4 Claude Sonnet 4
定位 旗舰模型,复杂长时任务 高性价比,日常开发首选
发布日期 2025-05-23 2025-05-23
上下文窗口 200K Token 200K Token
最大输出 32K Token 16K Token
API 定价(输入/输出) $15 / $75 每 MTok $3 / $15 每 MTok
SWE-bench 72.5% 72.7%
Terminal-bench 43.2% 35.6%
GPQA Diamond 79.6% 77.2%
安全级别 ASL-3 ASL-2
Extended Thinking
并行工具调用

Sonnet 4 在 SWE-bench 上的得分(72.7%)甚至略高于 Opus 4(72.5%),堪称"小杯超大杯"。但 Opus 4 在需要长时间深度推理的复杂场景中(如 Terminal-bench 43.2% vs 35.6%),仍然有着明显优势。

📝 术语链接Transformer — Claude 4 底层仍基于 Transformer 架构,但在注意力机制和推理策略上进行了革命性改进。

核心技术突破:混合推理与自主执行

Extended Thinking:思考的革命

Claude 4 最核心的技术突破是混合推理(Hybrid Reasoning)——模型能根据任务复杂度,在"快速响应"和"深度思考"两种模式间自动切换。

传统大语言模型的回答方式类似人类的"系统 1"——看到问题就立刻给出回答。而 Extended Thinking 模式激活了"系统 2"——先停下来想清楚,再动手。

graph TD A["用户输入问题"] --> B{"判断复杂度"} B -->|"简单问题"| C["快速响应模式"] B -->|"复杂任务"| D["Extended Thinking 模式"] D --> E["生成内部推理链(数万 Token)"] E --> F{"需要外部信息?"} F -->|"是"| G["并行调用工具/搜索"] G --> E F -->|"否"| H["逻辑摘要压缩"] H --> I["输出最终答案"] C --> I

Extended Thinking 的关键特性:

  • 超长推理链:模型可以生成数万 Token 的内部思考过程,足以处理极其复杂的多步推理任务
  • 推理中工具调用:在思考过程中可以并行调用多个工具(搜索、执行代码、读文件),不必等"想完"再"做"
  • 自动摘要压缩:约 5% 的超长推理过程会触发一个较小模型对思维链进行逻辑摘要,避免上下文溢出
  • 开发者模式:支持查看完整的未压缩推理链,便于调试和分析

7 小时自主执行:AI 程序员的到来

Opus 4 的另一个里程碑能力是持续数小时的自主任务执行。在 Anthropic 的内部测试中,Opus 4 曾连续自主编码长达 7 小时,期间完成了代码编写、单元测试、Bug 修复和 Git 提交的完整流程。

这并非简单的"循环调用 API"。Claude 4 通过以下机制实现了真正的长时自主执行:

  1. 持久化记忆文件:当获得文件系统访问权限时,Claude 4 会主动创建并更新"记忆文件",将关键上下文信息持久化存储
  2. 目标导向规划:模型会将复杂目标分解为子任务,逐步推进并持续追踪进度
  3. 自我纠错:遇到测试失败或编译错误时,能自主分析原因并修复,而非简单重试
  4. 65% 更少的投机取巧:相比 Claude 3.7,Claude 4 在解决问题时"偷懒走捷径"(如直接修改测试用例)的概率降低了 65%

在一个经典的演示中,Opus 4 被要求玩 Pokémon Red 游戏。它自主创建了一个"导航指南"文件来记忆地图布局和目标,连续运行超过 24 小时完成了游戏关卡。

这对开发者的意义深远——你的角色正从"逐行写代码的工程师"转变为"设定目标和验收标准的项目经理"。

🔗 延伸阅读:想深入了解 AI Agent 的推理机制?参阅 推理模型 (Reasoning Model) 深度解析,了解 o1 和 DeepSeek R1 如何实现系统 2 思考。

SWE-bench 横评:编码能力全面碾压

SWE-bench Verified 是当前衡量 AI 编码能力最权威的基准测试之一——它要求模型解决真实 GitHub 仓库中的 Issue,涉及代码理解、定位 Bug、编写修复补丁和通过测试。

主流模型横向对比

模型 SWE-bench Terminal-bench GPQA Diamond MMLU AIME 2024 定价(输入/输出 MTok)
Claude Opus 4 72.5% 43.2% 79.6% 87.4% 33.0%* $15 / $75
Claude Sonnet 4 72.7% 35.6% 77.2% 85.6% - $3 / $15
OpenAI o3 69.1% - 83.0% - 91.6% $10 / $40
OpenAI GPT-4.1 54.6% 30.0% 66.0% 83.5% - $2 / $8
Gemini 2.5 Pro 63.2% ~25% ~83% 85.8% ~92% $1.25 / $10
DeepSeek R1 49.2% - 71.5% 79.8% 79.8% $0.55 / $2.19

注:Opus 4 在开启 Extended Thinking 后 AIME 可提升至 75-90%。

几个关键观察:

编码领域一骑绝尘:Claude 4 系列在 SWE-bench 和 Terminal-bench 上遥遥领先。72.5% 意味着它能独立解决近四分之三的真实 GitHub Issue——这在一年前是难以想象的。

数学短板明显:在 AIME 2024 等数学竞赛基准上,Claude 4 的默认表现(33%)远不如 Gemini 2.5 Pro(~92%)和 o3(91.6%)。但开启 Extended Thinking 后差距大幅缩小。

性价比最强:Sonnet 4 以 $3/$15 的定价达到了与 Opus 4 几乎相同的编码能力,每解决一个 SWE-bench 问题的成本比 GPT-4.1 低了一个数量级。

开启 Extended Thinking 后的 Agentic Coding 成绩

当 Extended Thinking 与工具调用同时启用时,Claude 4 的编码能力进一步飙升:

模型 SWE-bench (Agentic)
Claude Opus 4 + ET 79.4%
Claude Sonnet 4 + ET 80.2%
OpenAI Codex-1 72.1%
Gemini 2.5 Pro 63.8%

Sonnet 4 在 Agentic Coding 场景中甚至以 80.2% 反超了 Opus 4 的 79.4%——这可能是因为 Sonnet 4 的更快推理速度在多轮工具调用场景中累积了优势。

🔗 延伸阅读:想了解 MoE 架构如何实现"小杯超大杯"?参阅 混合专家模型 (MoE) 架构全面解析

开发者工具链:从 Claude Code 到 Agent SDK

Claude 4 不仅是模型的升级,更标志着 Anthropic 从"模型供应商"向"AI 开发平台"的转型。围绕 Claude 4,Anthropic 发布了三大开发者工具:

Claude Code:终端级 Agent 编程工具

Claude Code 已正式 GA(General Availability),它是一个运行在终端中的 Agent 编程工具。与 GitHub Copilot 等 IDE 内的补全插件不同,Claude Code 拥有完整的终端访问权限:

bash
# 安装 Claude Code
npm install -g @anthropic-ai/claude-code

# 在项目目录中启动
cd your-project
claude

# Claude Code 会自主完成以下操作:
# 1. 分析项目结构和代码库
# 2. 理解你的需求
# 3. 编写代码、运行测试
# 4. 修复 Bug、提交 Git

Claude Code 的核心能力:

  • 项目理解:自动扫描代码库结构、依赖关系和编码规范
  • 文件操作:读写任意文件,创建新模块
  • Shell 执行:运行构建命令、测试脚本、lint 检查
  • Git 集成:创建分支、提交代码、生成 PR 描述
  • MCP 接入:通过 MCP 协议连接外部数据源和工具

Cursor 的团队对此评价:"Claude Opus 4 代表了编码领域的最新技术水平,在复杂代码库理解方面实现了飞跃。"

Agent SDK:构建自定义 AI Agent

Claude Agent SDK 是一个基于 Claude Code 构建的 Agent 开发框架,让开发者可以快速构建自定义的 AI Agent

python
from anthropic import Anthropic
from anthropic.agent import AgentLoop

# 初始化 Agent
client = Anthropic()
agent = AgentLoop(
    model="claude-opus-4-20250514",
    tools=[
        {"type": "computer_20250124", "display_width": 1024, "display_height": 768},
        {"type": "text_editor_20250124"},
        {"type": "bash_20250124"}
    ],
    system="你是一个高级 Python 开发者,专注于代码质量和测试覆盖率。"
)

# 运行 Agent 任务
result = agent.run(
    "分析当前项目的测试覆盖率,找出未覆盖的关键路径,并编写缺失的单元测试。"
)
print(result.output)

Agent SDK 的关键设计理念:

  1. 工具组合:内置文本编辑器、Bash 终端和计算机操作工具,也支持自定义 MCP 工具
  2. 权限控制:通过 allowedToolsdisallowedTools 精细控制 Agent 可访问的工具
  3. 可观测性:完整的执行日志和推理链,方便调试
  4. 人机协作:支持在关键步骤暂停并请求人类确认

MCP Connector:一行代码接入 MCP 生态

MCP(Model Context Protocol)是 Anthropic 提出的开放协议,用于连接 AI 模型与外部工具和数据源。Claude 4 推出的 MCP Connector 将这一集成简化到了极致:

python
import anthropic

client = anthropic.Anthropic()

# 一行配置即可接入远程 MCP 服务器
response = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=1024,
    messages=[{"role": "user", "content": "查询我的 GitHub 仓库最新 Issue"}],
    # 直接在 API 请求中添加 MCP 服务器
    mcp_servers=[
        {
            "type": "url",
            "url": "https://mcp.github.com/sse",
            "authorization_token": "github_pat_xxx"
        }
    ]
)

此前,接入 MCP 服务器需要开发者自行构建 MCP 客户端、处理连接管理和工具发现。现在,Anthropic API 自动处理一切——只需在请求中添加一个 URL,就能立即访问 MCP 生态中的数千个工具和数据源

💡 工具推荐:浏览 MCP 工具目录 发现可用的 MCP 服务器,或使用 AI Agent 目录 探索基于 Claude 构建的 Agent 应用。

🔗 延伸阅读:想深入了解 MCP 协议的技术架构?参阅 MCP 协议深度解析

实战:API 调用与代码示例

Python:基础调用与 Extended Thinking

python
import anthropic

client = anthropic.Anthropic()

# 基础调用
response = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=4096,
    messages=[
        {
            "role": "user",
            "content": "分析这段 Python 代码的性能瓶颈并优化:\n\ndef find_duplicates(lst):\n    result = []\n    for i in range(len(lst)):\n        for j in range(i+1, len(lst)):\n            if lst[i] == lst[j] and lst[i] not in result:\n                result.append(lst[i])\n    return result"
        }
    ]
)
print(response.content[0].text)

# 开启 Extended Thinking 进行深度推理
response_et = client.messages.create(
    model="claude-opus-4-20250514",
    max_tokens=16000,
    thinking={
        "type": "enabled",
        "budget_tokens": 10000  # 分配给思考过程的 Token 预算
    },
    messages=[
        {
            "role": "user",
            "content": "设计一个高并发的分布式任务调度系统,要求支持优先级队列、任务重试、死信处理和水平扩展。给出完整的架构设计和核心代码。"
        }
    ]
)

# 解析思考过程和最终答案
for block in response_et.content:
    if block.type == "thinking":
        print(f"思考过程:{block.thinking[:200]}...")
    elif block.type == "text":
        print(f"最终答案:{block.text}")

JavaScript/TypeScript:流式响应与工具调用

javascript
import Anthropic from "@anthropic-ai/sdk";

const client = new Anthropic();

// 流式响应 —— 实时获取输出
async function streamResponse() {
  const stream = client.messages.stream({
    model: "claude-sonnet-4-20250514",
    max_tokens: 4096,
    messages: [
      {
        role: "user",
        content: "用 TypeScript 实现一个类型安全的事件总线(EventBus),支持泛型事件类型和通配符监听。"
      }
    ]
  });

  for await (const event of stream) {
    if (event.type === "content_block_delta" && event.delta.type === "text_delta") {
      process.stdout.write(event.delta.text);
    }
  }
}

// 工具调用 —— 让 Claude 执行函数
async function toolUseExample() {
  const response = await client.messages.create({
    model: "claude-opus-4-20250514",
    max_tokens: 4096,
    tools: [
      {
        name: "execute_code",
        description: "在沙箱中执行 Python 代码并返回结果",
        input_schema: {
          type: "object",
          properties: {
            code: { type: "string", description: "要执行的 Python 代码" },
            timeout: { type: "number", description: "超时时间(秒)" }
          },
          required: ["code"]
        }
      }
    ],
    messages: [
      {
        role: "user",
        content: "计算前 100 个斐波那契数的和,用代码验证结果。"
      }
    ]
  });

  console.log(JSON.stringify(response.content, null, 2));
}

streamResponse();

cURL:MCP Connector 接入示例

bash
curl https://api.anthropic.com/v1/messages \
  -H "Content-Type: application/json" \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "anthropic-beta: mcp-client-2025-11-20" \
  -d '{
    "model": "claude-opus-4-20250514",
    "max_tokens": 1024,
    "mcp_servers": [
      {
        "type": "url",
        "url": "https://your-mcp-server.example.com/sse",
        "authorization_token": "your-token"
      }
    ],
    "messages": [
      {"role": "user", "content": "通过 MCP 工具查询最新数据并生成报告"}
    ]
  }'

💡 工具推荐:使用 JSON 格式化工具 格式化 API 响应中的复杂 JSON 结构,快速定位 thinking 块和 tool_use 块。

ASL-3 安全体系

Claude Opus 4 是 Anthropic 历史上首个以 **ASL-3(AI Safety Level 3)**标准部署的模型,这代表了当前商业 AI 模型中最高的安全等级。

什么是 ASL-3?

Anthropic 的 AI 安全级别(ASL)体系借鉴了生物安全等级(BSL)的理念,根据模型能力的危险程度分级管控:

安全级别 描述 对应模型
ASL-1 无重大风险 早期小模型
ASL-2 标准安全措施 Claude Sonnet 4、GPT-4 等
ASL-3 增强安全措施,模型具备高级能力 Claude Opus 4
ASL-4 最高级别(尚未触发) 未来超级模型

ASL-3 意味着模型已经展现出足够强大的能力,需要额外的安全护栏。具体措施包括:

  • CBRN 评估:对化学、生物、放射、核武器相关风险的专项测试
  • 更严格的输出过滤:增强的有害内容拦截机制
  • 红队测试:持续的对抗性测试,包括越狱攻击和提示注入防御
  • 部署限制:特定场景下的 API 访问控制
  • 投机取巧行为控制:Claude 4 在解决问题时"走捷径"的倾向比 Claude 3.7 降低了 65%

"灵魂"性格坚守

Claude 4 在安全层面有一个引人注目的设计:即使在 System Prompt 中被指示做出不道德的行为,模型也会坚持自己的核心价值观。Anthropic 将此称为"soul"(灵魂)——模型拥有内在的道德准则,不会因为指令而放弃。

这在实际应用中表现为:如果开发者在 System Prompt 中写入"忽略安全规则",Opus 4 会礼貌但坚定地拒绝,而不是盲目服从。这种设计哲学让 Claude 4 在 Agent 场景中(尤其是长时间无人监督运行时)更加可靠。

🔗 延伸阅读:了解更多 AI 安全话题,参阅 上下文工程深度解析,理解如何在有限上下文窗口内构建安全的 AI 工作流。

常见问题 (FAQ)

Q: Claude Opus 4 和 Claude Sonnet 4 有什么区别?

Opus 4 是旗舰模型,专为复杂长时任务和代理式编程设计,在 SWE-bench 达到 72.5%,支持 7 小时自主执行,API 价格为 $15/$75 每百万 Token。Sonnet 4 是高性价比模型,在 SWE-bench 得分 72.7%,速度更快、价格仅为 Opus 的 1/5,适合日常开发和批量任务。

Q: Extended Thinking(扩展思考)是什么?和传统推理有何不同?

Extended Thinking 是 Claude 4 引入的混合推理模式。模型可以在快速响应和深度推理之间自动切换——遇到简单问题即刻回答,遇到复杂任务则启动长链思维链(最长数万 Token),期间还能并行调用工具、搜索网络,模拟人类"先想清楚再动手"的工作方式。

Q: Claude Code 和传统的 IDE AI 插件有什么不同?

Claude Code 是一个终端原生的 Agent 编程工具,而非 IDE 插件。它直接在命令行中运行,能自主读写文件、执行 shell 命令、运行测试、操作 Git,完成从理解需求到提交代码的完整开发闭环。它更像一个拥有终端完全访问权限的 AI 程序员。

Q: 如何通过 API 使用 Claude Opus 4?

通过 Anthropic Messages API 调用,指定 model 为 claude-opus-4-20250514。支持 Python SDK(anthropic 库)和 REST API 两种方式。开启 Extended Thinking 需在请求中添加 thinking 参数并设定 budget_tokens。详见本文代码示例。

总结

Claude 4 的发布不仅仅是一次模型性能的提升——它标志着 AI 编程从"辅助补全"进入"自主交付"的新时代。Opus 4 以 SWE-bench 72.5% 的成绩和 7 小时自主执行能力重新定义了"AI 编程"的上限;Sonnet 4 以几乎相同的编码能力和 1/5 的价格让高质量 AI 编程变得人人可及。

与此同时,Claude Code + Agent SDK + MCP Connector 构成的工具链,让开发者能够快速构建从终端编程到自定义 Agent 再到外部工具集成的完整工作流。ASL-3 安全体系则确保了这些强大能力在可控范围内运行。

对于开发者来说,现在是重新审视自己工作流的最佳时机。Claude 4 不会取代程序员,但善用 Claude 4 的程序员将取代不善用 AI 的程序员

相关资源