Mamba 和 Transformer 最核心的区别是什么？

最核心的区别在于计算复杂度。Transformer 的自注意力机制对序列长度是 O(n²) 的二次复杂度，而 Mamba 基于状态空间模型（SSM）实现了 O(n) 的线性复杂度。这意味着在处理长序列时，Mamba 的推理速度和内存占用远优于 Transformer。

什么是选择性状态空间 (Selective State Spaces)？

选择性状态空间是 Mamba 的核心创新。传统 SSM 使用固定不变的参数来处理所有输入，而 Mamba 让 SSM 的关键参数（B、C、Δ）随输入内容动态变化。这使模型能'选择性'地关注或忽略特定信息，类似于注意力机制对内容的选择能力，但保持了线性计算复杂度。

Mamba-2 相比 Mamba-1 有哪些改进？

Mamba-2 引入了结构化状态空间对偶性（SSD）框架，证明了 SSM 和注意力机制在数学上的等价关系。它将 A 矩阵约束为标量乘以单位矩阵的形式，使得核心计算可用矩阵乘法表达，从而利用 GPU 的 Tensor Core 实现了 2-8 倍的训练速度提升。

为什么 IBM Granite 4.0 要采用混合架构而不是纯 Mamba？

纯 Mamba 模型在上下文学习（in-context learning）和少样本提示（few-shot prompting）等需要精确回忆的任务上仍不如 Transformer。IBM Granite 4.0 以 9:1 的比例混合 Mamba-2 和 Transformer 层，让 Mamba 处理长距离上下文（线性复杂度），Transformer 负责局部精细解析，两者取长补短。

Mamba-3 又带来了什么新突破？

Mamba-3 提出了'推理优先（Inference-First）'设计范式，重点解决之前 SSM 在实际硬件上推理效率不如理论预期的问题。它引入指数梯形离散化方法和稀疏状态扩展技术，在保持与 Mamba-2 相当的语言建模能力的同时，将状态大小减半，显著降低了推理时的内存消耗。

Mamba 与状态空间模型 (SSM)：超越 Transformer 的下一代序列建模架构

2026-04-22 - QubitTool 技术团队

核心摘要

Transformer 架构统治了 AI 领域近八年，但其自注意力机制的 O(n²) 二次计算复杂度已成为处理超长序列的根本瓶颈。Mamba 和状态空间模型 (SSM) 正在改写这一局面——它们以 O(n) 的线性复杂度实现了与 Transformer 可比的语言建模性能，推理吞吐量提升 5 倍以上，内存占用降低数个数量级。从 IBM Granite 4.0 的 9:1 混合架构到 NVIDIA Nemotron 3 的百万 Token 上下文，Mamba 正从学术论文走向生产级部署。

✨ 核心要点

线性复杂度：Mamba 将序列建模的计算复杂度从 Transformer 的 O(n²) 降至 O(n)，使百万级 Token 上下文成为现实。
选择性机制：通过让 SSM 参数随输入动态变化，Mamba 获得了类似注意力的内容感知能力，同时保持线性效率。
硬件友好：Mamba 的核心运算基于扫描（scan）和矩阵乘法，完美匹配现代 GPU 的内存层次结构。
混合架构趋势：IBM Granite 4.0（9:1 Mamba-Transformer）和 NVIDIA Nemotron 3 等生产模型已验证混合架构的可行性。
持续演进：Mamba-2 的 SSD 框架统一了 SSM 与注意力的理论，Mamba-3 推动了推理效率的极限。

💡 工具推荐：使用 JSON 格式化工具解析 Mamba 模型 API 返回的复杂推理结果，或通过 AI 工具导航发现最新的 SSM 相关模型和工具。

为什么需要超越 Transformer

Transformer 架构自 2017 年的 "Attention is All You Need" 论文以来，彻底改变了自然语言处理和 AI 领域。然而，其核心的自注意力机制存在一个根本性的效率问题。

二次计算复杂度的代价

自注意力的本质是让序列中的每个 Token 与其他所有 Token 计算关联分数。对于长度为 n 的序列：

计算量：需要生成 n × n 的注意力矩阵，复杂度为 O(n²)
内存占用：注意力矩阵本身占用 O(n²) 的显存
KV Cache：推理时需要缓存所有历史 Token 的 Key 和 Value，内存随序列长度线性增长

这在实际中意味着什么？

code

序列长度     注意力计算量    相对代价
1K tokens    1M 次运算      1x（基准）
4K tokens    16M 次运算     16x
32K tokens   1,024M 次运算  1,024x
128K tokens  16,384M 次运算 16,384x
1M tokens    1,000,000M     1,000,000x

当序列长度从 1K 增加到 1M 时，计算代价膨胀了一百万倍。这就是为什么即使使用 FlashAttention 等优化技术，纯 Transformer 模型在处理超长文档、代码仓库或长时间对话时仍然面临巨大挑战。

理想的序列模型应该具备什么？

研究者们一直在寻找一种架构，它能够：

线性复杂度：计算量随序列长度线性增长 O(n)
内容感知：能根据输入内容动态调整行为（而非固定模式）
长距离依赖：能有效建模数万甚至数百万 Token 之间的依赖关系
硬件高效：充分利用 GPU 的并行计算和内存带宽

状态空间模型 (SSM) 恰好为这些需求提供了一个优雅的数学框架。

状态空间模型的数学基础

什么是状态空间模型？

状态空间模型 (State Space Model, SSM) 并非 AI 领域的新发明——它源自控制理论和信号处理，已有数十年的历史。SSM 的核心思想是用一个"隐藏状态 (hidden state)"来压缩序列的历史信息，然后基于这个状态产生输出。

SSM 的连续时间表达可以用两个核心方程描述：

code

状态更新方程：  h'(t) = A · h(t) + B · x(t)
输出方程：      y(t) = C · h(t) + D · x(t)

其中：
- x(t)：输入信号（当前时刻的输入）
- h(t)：隐藏状态（对历史信息的压缩表示）
- y(t)：输出信号
- A：状态转移矩阵（控制状态如何演化）
- B：输入矩阵（控制输入如何影响状态）
- C：输出矩阵（控制状态如何映射到输出）
- D：直通矩阵（输入到输出的直接连接，通常省略）

直觉理解

你可以把 SSM 想象成一个"有记忆的滤波器"：

A 矩阵是"遗忘门"：决定过去的信息以什么速率衰减
B 矩阵是"输入门"：决定当前输入中有多少信息被写入记忆
C 矩阵是"读取门"：决定从记忆中提取什么信息作为输出

与 RNN 类似，SSM 在每一步都维护一个固定大小的状态 h(t)，这天然保证了推理时的常数内存和线性计算。但与 RNN 不同，SSM 还有一个关键优势：它可以通过卷积形式进行并行训练。

离散化：从连续到离散

实际的数字序列（如文本 Token 序列）是离散的。SSM 通过一个"离散化步长 Δ"将连续方程转化为离散递推：

code

离散化后：
  h[k] = Ā · h[k-1] + B̄ · x[k]
  y[k] = C · h[k]

其中：
  Ā = exp(A · Δ)    （离散化后的状态矩阵）
  B̄ = (Ā - I) · A⁻¹ · B · Δ  （近似简化后的输入矩阵）

这个离散化步长 Δ 至关重要——它控制着模型"采样"连续信号的频率，也决定了模型关注短期细节还是长期模式。

SSM 的双重计算模式

SSM 最优雅的特性之一是它天然支持两种计算模式：

code

递推模式（推理时使用）：
  逐步计算 h[k] = Ā · h[k-1] + B̄ · x[k]
  复杂度：O(n)，每步只需常数时间
  ✅ 适合自回归生成

卷积模式（训练时使用）：
  将 SSM 展开为全局卷积核 K = (C·B̄, C·Ā·B̄, C·Ā²·B̄, ...)
  用 FFT 加速卷积计算
  ✅ 适合 GPU 并行训练

📝 术语链接：深度学习 — SSM 作为深度学习中序列建模的一个重要分支，正在与 Transformer 形成互补格局。

从 S4 到 Mamba：SSM 的演进历程

HiPPO：记忆的数学基础 (2020)

一切始于一个问题：如何让模型高效地记住很长的输入序列？

Albert Gu 等人提出的 HiPPO (High-order Polynomial Projection Operator) 框架给出了答案。HiPPO 发现，通过特殊的矩阵初始化方法，可以让状态空间模型在有限维度的状态中，最优地"压缩"输入序列的历史信息。

具体来说，HiPPO-LegS 矩阵使得 SSM 的隐藏状态可以用勒让德多项式的系数来近似表示整个输入历史，实现了对长程依赖的理论最优编码。

S4：结构化状态空间 (2021)

S4 (Structured State Space for Sequence Modeling) 是 SSM 的第一个重大突破。它的核心贡献是：

HiPPO 初始化：用 HiPPO-LegS 矩阵初始化 A 矩阵，解决了长程依赖的学习问题
结构化参数化：将 A 矩阵分解为特殊的结构化形式（DPLR——对角加低秩），使得核心计算可以高效执行
卷积-递推双模式：训练时用 FFT 卷积并行化，推理时用递推保持常数内存

S4 在 Long Range Arena 基准测试中取得了突破性成绩，首次证明了 SSM 在长序列任务上能与 Transformer 竞争。

S4D 与 S5：简化与统一 (2022)

后续工作进一步简化了 S4：

S4D 将 A 矩阵简化为对角矩阵，大幅降低了实现复杂度，同时性能几乎不降
S5 引入了 MIMO（多输入多输出）SSM 和并行扫描算法，消除了对 FFT 的依赖

演进脉络图

graph TD A["HiPPO 2020 - 长程记忆的数学基础"] --> B["S4 2021 - 结构化状态空间, DPLR + FFT 卷积"] B --> C["S4D 2022 - 对角化简化"] B --> D["S5 2022 - MIMO + 并行扫描"] C --> E["Mamba 2023 - 选择性 SSM, 硬件感知算法"] D --> E E --> F["Mamba-2 2024 - SSD 框架, SSM-Attention 对偶"] F --> G["Mamba-3 2025 - 推理优先设计, 指数梯形离散化"] E --> H["混合架构 - Granite 4.0 / Nemotron 3"]

Mamba 的核心创新：选择性状态空间

传统 SSM 的致命缺陷

S4 虽然在长序列任务上表现出色，但在语言建模这一核心任务上仍然落后于 Transformer。问题的根源在于：传统 SSM 的参数（A, B, C）是固定的，不随输入内容变化。

这意味着传统 SSM 对所有输入"一视同仁"——无论当前 Token 是关键信息还是无关噪声，它都用相同的方式更新状态。这就像一台录音机，无法区分重要对话和背景噪音，只能机械地录下一切。

而 Transformer 的自注意力之所以强大，恰恰因为它是**内容感知（content-aware）**的——它能根据输入内容动态决定关注哪些信息。

Mamba 的解决方案：让参数随输入变化

2023 年 12 月，Albert Gu 和 Tri Dao 发表了 Mamba 论文，提出了选择性状态空间模型 (Selective State Space Model)。核心思想极为简洁：

让 SSM 的关键参数 B、C 和 Δ 不再是固定的，而是由输入 x 通过线性投影动态生成。

python

# 传统 SSM（参数固定）
class TraditionalSSM:
    def __init__(self, d_model, d_state):
        self.A = nn.Parameter(...)  # 固定
        self.B = nn.Parameter(...)  # 固定
        self.C = nn.Parameter(...)  # 固定
        self.delta = nn.Parameter(...)  # 固定

    def forward(self, x):
        # 所有输入使用相同的 A, B, C, delta
        ...

# Mamba 的选择性 SSM（参数随输入变化）
class SelectiveSSM:
    def __init__(self, d_model, d_state):
        self.A = nn.Parameter(...)  # A 仍然固定（结构化）
        self.s_B = nn.Linear(d_model, d_state)   # B 由输入动态生成
        self.s_C = nn.Linear(d_model, d_state)   # C 由输入动态生成
        self.s_delta = nn.Linear(d_model, 1)     # Δ 由输入动态生成

    def forward(self, x):
        B = self.s_B(x)          # B(x)：输入决定如何写入状态
        C = self.s_C(x)          # C(x)：输入决定如何读取状态
        delta = softplus(self.s_delta(x))  # Δ(x)：输入决定时间步长
        # 每个位置的参数都不同！
        ...

选择性机制的直觉

Δ 参数的选择性尤为关键——它控制着"时间分辨率"：

Δ 较大时：模型将当前输入强力写入状态，同时"遗忘"更多历史 → 关注当前 Token
Δ 较小时：模型几乎忽略当前输入，保持状态不变 → 跳过当前 Token，保留历史

这使 Mamba 能够：

在遇到重要信息时"抓紧记住"
在遇到无关填充词时"直接跳过"
实现了类似注意力机制的内容选择能力，但复杂度始终为 O(n)

硬件感知算法

参数变为输入依赖后，SSM 就不能再用 FFT 卷积并行训练了（因为卷积核不再是固定的）。Mamba 为此设计了一套硬件感知的并行扫描算法：

避免具象化大状态：不将完整的 (batch, length, d_model, d_state) 张量存入 GPU HBM
核融合 (Kernel Fusion)：将离散化、扫描、输出投影融合为单个 CUDA Kernel
利用 SRAM：在 GPU 的快速片上存储（SRAM）中完成核心计算
重计算策略：反向传播时重新计算中间状态，以时间换空间

这套设计灵感来自 FlashAttention，使得 Mamba 在实际硬件上比理论预期更快。

Mamba 块的完整架构

python

class MambaBlock(nn.Module):
    """
    Mamba 的基本构建单元
    """
    def __init__(self, d_model, d_state=16, d_conv=4, expand=2):
        super().__init__()
        d_inner = d_model * expand

        # 输入投影：扩展维度
        self.in_proj = nn.Linear(d_model, d_inner * 2, bias=False)

        # 深度可分离卷积：局部上下文
        self.conv1d = nn.Conv1d(
            d_inner, d_inner,
            kernel_size=d_conv,
            padding=d_conv - 1,
            groups=d_inner
        )

        # SSM 参数投影
        self.x_proj = nn.Linear(d_inner, d_state * 2 + 1, bias=False)
        self.A_log = nn.Parameter(torch.log(
            torch.arange(1, d_state + 1).float()
        ))
        self.D = nn.Parameter(torch.ones(d_inner))

        # 输出投影
        self.out_proj = nn.Linear(d_inner, d_model, bias=False)

    def forward(self, x):
        # 1. 输入投影 + 分支
        xz = self.in_proj(x)
        x_branch, z = xz.chunk(2, dim=-1)

        # 2. 卷积（捕捉局部模式）
        x_branch = self.conv1d(x_branch.transpose(1, 2))
        x_branch = x_branch.transpose(1, 2)[:, :x.size(1), :]
        x_branch = F.silu(x_branch)

        # 3. 选择性 SSM
        y = self.selective_ssm(x_branch)

        # 4. 门控 + 输出
        y = y * F.silu(z)
        return self.out_proj(y)

Mamba-2 与 Mamba-3：持续演进

Mamba-2：结构化状态空间对偶性 (SSD)

2024 年，Gu 和 Dao 发表了 Mamba-2，其核心贡献是结构化状态空间对偶性 (Structured State Space Duality, SSD) 框架。

SSD 的核心发现：SSM 和注意力机制在数学上是同一事物的两种视角。

具体来说，当 A 矩阵被约束为标量乘以单位矩阵（即 A = a·I）时，选择性 SSM 的输出可以等价地表达为一种特殊的"掩码注意力"：

code

SSM 视角（递推）：
  h[k] = a · h[k-1] + B[k] · x[k]
  y[k] = C[k] · h[k]

等价的注意力视角：
  y = M ⊙ (Q · K^T) · V

其中 M 是由 a 的幂次构成的半可分矩阵（下三角掩码 + 指数衰减）
Q 和 K 分别对应 C 和 B 的投影

这个对偶性的实际意义在于：

训练加速：核心计算变成了矩阵乘法，可以直接利用 GPU 的 Tensor Core，速度提升 2-8 倍
架构统一：SSM 层和注意力层可以自由混合，共享同一理论框架
算法灵活：可以根据序列长度动态选择递推（短序列）或矩阵乘法（长序列）计算

Mamba-2 的架构改进

code

Mamba-1 架构：                    Mamba-2 架构：
┌─────────────┐                  ┌─────────────┐
│  Input Proj  │                  │  Input Proj  │
│ (expand x2)  │                  │ (expand x2)  │
├─────────────┤                  ├─────────────┤
│   Conv1D    │                  │   Conv1D    │
├─────────────┤                  ├─────────────┤
│ Selective SSM│                  │   SSD Layer  │  ← 标量 A + 多头
│ (对角 A)     │                  │ (标量 A·I)   │    矩阵乘法加速
├─────────────┤                  ├─────────────┤
│   Gate + Proj│                  │  Norm + Proj │  ← 组归一化
└─────────────┘                  └─────────────┘

训练速度：基准                    训练速度：2-8x 提升

Mamba-3：推理优先设计 (2025)

Mamba-3 由 CMU、Princeton 和 Together AI 联合研发，提出了一个深刻的洞察：线性复杂度的理论优势，在实际硬件上并不一定能转化为推理速度的优势。

原因在于 Mamba-1/2 的状态扩展过大（d_state=128 或更高），导致推理时的内存读写成为瓶颈。Mamba-3 通过三项关键创新解决了这个问题：

指数梯形离散化 (Exponential-Trapezoidal Discretization)：用二阶精度的离散化方法替代之前的一阶方法，使得在更小的状态维度下仍能保持建模能力
稀疏状态扩展 (Sparse State Expansion)：让不同的注意力头使用不同大小的状态，重要的头分配更大的状态维度
推理优先范式：以实际解码延迟（而非训练 FLOP）为首要优化目标

结果：Mamba-3 在语言建模困惑度与 Mamba-2 持平，但状态大小减半，推理时的内存消耗大幅降低。

实战：使用 Mamba 模型进行推理

安装与环境准备

bash

# 安装 Mamba 核心库
pip install mamba-ssm>=2.2.0

# 安装依赖（需要 CUDA 支持）
pip install causal-conv1d>=1.4.0
pip install torch>=2.1.0

# 或者通过 transformers 使用预训练 Mamba 模型
pip install transformers>=4.39.0

使用 Hugging Face Transformers 加载 Mamba

python

from transformers import MambaForCausalLM, AutoTokenizer
import torch

# 加载预训练 Mamba 模型
model_name = "state-spaces/mamba-2.8b-hf"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = MambaForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.float16,
    device_map="auto"
)

# 文本生成
prompt = "The key advantage of state space models over transformers is"
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=200,
        temperature=0.7,
        top_p=0.9,
        do_sample=True
    )

response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

使用原生 Mamba 库进行推理

python

from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
import torch

# 加载原生 Mamba 模型（推理更快）
model = MambaLMHeadModel.from_pretrained(
    "state-spaces/mamba-2.8b",
    dtype=torch.float16,
    device="cuda"
)

# 自回归生成（展示 SSM 的递推推理）
input_ids = tokenizer.encode("Explain state space models:", return_tensors="pt")
input_ids = input_ids.to("cuda")

output_ids = model.generate(
    input_ids=input_ids,
    max_length=300,
    temperature=0.7,
    top_k=50,
    cg=True  # 启用 CUDA Graph 优化
)

print(tokenizer.decode(output_ids[0]))

对比 Transformer 与 Mamba 的推理内存

python

import torch
import time

def benchmark_inference(model, tokenizer, seq_lengths, device="cuda"):
    """对比不同序列长度下的推理效率"""
    results = []

    for seq_len in seq_lengths:
        input_ids = torch.randint(0, 32000, (1, seq_len)).to(device)

        # 预热
        with torch.no_grad():
            _ = model(input_ids)

        torch.cuda.synchronize()
        torch.cuda.reset_peak_memory_stats()

        # 正式计时
        start = time.perf_counter()
        with torch.no_grad():
            for _ in range(10):
                _ = model(input_ids)
        torch.cuda.synchronize()
        elapsed = (time.perf_counter() - start) / 10

        peak_mem = torch.cuda.max_memory_allocated() / (1024 ** 3)

        results.append({
            "seq_len": seq_len,
            "latency_ms": elapsed * 1000,
            "peak_memory_gb": peak_mem
        })
        print(f"  长度 {seq_len:>6d}: {elapsed*1000:.1f}ms, {peak_mem:.2f}GB")

    return results

# 运行基准测试
seq_lengths = [512, 1024, 2048, 4096, 8192, 16384]
print("Mamba 推理基准:")
mamba_results = benchmark_inference(mamba_model, tokenizer, seq_lengths)

Transformer + Mamba 混合架构

为什么需要混合？

尽管 Mamba 在效率上大幅领先，但纯 SSM 架构在某些任务上仍然不如 Transformer：

能力维度	Transformer	Mamba	混合架构
长序列处理	❌ O(n²) 瓶颈	✅ O(n) 线性	✅
上下文学习 (ICL)	✅ 精确检索	⚠️ 近似压缩	✅
少样本提示	✅ 强	⚠️ 较弱	✅
推理内存	❌ KV Cache 大	✅ 常数状态	✅ 减少 ~80%
训练效率	✅ 成熟生态	⚠️ 生态较新	✅

核心原因在于：Transformer 的注意力机制可以精确回忆序列中任意位置的信息（通过 KV Cache），而 SSM 将历史压缩到固定大小的状态中，不可避免地存在信息损失。

IBM Granite 4.0：9:1 混合架构

IBM 于 2025 年发布的 Granite 4.0 系列是混合架构的标杆案例。其设计理念是：

用 90% 的 Mamba-2 层处理长距离上下文（线性复杂度），用 10% 的 Transformer 层进行精细的局部解析（注意力的精确回忆能力）。

code

Granite 4.0-H 架构（以 H-Small 为例）：

Layer 0:  [Mamba-2]  ─┐
Layer 1:  [Mamba-2]   │
Layer 2:  [Mamba-2]   │ 9 个 Mamba-2 层
Layer 3:  [Mamba-2]   │ 高效处理全局上下文
...                    │
Layer 8:  [Mamba-2]  ─┘
Layer 9:  [Transformer] ← 1 个 Transformer 层
Layer 10: [Mamba-2]  ─┐   精细局部解析
Layer 11: [Mamba-2]   │
...                    │ 重复 9:1 模式
Layer 18: [Mamba-2]  ─┘
Layer 19: [Transformer] ← ...
...

实际表现：

512K 上下文在单 GPU（8GB VRAM）上即可运行
比同参数量的纯 Transformer 模型推理内存减少约 80%
在 LLM 推理基准上达到了可比的准确率

NVIDIA Nemotron 3：百万 Token 的 MoE 混合体

NVIDIA 的 Nemotron 3 更进一步，将三种技术融合在一起：

Mamba 层：处理长距离依赖，支持百万 Token 上下文
Transformer 层：精确的局部注意力和上下文学习
MoE 层：通过稀疏激活扩展模型容量

这三种架构的结合代表了当前大模型设计的前沿方向——不再是单一架构"一统天下"，而是不同架构各司其职，优势互补。

基准测试：性能全面对比

推理效率对比

基于公开基准测试数据和论文报告：

code

推理吞吐量（tokens/sec，batch_size=1，A100 GPU）：

模型               1K tokens   4K tokens   16K tokens  64K tokens
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Transformer-3B     2,100       1,800       950         OOM
Mamba-3B           2,300       2,250       2,200       2,100
Hybrid (9:1)       2,200       2,100       1,950       1,850
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

注意：Transformer 在 64K 时因 KV Cache 内存溢出 (OOM)
      Mamba 在所有长度下吞吐量几乎不变 ✅

内存占用对比

code

推理时 GPU 显存占用（GB，fp16，batch_size=1）：

序列长度           Transformer-3B    Mamba-3B    节省比例
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
1K tokens          6.2               5.8         ~6%
4K tokens          7.1               5.8         ~18%
16K tokens         11.4              5.9         ~48%
64K tokens         28.6              5.9         ~79%
128K tokens        OOM               6.0         ∞
512K tokens        OOM               6.1         ∞
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

关键发现：Mamba 的内存几乎不随序列长度增长 ✅

语言建模质量对比

在标准语言建模基准上（困惑度越低越好）：

模型	参数量	Pile (ppl)	LAMBADA (acc)	HellaSwag (acc)
Transformer	2.8B	7.82	65.6%	60.2%
Mamba	2.8B	7.33	66.2%	60.4%
Mamba-2	2.8B	7.29	66.8%	61.1%

Mamba 在同等参数量下，语言建模质量与 Transformer 持平甚至略优，同时推理效率大幅领先。

局限性与未来展望

当前局限

1. 精确回忆能力不足

SSM 将所有历史压缩到固定大小的状态中，无法像 Transformer 的 KV Cache 那样精确检索任意历史位置。这在"大海捞针"类任务中表现明显。

2. 生态成熟度

Transformer 拥有近十年的工程积累——FlashAttention、vLLM、TensorRT-LLM 等推理优化工具链非常成熟。Mamba 的生态虽然在快速发展，但仍有差距。

3. 硬件适配

现代 GPU（尤其是 NVIDIA 的 Tensor Core）主要为矩阵乘法优化，而 Mamba-1 的核心运算是扫描（scan），这种运算对硬件的利用率不如矩阵乘法。Mamba-2/3 正在逐步解决这个问题。

4. 训练规模验证

目前公开的纯 Mamba 模型最大仅约 3B 参数。在数十B 到数百B 规模上，纯 SSM 架构能否保持优势仍需更多验证。

未来展望

混合架构将成为主流：正如 IBM Granite 4.0 和 NVIDIA Nemotron 3 所示，未来的大模型很可能不再是纯 Transformer 或纯 Mamba，而是不同架构层的精心编排
硬件协同设计：随着 Mamba 的普及，GPU 和 AI 芯片厂商可能会加入对扫描运算的原生硬件支持
超长上下文成为标配：Mamba 使百万级 Token 的上下文变得经济可行，这将解锁全新的应用场景——全代码库理解、超长文档分析、持续对话记忆
多模态拓展：Mixture-of-Mamba 等工作已经开始探索 SSM 在多模态（文本 + 图像 + 视频）预训练中的应用

📝 术语链接：神经网络 — 无论是 Transformer 还是 Mamba，都是深度神经网络大家族中的成员，它们代表了序列建模这一核心问题的不同解题思路。

常见问题 (FAQ)

Mamba 会完全取代 Transformer 吗？

短期内不会。更可能的趋势是混合架构——Mamba 处理长距离上下文，Transformer 负责需要精确检索的局部交互。两者的优势互补，而非零和替代。

Mamba 适合什么应用场景？

Mamba 在以下场景优势尤为明显：

超长文档处理（10 万+ Token）
流式序列建模（实时语音、视频、传感器数据）
边缘设备部署（内存受限环境）
高吞吐量推理服务（成本敏感的 API 服务）

作为开发者，我现在应该开始使用 Mamba 吗？

如果你是模型使用者（通过 API 调用），Mamba 的影响已经透明化——IBM Granite 4.0 等混合模型已经在生产中使用 Mamba，你无需关心底层架构。如果你是模型开发者或研究者，现在是学习和实验 SSM 架构的最佳时机，mamba-ssm 和 Hugging Face Transformers 都提供了便捷的入门方式。

Mamba 与状态空间模型 (SSM)：超越 Transformer 的下一代序列建模架构

核心摘要

📋 目录

✨ 核心要点

为什么需要超越 Transformer

二次计算复杂度的代价

理想的序列模型应该具备什么？

状态空间模型的数学基础

什么是状态空间模型？

直觉理解

离散化：从连续到离散

SSM 的双重计算模式

从 S4 到 Mamba：SSM 的演进历程

HiPPO：记忆的数学基础 (2020)

S4：结构化状态空间 (2021)

S4D 与 S5：简化与统一 (2022)

演进脉络图

Mamba 的核心创新：选择性状态空间

传统 SSM 的致命缺陷

Mamba 的解决方案：让参数随输入变化

选择性机制的直觉

硬件感知算法

Mamba 块的完整架构

Mamba-2 与 Mamba-3：持续演进

Mamba-2：结构化状态空间对偶性 (SSD)

Mamba-2 的架构改进

Mamba-3：推理优先设计 (2025)

实战：使用 Mamba 模型进行推理

安装与环境准备

使用 Hugging Face Transformers 加载 Mamba

使用原生 Mamba 库进行推理

对比 Transformer 与 Mamba 的推理内存

Transformer + Mamba 混合架构

为什么需要混合？

IBM Granite 4.0：9:1 混合架构

NVIDIA Nemotron 3：百万 Token 的 MoE 混合体

基准测试：性能全面对比

推理效率对比

内存占用对比

语言建模质量对比

局限性与未来展望

当前局限

未来展望

常见问题 (FAQ)

Mamba 会完全取代 Transformer 吗？

Mamba 适合什么应用场景？

作为开发者，我现在应该开始使用 Mamba 吗？

相关资源

内部链接

外部参考