什么是 Jailbreak (越狱)?

Jailbreak (越狱) 在人工智能领域指的是一种高级对抗性提示(Adversarial Prompting)技术。攻击者通过精心设计的、通常极具创造性的语言输入,绕过基础大语言模型(如 GPT-4, Claude, Llama)内置的安全护栏(Guardrails)和人类偏好对齐(Alignment)。一旦越狱成功,模型将无视其被训练时定下的道德和安全准则,生成被严令禁止的内容,如编写恶意软件、制造炸弹的配方、或是发表仇恨言论。

快速了解

全称LLM Jailbreak Attack
创建时间在 2022 年底 ChatGPT 爆火后迅速成为网络安全和 AI 研究领域的热门话题,著名的 DAN (Do Anything Now) 是早期的代表作。

工作原理

随着大语言模型的强大能力被释放,AI 公司(如 OpenAI, Anthropic)投入了大量资源通过 RLHF(基于人类反馈的强化学习)和红队测试(Red Teaming)来对齐模型,确保它们“有用且无害”。然而,语言的无限组合性使得建立完美的护栏几乎不可能。黑客和安全研究员发明了“越狱”来挑战这些限制。 越狱攻击的核心思想是“欺骗”。最经典的早期越狱是 DAN(Do Anything Now)攻击,用户命令模型扮演一个名叫 DAN 的 AI,该 AI 已经摆脱了所有 OpenAI 的规则限制。由于大模型非常擅长角色扮演,它会在“DAN”的人设下生成被禁止的答案。随着防御的升级,越狱技术也变得越来越复杂:从简单的“祖母漏洞”(让 AI 扮演已故的祖母讲睡前故事,故事内容是燃烧弹配方),到复杂的“逻辑嵌套”(要求 AI 评估一段 Python 代码,而该代码的作用是生成恶意软件),再到“多语种混合”和“Base64 编码”绕过关键词检测。 越狱与提示注入(Prompt Injection)经常被混淆。简而言之:越狱是试图攻破基础模型本身的道德护栏;而提示注入是试图篡改特定应用程序(如你开发的 AI 客服)的业务逻辑。

主要特点

  • 利用角色扮演:最常见的手段是诱导大模型进入一种不受现有安全规则约束的虚拟角色或虚构场景中
  • 语言与逻辑混淆:使用 Base64、摩斯密码、冷门语言或极其复杂的逻辑嵌套来绕过输入层的关键词过滤器
  • 猫鼠游戏:越狱技术和模型防御处于永无休止的动态博弈中,一个公开的越狱 Prompt 通常在几天内就会被官方封堵
  • 利用对齐漏洞:本质上是利用了 LLM '乐于助人(Helpfulness)' 权重在特定场景下压倒了 '无害性(Harmlessness)' 权重
  • 多步诱导:高级越狱通常不是一个 Prompt 就能完成,而是通过多轮对话慢慢降低模型的防御阈值

常见用途

  1. AI 红队测试 (Red Teaming):安全专家故意使用越狱手段攻击即将发布的新模型,以发现并修复安全对齐的漏洞
  2. 自动化安全评估:使用专门的越狱 Prompt 评测基准(如 JailbreakBench)来给各大开源/闭源模型的安全性打分
  3. 防御机制开发:基于已知的越狱模式,训练分类器或 Llama Guard 等辅助模型,专门用于在输入层拦截异常 Prompt
  4. 黑灰产利用:恶意攻击者利用越狱技术批量生成钓鱼邮件、勒索软件代码或虚假新闻
  5. 大模型心理学研究:学术界通过越狱研究 LLM 的内部表征和“服从机制”,探索更深层次的对齐方法

示例

loading...
Loading code...

常见问题

越狱 (Jailbreak) 和提示注入 (Prompt Injection) 到底有什么区别?

越狱是针对**基础模型(如 GPT-4)**的攻击,目的是打破其内置的“不要作恶”的道德底线(如教人做炸弹);而提示注入是针对**基于 LLM 开发的应用**的攻击,目的是篡改开发者设定的业务逻辑(如让 AI 客服泄露内部 API 密钥)。

为什么 AI 公司不能完全封死越狱漏洞?

因为这涉及到一个根本的权衡:**有用性 (Helpfulness) vs 无害性 (Harmlessness)**。如果你把安全阈值设得极高,模型就会变得极其保守,甚至拒绝回答“如何杀死电脑进程”这样正常的技术问题(过度拒答 False Refusal)。语言的表达方式是无限的,攻击者总能找到一种新的语境(如写科幻小说、做逻辑推理)来绕过现有的过滤器。

什么是多语言越狱攻击?

由于大语言模型的安全对齐训练(如 RLHF)主要使用英语数据,模型在英语下的防线最强。攻击者发现,如果使用资源较少的语言(如斯瓦希里语、祖鲁语甚至世界语)向模型提出恶意请求,模型往往会乖乖回答。这是因为模型在这些语言下缺乏足够的“拒绝回答”的训练数据。

相关工具

相关术语

相关文章