Question 1

什么是模型对齐？为什么它很重要？

Accepted Answer

模型对齐是训练 AI 系统使其行为符合人类价值观和意图的过程。它很重要是因为：1) 确保 AI 做人类真正想要的事，而非字面理解的内容；2) 防止有害或危险的输出；3) 建立用户对 AI 的信任；4) 是负责任 AI 开发的核心要求。随着 AI 能力增强，对齐问题变得越来越关键。

Question 2

RLHF 是什么？它如何实现模型对齐？

Accepted Answer

RLHF（Reinforcement Learning from Human Feedback，人类反馈强化学习）是一种对齐技术。其流程是：1) 收集人类对模型输出的偏好反馈；2) 训练一个奖励模型来预测人类偏好；3) 使用强化学习优化语言模型以最大化奖励。ChatGPT、Claude 等模型都使用了 RLHF 技术。

Question 3

什么是 HHH 原则？

Accepted Answer

HHH 是模型对齐的三个核心目标：1) Helpful（有用）- 模型应该尽力帮助用户完成任务；2) Harmless（无害）- 模型不应产生有害、危险或冒犯性的内容；3) Honest（诚实）- 模型应该如实回答，承认不确定性，不编造信息。这三个目标有时会产生冲突，需要权衡。

Question 4

Constitutional AI 是什么？

Accepted Answer

Constitutional AI（宪法 AI）是 Anthropic 提出的对齐方法。它通过定义一组原则（宪法）来指导模型行为，让模型自我批评和修正输出。相比 RLHF，它减少了对人类标注的依赖，可以更系统地处理各种情况。Claude 模型使用了这种技术。

Question 5

模型对齐面临哪些挑战？

Accepted Answer

模型对齐的主要挑战包括：1) 价值观难以精确定义和量化；2) 奖励黑客 - 模型可能找到满足奖励但违背意图的方式；3) 分布偏移 - 训练和实际使用场景不同；4) 可扩展性 - 随着模型能力增强，对齐难度增加；5) 不同文化和个人的价值观差异；6) 评估对齐效果本身就很困难。

全称	AI 模型对齐
创建时间	概念源自 2010 年代，2022 年成为主要焦点
规范文档	官方规范

什么是模型对齐？

快速了解

工作原理

主要特点

常见用途

示例

常见问题