核心摘要
AI 应用国际化不是只翻译 UI 字符串。全球 AI 产品需要区域感知 Prompt、文化适配示例、地区化检索、本地安全策略、多语言评测、格式规则和发布治理。核心架构模式是把任务意图和 locale 分离:任务只定义一次,然后按市场本地化 Prompt 片段、检索源、术语、策略约束和输出格式。本文给出 AI 应用本地化流水线的生产工程方案。
目录
核心要点
- AI 本地化是行为本地化,不只是语言翻译。
- Prompt 应按意图和约束本地化,而不是逐句翻译。
- RAG 必须具备 locale 感知,避免返回错误法律、价格、单位、节假日和政策。
- 安全策略需要本地复核,因为敏感话题和合规义务因地区而异。
- 每个 locale 都需要原生评测集,不能只用机器翻译的英文测试。
🔧 实用工具:使用 JSON 格式化工具 检查 locale 配置;使用 文本差异对比工具 比较不同语言的 Prompt 版本。
为什么 AI 本地化更难
传统 Web 应用本地化字符串、日期、货币和布局。AI 应用需要本地化行为。
| 层级 | 传统应用 | AI 应用 |
|---|---|---|
| UI 文案 | 翻译文件 | 翻译文件 + AI 生成文案 |
| 逻辑 | 基本固定 | 模型行为随 Prompt 变化 |
| 知识 | 静态文档 | 区域感知检索 |
| 安全 | 中央策略 | 本地策略解释 |
| 质量 | 视觉 QA | 多语言评测与人工复核 |
| 格式 | 日期/币种规则 | 生成内容必须符合 locale |
如果英文 Prompt 写着“be concise and friendly”,直译到日语、德语、阿拉伯语或巴西葡语中,未必得到合适语气。语气是文化问题,不只是词汇问题。
国际化架构
架构上应分离任务意图和 locale 行为。这样产品团队新增地区时,不需要重写每个功能。
多语言 Prompt 设计
Prompt 本地化包可以这样定义:
{
"locale": "ja-JP",
"tone": "polite, concise, professional",
"terminology": {
"workspace": "ワークスペース",
"credits": "クレジット"
},
"formatting": {
"currency": "JPY",
"date": "YYYY年M月D日"
},
"examples": ["Use local business etiquette and avoid overly casual phrasing."]
}
不要盲目翻译 Prompt。应该本地化:
- 语气和礼貌等级。
- 示例和 few-shot case。
- 产品术语。
- 法律假设。
- 格式约束。
- 拒答风格。
- 支持升级话术。
Locale-aware RAG
Locale-aware RAG 会基于 locale 元数据过滤和排序文档。
interface RetrievalContext {
language: string;
region: string;
jurisdiction?: string;
currency?: string;
productPlan?: string;
}
function buildRetrievalFilter(ctx: RetrievalContext) {
return {
language: ctx.language,
regions: [ctx.region, "global"],
jurisdiction: ctx.jurisdiction,
};
}
没有这一层,模型可能给法国用户返回美国价格,给日本用户返回欧盟税务假设,给印度用户推荐不相关支付方式。
文化适配
文化适配会影响:
| 维度 | 示例 |
|---|---|
| 语气 | 直接表达 vs 间接表达 |
| 示例 | 本地姓名、节假日、商业场景 |
| 单位 | 英里 vs 公里,华氏 vs 摄氏 |
| 货币 | 含税价 vs 不含税价 |
| 合规 | GDPR、CCPA、本地数据驻留 |
| 支持 | 邮件、聊天、WhatsApp、LINE、发票 |
全球产品相关内容可参考 AI SaaS 出海定价策略 和 AI 产品隐私工程。
评测流水线
每个 locale 都需要独立评测集:
| 评测类型 | 衡量内容 |
|---|---|
| 任务成功率 | 答案是否解决问题 |
| 术语一致性 | 产品术语是否稳定 |
| 语气合适性 | 母语用户是否接受 |
| 检索 grounding | 是否使用本地来源 |
| 安全行为 | 是否遵守本地策略 |
| 格式准确性 | 日期、币种、单位、姓名 |
| 幻觉率 | 是否产生无依据本地断言 |
不能只依赖翻译后的英文测试。翻译可能保留文字,却丢失文化意图。
发布治理
本地化发布应要求:
- Locale Pack 评审。
- Prompt diff 评审。
- 母语 QA。
- 安全策略评审。
- 检索源校验。
- 自动评测通过。
- 回滚方案。
- 监控面板。
按 locale 使用 Feature Flag。AI 行为应渐进发布,因为本地化 Prompt 可能以不同于英文的方式失败。
实现模式
使用统一的本地化生成接口:
interface LocalizedAIRequest {
task: "support_reply" | "summary" | "onboarding";
locale: string;
region: string;
userInput: string;
productContext: Record<string, unknown>;
}
interface LocalePack {
locale: string;
tone: string;
terminology: Record<string, string>;
safetyPolicyVersion: string;
formattingRules: Record<string, string>;
}
Prompt 应从结构化片段组合,而不是在业务代码里硬编码各语言 Prompt。
最佳实践
- 分离任务意图和 locale 配置。
- 本地化示例和约束,而不只是指令文本。
- 按语言、地区和司法辖区过滤检索内容。
- 高影响市场必须引入母语复核。
- 每个支持语言都在 Prompt 变更前后运行评测。
常见问题
AI 应用国际化只是翻译吗?
不是。它包括 Prompt 本地化、区域感知检索、文化适配、本地安全策略、多语言评测、格式规则和发布治理。
Prompt 应该直接翻译吗?
不应该。Prompt 应按意图、语气、示例、术语、约束和本地假设进行本地化。直译经常带来意外行为变化。
如何评估多语言 AI 质量?
每个 locale 使用原生测试集,评估任务成功、语气、术语、grounded retrieval、安全行为和幻觉率。
什么是 Locale-aware RAG?
它是一种根据语言、地区、司法辖区、单位、币种、产品可用性和政策元数据检索本地相关证据的 RAG。
AI 本地化最大的风险是什么?
最大的风险是答案流畅但本地错误:法律假设错误、价格不支持、语气不合适或政策引用不正确。
总结
AI 国际化是本地化行为的工程能力。应从一开始建设 Locale Pack、Prompt 组合、区域感知检索、原生评测和发布治理。全球 AI 产品真正成功的标志,不是答案被翻译了,而是每个市场得到的答案都本地正确、安全且有用。