Question 1

当我的输入超过模型的上下文窗口时会发生什么？

Accepted Answer

当输入超过上下文窗口时，大多数 API 会返回错误。某些系统可能会截断输入，可能导致重要信息丢失。处理长文档时，可以使用分块（将文本拆分成较小片段）、摘要或检索增强生成（RAG）等技术，在保持关键信息的同时控制在限制范围内。

Question 2

Token 与单词或字符有什么不同？

Accepted Answer

Token 是语言模型处理的基本单位，通常表示常见的字符序列。在英语中，一个 token 大约等于 4 个字符或 0.75 个单词。不同语言的 token 效率不同——中文字符通常每个字需要更多 token。使用分词工具可以获得特定文本的准确计数。

Question 3

上下文窗口越大是否意味着性能越好？

Accepted Answer

不一定。虽然更大的上下文窗口允许处理更多信息，但模型可能难以有效利用非常长上下文中间部分的信息（即「中间迷失」现象）。此外，更大的上下文会增加计算成本和延迟。有时，结构良好的较短提示反而比冗长的提示效果更好。

Question 4

什么是 RAG，它如何帮助解决上下文窗口限制？

Accepted Answer

RAG（检索增强生成）从大型知识库中只检索最相关的信息并将其包含在提示中。RAG 不是将整个文档放入上下文窗口，而是动态选择最相关的片段，使模型能够在保持在 token 限制内的同时访问大量知识。

Question 5

为什么上下文窗口有限制，它们会继续增长吗？

Accepted Answer

Transformer 的注意力机制具有 O(n²) 的复杂度，这意味着内存和计算量随序列长度呈二次方增长。虽然稀疏注意力和高效架构等技术正在扩展限制（模型现在已达到 100 万+ token），但在上下文大小、成本和推理速度之间仍存在实际权衡。

什么是上下文窗口？

快速了解