Question 1

一个英文单词等于多少个 Token？中文呢？

Accepted Answer

英文中，常见单词通常是 1 个 token，较长或罕见的单词可能是 2-4 个 token。中文由于字符编码方式不同，通常每个汉字需要 1-2 个 token，一个中文词可能需要 2-4 个 token。因此，相同语义的内容，中文通常比英文消耗更多 token。可以使用 OpenAI 的 Tokenizer 工具实际测试。

Question 2

什么是上下文窗口？Token 数量如何影响它？

Accepted Answer

上下文窗口是模型单次能处理的最大 token 数量，包括输入和输出。例如 GPT-4 Turbo 有 128K token 的上下文窗口。超出限制的内容会被截断。Token 数量直接决定了能输入多少内容、模型能'记住'多少对话历史，以及 API 调用的成本。长文档处理需要分块或使用大上下文窗口模型。

Question 3

BPE（字节对编码）分词算法是如何工作的？

Accepted Answer

BPE 从字符级词汇表开始，迭代地合并最频繁出现的相邻字符对。例如，'th'和'e'频繁相邻，就合并为'the'。这个过程持续到达到预设词汇量。结果是常见词作为整体 token，罕见词被分解为子词。这种方法平衡了词汇量大小和表示效率，能处理未见过的词。

Question 4

如何估算 API 调用的 Token 成本？

Accepted Answer

估算步骤：1）使用 tiktoken 等库计算输入文本的 token 数；2）估计预期输出的 token 数；3）查看 API 定价（通常按每千 token 计费，输入输出价格可能不同）；4）计算总成本。优化成本的方法包括：精简提示词、限制输出长度、使用更经济的模型、以及缓存常用响应。

Question 5

不同 LLM 的分词器有什么区别？

Accepted Answer

不同模型使用不同的分词器和词汇表：GPT 系列使用 tiktoken（基于 BPE）、BERT 使用 WordPiece、LLaMA 使用 SentencePiece。这意味着相同文本在不同模型中的 token 数量可能不同。选择模型时需要注意其分词器对目标语言的支持程度，某些分词器对中文等非拉丁语言的效率较低。

创建时间	2010 年代（BPE 等现代子词分词技术）
规范文档	官方规范

什么是 Token（令牌）？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

一个英文单词等于多少个 Token？中文呢？

什么是上下文窗口？Token 数量如何影响它？

BPE（字节对编码）分词算法是如何工作的？

如何估算 API 调用的 Token 成本？

不同 LLM 的分词器有什么区别？

相关工具

文本分析器

相关术语

大语言模型

GPT模型

向量嵌入

Transformer模型

相关文章

上下文窗口与Token完全指南：LLM分词原理、计数方法与成本优化策略

TOON格式：节省50%大模型Token消耗【2026】- 原理与实践

大模型推理与 KV Cache 详解：Token 生成的底层逻辑【2026】