Question 1

大语言模型与传统 NLP 模型有什么区别？

Accepted Answer

传统 NLP 模型是针对特定任务的，需要为情感分析或翻译等每个任务进行单独训练。大语言模型是在海量数据集上训练的通用模型，可以通过提示词执行多种任务而无需特定任务的训练。它们展现出较小模型所缺乏的涌现能力，如推理和上下文学习。

Question 2

训练一个大语言模型需要多少数据和算力？

Accepted Answer

训练大型 LLM 通常需要数千亿到数万亿个 token 的文本数据，以及数千个 GPU 运行数周或数月。例如，GPT-3 使用大量计算资源在 3000 亿个 token 上进行训练。最大模型的成本可能从数百万到数亿美元不等。

Question 3

什么是大语言模型的幻觉，如何减少？

Accepted Answer

幻觉是指大语言模型生成听起来合理但实际上不正确或虚构的信息。可以通过以下技术减少幻觉：使用检索增强生成（RAG）将回答建立在事实数据基础上、在高质量数据集上微调、实施事实核查机制，以及使用较低的温度参数设置以获得更确定性的输出。

Question 4

大语言模型可以在本地运行而不使用云 API 吗？

Accepted Answer

可以，许多开源大语言模型如 Llama、Mistral 和 Qwen 可以在本地运行。较小的量化版本（4 位或 8 位）可以在具有 8-16GB 显存的消费级硬件上运行。llama.cpp、Ollama 和 LM Studio 等工具使本地部署变得可行。但最大的模型仍需要企业级硬件。

Question 5

什么是上下文窗口，为什么它很重要？

Accepted Answer

上下文窗口是大语言模型在单次交互中可以处理的最大 token 数量，包括输入和输出。它之所以重要，是因为它限制了模型一次可以考虑多少信息。现代大语言模型的上下文窗口范围从 4K 到 200K+ 个 token。更大的窗口可以处理更长的文档，但会增加计算成本。

创建时间	2018 年（GPT-1），2020 年显著扩展（GPT-3）
规范文档	官方规范

什么是大语言模型？

快速了解