什么是 Ollama？

Ollama 是一个用于在本地机器上运行、构建和共享大型语言模型（LLM）的开源框架。它通过类似 Docker 的命令行体验，将复杂的模型权重下载、量化（Quantization）配置以及 GPU 硬件驱动调用封装在底层，极大地降低了开发者在本地部署开源大模型的门槛。

快速了解

全称	Ollama Local LLM Framework
创建时间	2023年发布，随着 Llama 2/3 的开源而迅速爆火

工作原理

随着 Llama 3、Mistral 等开源大语言模型能力的飞速提升，越来越多的企业和开发者出于数据隐私、离线使用或成本考量，希望将模型部署在本地。但在过去，这需要配置复杂的 Python 环境、处理 CUDA 驱动以及手写推理代码。Ollama 彻底改变了这一现状。它引入了 `Modelfile` 的概念（类似于 Dockerfile），允许用户通过简单的文本文件定义模型的系统提示词、温度参数甚至导入微调后的 GGUF 格式权重。只需一条 `ollama run llama3` 命令，Ollama 就能自动下载模型并启动一个提供 REST API（兼容 OpenAI 格式）的本地推理服务器，让你的应用可以像调用云端 API 一样无缝接入本地算力。

主要特点

极简安装与运行：单文件可执行，一条命令即可启动大模型
跨平台支持：原生支持 macOS, Windows 和 Linux，自动适配 Apple Silicon 和 Nvidia GPU
Modelfile 定制：像写 Dockerfile 一样轻松定制模型的系统人设和参数
OpenAI 兼容 API：内置 REST API 服务器，方便与现有 AI 框架（如 LangChain, Dify）集成
丰富的模型库：官方提供了一个包含众多主流开源模型（Llama, Qwen, Gemma）的注册表

常见用途

隐私敏感型数据处理：在本地分析医疗记录、金融数据或公司机密代码，确保数据不上云
离线 AI 助手开发：构建在无网络环境下依然可用的桌面端或移动端 AI 应用
低成本开发与测试：在开发 AI Agent 时使用本地模型进行高频调试，节省昂贵的云端 API Token 费用
定制化模型微调：通过 Ollama 加载使用私有数据进行 LoRA/QLoRA 微调后的专属模型
本地知识库问答 (Local RAG)：结合 AnythingLLM 或 Dify，在本地构建个人的私有知识大脑

示例

Loading code...

常见问题

Ollama 可以在没有独立显卡的电脑上运行吗？

可以。Ollama 会自动检测硬件环境，如果没有兼容的 GPU，它会回退到使用纯 CPU 进行推理计算。虽然速度会变慢，但对于参数量较小的模型（如 7B 以下），在现代 CPU 上的速度依然是可以接受的。

Ollama 和 LM Studio 有什么区别？

两者都是优秀的本地大模型运行工具。LM Studio 提供了丰富的图形化界面（GUI），非常适合新手直接下载和聊天。而 Ollama 采用了更极客的命令行界面（CLI），并且通过 Modelfile 和常驻的 API 服务，更适合开发者将其作为底层引擎集成到自己的软件项目中。

如何让局域网内的其他设备访问我的 Ollama 服务？

默认情况下 Ollama 只监听本地回环地址（127.0.0.1）。你需要设置环境变量 `OLLAMA_HOST=0.0.0.0:11434` 然后重启服务，即可允许局域网内的其他设备通过你的 IP 地址进行调用。

什么是 Ollama？

快速了解

工作原理

主要特点

常见用途

示例

常见问题

Ollama 可以在没有独立显卡的电脑上运行吗？

Ollama 和 LM Studio 有什么区别？

如何让局域网内的其他设备访问我的 Ollama 服务？

相关工具

JSON 格式化

URL编码/解码

相关术语

大语言模型

检索增强生成

WebLLM

GraphRAG

相关文章

小模型崛起：2B/8B 参数模型如何在边缘设备上替代大模型

本地大模型部署实战：性能调优与选型决策

Ollama 是什么？Ollama 高级实战与本地部署大模型深度解析