什么是 Ollama?

Ollama 是一个用于在本地机器上运行、构建和共享大型语言模型(LLM)的开源框架。它通过类似 Docker 的命令行体验,将复杂的模型权重下载、量化(Quantization)配置以及 GPU 硬件驱动调用封装在底层,极大地降低了开发者在本地部署开源大模型的门槛。

快速了解

全称Ollama Local LLM Framework
创建时间2023年发布,随着 Llama 2/3 的开源而迅速爆火

工作原理

随着 Llama 3、Mistral 等开源大语言模型能力的飞速提升,越来越多的企业和开发者出于数据隐私、离线使用或成本考量,希望将模型部署在本地。但在过去,这需要配置复杂的 Python 环境、处理 CUDA 驱动以及手写推理代码。Ollama 彻底改变了这一现状。它引入了 `Modelfile` 的概念(类似于 Dockerfile),允许用户通过简单的文本文件定义模型的系统提示词、温度参数甚至导入微调后的 GGUF 格式权重。只需一条 `ollama run llama3` 命令,Ollama 就能自动下载模型并启动一个提供 REST API(兼容 OpenAI 格式)的本地推理服务器,让你的应用可以像调用云端 API 一样无缝接入本地算力。

主要特点

  • 极简安装与运行:单文件可执行,一条命令即可启动大模型
  • 跨平台支持:原生支持 macOS, Windows 和 Linux,自动适配 Apple Silicon 和 Nvidia GPU
  • Modelfile 定制:像写 Dockerfile 一样轻松定制模型的系统人设和参数
  • OpenAI 兼容 API:内置 REST API 服务器,方便与现有 AI 框架(如 LangChain, Dify)集成
  • 丰富的模型库:官方提供了一个包含众多主流开源模型(Llama, Qwen, Gemma)的注册表

常见用途

  1. 隐私敏感型数据处理:在本地分析医疗记录、金融数据或公司机密代码,确保数据不上云
  2. 离线 AI 助手开发:构建在无网络环境下依然可用的桌面端或移动端 AI 应用
  3. 低成本开发与测试:在开发 AI Agent 时使用本地模型进行高频调试,节省昂贵的云端 API Token 费用
  4. 定制化模型微调:通过 Ollama 加载使用私有数据进行 LoRA/QLoRA 微调后的专属模型
  5. 本地知识库问答 (Local RAG):结合 AnythingLLM 或 Dify,在本地构建个人的私有知识大脑

示例

loading...
Loading code...

常见问题

Ollama 可以在没有独立显卡的电脑上运行吗?

可以。Ollama 会自动检测硬件环境,如果没有兼容的 GPU,它会回退到使用纯 CPU 进行推理计算。虽然速度会变慢,但对于参数量较小的模型(如 7B 以下),在现代 CPU 上的速度依然是可以接受的。

Ollama 和 LM Studio 有什么区别?

两者都是优秀的本地大模型运行工具。LM Studio 提供了丰富的图形化界面(GUI),非常适合新手直接下载和聊天。而 Ollama 采用了更极客的命令行界面(CLI),并且通过 Modelfile 和常驻的 API 服务,更适合开发者将其作为底层引擎集成到自己的软件项目中。

如何让局域网内的其他设备访问我的 Ollama 服务?

默认情况下 Ollama 只监听本地回环地址(127.0.0.1)。你需要设置环境变量 `OLLAMA_HOST=0.0.0.0:11434` 然后重启服务,即可允许局域网内的其他设备通过你的 IP 地址进行调用。

相关工具

相关术语

相关文章