Ollama 本地大模型部署完全指南

原文来源：Ollama — 本地运行大语言模型的最简方案，一行命令下载模型，一行命令开始对话，支持 REST API 和自定义模型导入。

如果你想在本地跑大模型，但不想折腾 PyTorch、CUDA 版本、依赖冲突这些麻烦事，Ollama 是目前最简单的选择。它把模型下载、环境配置、推理服务全部打包成一个命令行工具，体验类似于 Docker 拉镜像——简单到不可思议。

Ollama 是什么

Ollama 是一个开源工具，让你在本地机器上运行各种开源大模型。它处理了所有底层细节：自动下载模型权重、配置推理参数、启动 API 服务。你只需要知道模型名字，剩下的交给它。

支持的模型包括 Llama 3.2、Mistral、Qwen3、DeepSeek、Gemma、Phi 等主流开源模型，数量超过 100 个。

安装

code

# macOS
curl -fsSL https://ollama.com/install.sh | sh
 
# Linux
curl -fsSL https://ollama.com/install.sh | sh
 
# Windows 下载安装包
# https://ollama.com/download/windows

安装后 Ollama 作为后台服务运行，默认监听 localhost:11434。

运行模型

下载并运行

code

ollama run llama3.2

第一次运行会自动下载模型（约 4-15GB，取决于模型大小），下载完成后直接进入对话模式。

只下载不运行

code

ollama pull qwen3

列出本地模型

code

ollama list

删除模型

code

ollama rm llama3.3

API 使用

Ollama 启动后会暴露一个兼容 OpenAI 的 REST API：

code

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "为什么天空是蓝色的？"
}'

聊天接口

code

curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'

OpenAI 兼容模式

code

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "你好"}]
  }'

这意味着你可以把任何调用 OpenAI API 的代码，把 base_url 改成 http://localhost:11434 就能用本地模型。

自定义模型

你可以基于现有模型创建自定义版本：

code

# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama3.3
PARAMETER temperature 0.7
SYSTEM 你是一位专业的 Python 开发者，回答简洁准确。
EOF
 
# 构建自定义模型
ollama create my-python-assistant -f Modelfile
 
# 运行
ollama run my-python-assistant

硬件要求

模型大小	显存需求	推荐显卡
7B	8GB	RTX 3060 12GB
13B	16GB	RTX 4070 Ti
70B	48GB	RTX 4090 / A6000

没有显卡也能跑，CPU 推理会慢很多但可用。Mac 用户可以用 Apple Silicon 的 Neural Engine 加速。

与项目集成

LangChain

code

from langchain_ollama import OllamaLLM
 
llm = OllamaLLM(model="llama3.2")
result = llm.invoke("你好")

LlamaIndex

code

from llama_index.llms.ollama import Ollama
 
llm = Ollama(model="llama3.2")

OpenWebUI

配合 OpenWebUI 可以获得类似 ChatGPT 的网页界面，完全本地运行。

总结

Ollama 把本地跑大模型的门槛降到了几乎为零。不需要懂 PyTorch、不需要配 CUDA、不需要写代码——一行命令就能开始对话。对于想尝试本地 AI 但又怕麻烦的开发者来说，这是目前最好的入门方案。

Ollama 本地大模型部署完全指南

Ollama 是什么

安装

运行模型

API 使用

自定义模型

硬件要求

与项目集成

总结

相关文章

Local Deep Research 本地部署教程：把 Perplexity 搬到自己的电脑上

Dify 开源 LLM 应用开发平台快速上手

Meilisearch 轻量级搜索引擎本地部署