教程·阅读约 2 分钟·
Ollama 本地大模型部署完全指南

Ollama 本地大模型部署完全指南

在本地运行 Llama、Mistral、Qwen 等大模型的最简单方式。一行命令下载,一行命令对话,支持 API 和自定义模型。

原文来源:Ollama — 本地运行大语言模型的最简方案,一行命令下载模型,一行命令开始对话,支持 REST API 和自定义模型导入。

如果你想在本地跑大模型,但不想折腾 PyTorch、CUDA 版本、依赖冲突这些麻烦事,Ollama 是目前最简单的选择。它把模型下载、环境配置、推理服务全部打包成一个命令行工具,体验类似于 Docker 拉镜像——简单到不可思议。

Ollama 是什么

Ollama 是一个开源工具,让你在本地机器上运行各种开源大模型。它处理了所有底层细节:自动下载模型权重、配置推理参数、启动 API 服务。你只需要知道模型名字,剩下的交给它。

支持的模型包括 Llama 3.2、Mistral、Qwen3、DeepSeek、Gemma、Phi 等主流开源模型,数量超过 100 个。

安装

code
# macOS
curl -fsSL https://ollama.com/install.sh | sh
 
# Linux
curl -fsSL https://ollama.com/install.sh | sh
 
# Windows 下载安装包
# https://ollama.com/download/windows

安装后 Ollama 作为后台服务运行,默认监听 localhost:11434

运行模型

下载并运行

code
ollama run llama3.2

第一次运行会自动下载模型(约 4-15GB,取决于模型大小),下载完成后直接进入对话模式。

只下载不运行

code
ollama pull qwen3

列出本地模型

code
ollama list

删除模型

code
ollama rm llama3.3

API 使用

Ollama 启动后会暴露一个兼容 OpenAI 的 REST API:

code
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "为什么天空是蓝色的?"
}'

聊天接口

code
curl http://localhost:11434/api/chat -d '{
  "model": "llama3.2",
  "messages": [
    {"role": "user", "content": "你好"}
  ]
}'

OpenAI 兼容模式

code
curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.2",
    "messages": [{"role": "user", "content": "你好"}]
  }'

这意味着你可以把任何调用 OpenAI API 的代码,把 base_url 改成 http://localhost:11434 就能用本地模型。

自定义模型

你可以基于现有模型创建自定义版本:

code
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama3.3
PARAMETER temperature 0.7
SYSTEM 你是一位专业的 Python 开发者,回答简洁准确。
EOF
 
# 构建自定义模型
ollama create my-python-assistant -f Modelfile
 
# 运行
ollama run my-python-assistant

硬件要求

模型大小显存需求推荐显卡
7B8GBRTX 3060 12GB
13B16GBRTX 4070 Ti
70B48GBRTX 4090 / A6000

没有显卡也能跑,CPU 推理会慢很多但可用。Mac 用户可以用 Apple Silicon 的 Neural Engine 加速。

与项目集成

LangChain

code
from langchain_ollama import OllamaLLM
 
llm = OllamaLLM(model="llama3.2")
result = llm.invoke("你好")

LlamaIndex

code
from llama_index.llms.ollama import Ollama
 
llm = Ollama(model="llama3.2")

OpenWebUI

配合 OpenWebUI 可以获得类似 ChatGPT 的网页界面,完全本地运行。

总结

Ollama 把本地跑大模型的门槛降到了几乎为零。不需要懂 PyTorch、不需要配 CUDA、不需要写代码——一行命令就能开始对话。对于想尝试本地 AI 但又怕麻烦的开发者来说,这是目前最好的入门方案。

分享到
微博Twitter

© 2026 四月 · CC BY-NC-SA 4.0

原文链接:https://aprilzz.com/tutorials/ollama-local-llm-guide