
Ollama 本地大模型部署完全指南
在本地运行 Llama、Mistral、Qwen 等大模型的最简单方式。一行命令下载,一行命令对话,支持 API 和自定义模型。
原文来源:Ollama — 本地运行大语言模型的最简方案,一行命令下载模型,一行命令开始对话,支持 REST API 和自定义模型导入。
如果你想在本地跑大模型,但不想折腾 PyTorch、CUDA 版本、依赖冲突这些麻烦事,Ollama 是目前最简单的选择。它把模型下载、环境配置、推理服务全部打包成一个命令行工具,体验类似于 Docker 拉镜像——简单到不可思议。
Ollama 是什么
Ollama 是一个开源工具,让你在本地机器上运行各种开源大模型。它处理了所有底层细节:自动下载模型权重、配置推理参数、启动 API 服务。你只需要知道模型名字,剩下的交给它。
支持的模型包括 Llama 3.2、Mistral、Qwen3、DeepSeek、Gemma、Phi 等主流开源模型,数量超过 100 个。
安装
# macOS
curl -fsSL https://ollama.com/install.sh | sh
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# Windows 下载安装包
# https://ollama.com/download/windows安装后 Ollama 作为后台服务运行,默认监听 localhost:11434。
运行模型
下载并运行
ollama run llama3.2第一次运行会自动下载模型(约 4-15GB,取决于模型大小),下载完成后直接进入对话模式。
只下载不运行
ollama pull qwen3列出本地模型
ollama list删除模型
ollama rm llama3.3API 使用
Ollama 启动后会暴露一个兼容 OpenAI 的 REST API:
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "为什么天空是蓝色的?"
}'聊天接口
curl http://localhost:11434/api/chat -d '{
"model": "llama3.2",
"messages": [
{"role": "user", "content": "你好"}
]
}'OpenAI 兼容模式
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.2",
"messages": [{"role": "user", "content": "你好"}]
}'这意味着你可以把任何调用 OpenAI API 的代码,把 base_url 改成 http://localhost:11434 就能用本地模型。
自定义模型
你可以基于现有模型创建自定义版本:
# 创建 Modelfile
cat > Modelfile << 'EOF'
FROM llama3.3
PARAMETER temperature 0.7
SYSTEM 你是一位专业的 Python 开发者,回答简洁准确。
EOF
# 构建自定义模型
ollama create my-python-assistant -f Modelfile
# 运行
ollama run my-python-assistant硬件要求
| 模型大小 | 显存需求 | 推荐显卡 |
|---|---|---|
| 7B | 8GB | RTX 3060 12GB |
| 13B | 16GB | RTX 4070 Ti |
| 70B | 48GB | RTX 4090 / A6000 |
没有显卡也能跑,CPU 推理会慢很多但可用。Mac 用户可以用 Apple Silicon 的 Neural Engine 加速。
与项目集成
LangChain
from langchain_ollama import OllamaLLM
llm = OllamaLLM(model="llama3.2")
result = llm.invoke("你好")LlamaIndex
from llama_index.llms.ollama import Ollama
llm = Ollama(model="llama3.2")OpenWebUI
配合 OpenWebUI 可以获得类似 ChatGPT 的网页界面,完全本地运行。
总结
Ollama 把本地跑大模型的门槛降到了几乎为零。不需要懂 PyTorch、不需要配 CUDA、不需要写代码——一行命令就能开始对话。对于想尝试本地 AI 但又怕麻烦的开发者来说,这是目前最好的入门方案。
© 2026 四月 · CC BY-NC-SA 4.0
原文链接:https://aprilzz.com/tutorials/ollama-local-llm-guide
相关文章
Local Deep Research 本地部署教程:把 Perplexity 搬到自己的电脑上
6.6k Stars 的开源 AI 深度研究工具 Local Deep Research 完整部署指南。支持本地 LLM + 10+ 搜索引擎,数据完全本地加密,SimpleQA 准确率可达 95%。
Dify 开源 LLM 应用开发平台快速上手
Dify 让你用可视化界面构建 AI 应用,支持工作流编排、知识库和 Agent,无需写代码就能上线生产级 LLM 应用。
Meilisearch 轻量级搜索引擎本地部署
比 Elasticsearch 更易用的开源搜索引擎,毫秒级响应、拼写容错、同义词支持,单文件部署。