涵盖显卡选型、安装、模型选择、GPU 验证、API 接入、日常运维。
一、硬件选型
| 显卡类型 |
推荐型号 |
显存 |
可跑模型 |
备注 |
| NVIDIA(首选) |
RTX 3060 12GB |
12GB |
7B~14B |
Ollama 原生支持 CUDA,插上即用 |
|
RTX 4060 Ti 16GB |
16GB |
7B~14B 流畅 |
显存大,可上 32B 量化版 |
|
RTX 4070 / 4080 |
12~16GB |
14B~32B |
速度快,价格高 |
| AMD(可用) |
RX 5500 XT / RX 6600 |
8GB |
7B(Q4) |
需 Radeon 驱动,部分型号可能回退 CPU |
|
RX 7800 XT / 7900 GRE |
16GB |
7B~14B |
新架构支持较好 |
| 无独显 |
CPU 推理 |
— |
3B |
极慢,仅测试用 |
二、安装
- ollama.com/download 下载
OllamaSetup.exe
- 双击安装,右下角出现羊驼图标
- 验证:
ollama --version
三、模型选型
| 需求 |
推荐模型 |
显存占用 |
| 中文 + 编程 + 工具调用 |
qwen2.5:7b |
~5GB |
| 编程专用 |
deepseek-coder:6.7b |
~4GB |
| 英文通用 |
llama3.1:8b |
~5GB |
| 速度优先 |
llama3.2:3b |
~2GB |
| 更大规模(16GB 显存) |
qwen2.5:14b |
~9GB |
powershell
ollama pull qwen2.5:7b
四、运行
powershell
# 单次问答
ollama run qwen2.5:7b "你好"
# 交互式
ollama run qwen2.5:7b
# 多轮对话(带系统提示词)
ollama chat --model qwen2.5:7b --system "你是Linux专家"
五、GPU 加速验证
- 跑模型时打开任务管理器 → 性能 → GPU,观察占用是否飙升
- 或退出后台服务(托盘右键 Quit),运行
ollama serve,日志出现 found compatible GPU 即成功
NVIDIA:需安装 560.xx+ 驱动,Ollama 自动识别
AMD:需安装最新 Radeon 驱动,部分型号可能因架构回退 CPU
六、接入 Trae
| 配置项 |
值 |
| API 地址 |
http://localhost:11434/v1 |
| 模型 ID |
qwen2.5:7b |
| API 密钥 |
任意填写 |
七、常用命令
| 操作 |
命令 |
| 查看模型 |
ollama list |
| 下载 |
ollama pull <模型名> |
| 删除 |
ollama rm <模型名> |
| 更新 |
ollama pull <模型名> |
| 验证 API |
curl http://localhost:11434/api/tags |
八、运维与注意
| 操作 |
方法 |
| 启动/停止 |
托盘图标点击/Quit |
| 查看日志 |
ollama serve(先 Quit)或 %USERPROFILE%\AppData\Local\Ollama\logs |
| 端口冲突 |
ollama serve 报错说明已在后台运行,无需处理 |
| 下载慢 |
设置代理环境变量后再 pull |
| 修改模型目录 |
环境变量 OLLAMA_MODELS |
九、故障速查
| 现象 |
解决 |
model not found |
ollama pull <模型名> |
connection refused |
启动 Ollama |
| GPU 占用 0% |
更新显卡驱动;AMD 换 LM Studio |
CUDA driver insufficient |
更新 NVIDIA 驱动 ≥ 560.xx |
0 条评论