涵盖显卡选型、安装、模型选择、GPU 验证、API 接入、日常运维。


一、硬件选型

显卡类型 推荐型号 显存 可跑模型 备注
NVIDIA(首选) RTX 3060 12GB 12GB 7B~14B Ollama 原生支持 CUDA,插上即用
RTX 4060 Ti 16GB 16GB 7B~14B 流畅 显存大,可上 32B 量化版
RTX 4070 / 4080 12~16GB 14B~32B 速度快,价格高
AMD(可用) RX 5500 XT / RX 6600 8GB 7B(Q4) 需 Radeon 驱动,部分型号可能回退 CPU
RX 7800 XT / 7900 GRE 16GB 7B~14B 新架构支持较好
无独显 CPU 推理 3B 极慢,仅测试用

二、安装

  1. ollama.com/download 下载 OllamaSetup.exe
  2. 双击安装,右下角出现羊驼图标
  3. 验证:ollama --version

三、模型选型

需求 推荐模型 显存占用
中文 + 编程 + 工具调用 qwen2.5:7b ~5GB
编程专用 deepseek-coder:6.7b ~4GB
英文通用 llama3.1:8b ~5GB
速度优先 llama3.2:3b ~2GB
更大规模(16GB 显存) qwen2.5:14b ~9GB

powershell

ollama pull qwen2.5:7b

四、运行

powershell

# 单次问答
ollama run qwen2.5:7b "你好"

# 交互式
ollama run qwen2.5:7b

# 多轮对话(带系统提示词)
ollama chat --model qwen2.5:7b --system "你是Linux专家"

五、GPU 加速验证

  1. 跑模型时打开任务管理器 → 性能 → GPU,观察占用是否飙升
  2. 或退出后台服务(托盘右键 Quit),运行 ollama serve,日志出现 found compatible GPU 即成功

NVIDIA:需安装 560.xx+ 驱动,Ollama 自动识别
AMD:需安装最新 Radeon 驱动,部分型号可能因架构回退 CPU


六、接入 Trae

配置项
API 地址 http://localhost:11434/v1
模型 ID qwen2.5:7b
API 密钥 任意填写

七、常用命令

操作 命令
查看模型 ollama list
下载 ollama pull <模型名>
删除 ollama rm <模型名>
更新 ollama pull <模型名>
验证 API curl http://localhost:11434/api/tags

八、运维与注意

操作 方法
启动/停止 托盘图标点击/Quit
查看日志 ollama serve(先 Quit)或 %USERPROFILE%\AppData\Local\Ollama\logs
端口冲突 ollama serve 报错说明已在后台运行,无需处理
下载慢 设置代理环境变量后再 pull
修改模型目录 环境变量 OLLAMA_MODELS

九、故障速查

现象 解决
model not found ollama pull <模型名>
connection refused 启动 Ollama
GPU 占用 0% 更新显卡驱动;AMD 换 LM Studio
CUDA driver insufficient 更新 NVIDIA 驱动 ≥ 560.xx

0 条评论

发表回复

您的电子邮箱地址不会被公开。