OpenClaw对接本地Llama模型完整配置指南:Ubuntu与Win11详细教程
目录
OpenClaw 配置使用 llama.cpp 部署的本地模型
OpenClaw 可无缝对接 llama.cpp 部署的本地模型(HTTP 服务)
以下是针对 Ubuntu/Win11 系统的精准配置步骤,适配 llama.cpp b8370 版本。
核心前提
- 已完成 llama.cpp 安装(预编译/源码编译),并能正常启动 HTTP 服务器;
- OpenClaw 已安装(下载地址:OpenClaw Releases,选择对应系统版本);
- 本地有可用的 GGUF 模型(如 Llama-3-8B-Q4_K_M.gguf)。
第一步:启动 llama.cpp HTTP 服务器(关键)
OpenClaw 仅支持通过 OpenAI 兼容 API 调用 llama.cpp 模型,需先启动 llama.cpp 的 llama-server 服务:
| |
参数说明:
--n-gpu-layers 99:把所有层都放 GPU(Metal(金属)),这是 Apple Silicon 性能的关键--ctx-size 32768:上下文窗口大小。别用默认的 8192,后面会讲为什么--flash-attn on:开启 Flash(闪光) Attention(注意),省显存且更快--alias "Llama-3":给模型取个别名--api-key none: 关闭 API Key 验证(简化配置)
验证服务器是否正常
| |
第二步:OpenClaw 基础配置
用 OpenClaw 自带命令配置 auth
不要手动改 auth.json,直接用 OpenClaw 的命令:
| |
它会问你两个问题:
- Ollama mode(模式) → 选
Local only - Ollama base(基地) URL → 填
http://127.0.0.1:8080(注意不是 11434!)
这一步会自动写好auth-profiles.json和更新openclaw.json。
确认 openclaw.json 配置
打开 ~/.openclaw/openclaw.json,检查 ollama 部分:
| |
关键检查点:
baseUrl是http://127.0.0.1:8080(不带/v1)apiKey是"ollama-local"- 模型
id要跟 llama-server(服务器) 的--alias完全一致
调整推理参数(优化回答质量)
在openclaw配置页面,model设置中,配置:
| 温度(temp) | 0.1-0.3 | 越低回答越精准(翻译/问答) |
| 重复惩罚 | 1.1 | 避免模型重复输出 |
| 上下文窗口 | 4096 | 与 llama-server 保持一致 |
批量部署多模型(切换使用)
若需在 OpenClaw 中切换多个 llama.cpp 模型,可启动多个 llama-server 实例(不同端口):
| |
然后在 OpenClaw 中添加两个「模型服务」(分别对应 8080/8081 端口),即可自由切换。
模型调用返回「模型不存在」
- 原因:OpenClaw 中添加的「模型名称」与 llama.cpp 模型标识不匹配;
- 解决:
- 查看 llama-server 日志,找到模型的
name字段; - 在 OpenClaw 「模型管理」中,修改模型名称为日志中的值。
- 查看 llama-server 日志,找到模型的
回答速度慢
- 原因:未启用 GPU 加速,或线程数不足;
- 解决:
- 启动 llama-server 时添加
-ngl 99(GPU 加速)和-t 8(CPU 线程数,设为物理核心数); - 降低模型量化等级(如 Q4_K_M 换 Q3_K_M),减少显存占用。
- 启动 llama-server 时添加
原文链接:
https://www.17you.com/programming/openclaw-configure-llamacpp-local-model-deployment/
已复制!
编程和技术
寻找技术支持帮助和技术合伙人一起搞事。
相关内容
- OpenClaw 2026.4.11版本更新:记忆维基与主动记忆功能详解
- OpenClaw 2026.4.9 更新:记忆系统强化,视频图像生成进核心
- QClaw客户端架构与Queue Guard排队机制探索
- 飞书妙搭限免OpenClaw:零代码部署AI助手,每日送百万Tokens
- OpenClaw远程上门部署与安全加固全套服务
- Mozilla Thunderbolt:企业级AI安全可控解决方案
收录于 合集・AI技术教程 71