手把手教程：在Windows和Ubuntu上部署高性能本地AI大模型引擎llama.cpp

辉哥收录于实用工具与脚本和 AI技术教程 Ubuntu

2026-03-16 2026-04-30 约 1500 字预计阅读 3 分钟

llama.cpp 是轻量级、高性能的本地 LLM 推理引擎，纯 C/C++ 实现，无冗余依赖，支持 GGUF 模型量化、多硬件加速（CPU/GPU）、多模态推理，是本地部署翻译 / 对话类 LLM 的核心工具。

下载最新版本资源：

从 llama.cpp Release下载对应系统的预编译包

cpu版本
NVDIA显卡选择 CUDA 12 或者 CUDA 13
AMD、Intel 显卡选择 Vulkan (跨厂商 (NVIDIA, AMD, Intel))
SYCL 版本 (Intel GPU 专用)
SYCL 是一个基于 C++ 的跨平台并行编程模型，在 llama.cpp 中主要用于利用 Intel GPU（如 Arc 系列、数据中心 GPU 或集成显卡）进行加速。
适用硬件：Intel Arc A770/A750、Intel Data Center GPU Max/Flex 系列、Intel 集成显卡。
HIP 版本 (AMD GPU 专用)
HIP 是 AMD 推出的异构计算接口，允许开发者编写可以在 AMD 和 NVIDIA GPU 上运行的代码。在 llama.cpp 中，它用于在 AMD GPU 上运行模型。
适用硬件：AMD Radeon RX 6000/7000 系列、Instinct 系列。
核心依赖：ROCm（Radeon Open Compute platform）。
将解压后的目录路径（如 D:\llama）添加到系统的 PATH环境变量中

克隆源码编译：

如果你需要最新的功能或自定义编译选项，可以选择源码编译。
安装编译环境

Visual Studio：安装 Visual Studio 2022 或更高版本，并勾选“使用 C++ 的桌面开发”和“Windows 11 SDK”。
CMake：安装最新版 CMake。
CUDA（可选）：如果编译 GPU 版，需安装 CUDA Toolkit。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# 1. 克隆代码
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 2. 创建构建目录
mkdir build
cd build

# 3. 配置编译选项
# 仅 CPU 编译
cmake .. -G "Visual Studio 17 2022" -A x64
# 启用 CUDA 编译
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CUDA=ON

# 4. 开始编译
cmake --build . --config Release

模型下载 GGUF 格式模型（如 Llama-3、LLaVA、Gemma 3）：

推荐从 Hugging Face GGUF 仓库获取，需注意模型量化版本（如 Q4_0、Q8_0）适配硬件。
魔搭社区： https://modelscope.cn/aigc/models
中国镜像： https://hf-mirror.com/
将模型放在 SSD 目录，减少磁盘 IO 耗时。
LLM量化等级说明

运行模型

打开命令行（CMD 或 PowerShell），切换到 llama.cpp目录，执行以下命令启动交互式聊天：

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 基础命令（CPU 运行）
llama-cli.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" -i

# 启用 GPU 加速（NVIDIA）
llama-cli.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" -ngl 35 -i

# 启动 API 服务器（支持 OpenAI 格式调用）
llama-server.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" --host 127.0.0.1 --port 8080

# 允许局域网访问
llama-server.exe -m "model.gguf" --host 0.0.0.0 --port 8080

核心参数详解

参数	全称	说明
`-m`	`--model`	必填。指定 GGUF 模型文件的路径。
`-ngl`	`--n-gpu-layers`	GPU 核心参数。指定将多少层模型加载到 GPU 显存中。通常设置为 `35`或 `99`（全量加载），显存不足时可调小。
`-c`	`--ctx-size`	上下文长度。默认为 512，建议根据模型能力设为 4096 或更高。
`-t`	`--threads`	CPU 线程数。默认为自动检测，可手动指定以优化性能。
`-i`	`--interactive`	单轮指令,它会为你的当前输入生成回复，但默认不会记住历史。默认每次输入都是全新的、独立的，不携带历史。（第二个问题不会受第一个问题影响）只在 llama-cli 中配置
`-cnv`	`--conversation`	开启交互式对话模式。在此模式下，程序会记住上下文，你可以像与真人聊天一样进行多轮对话，无需每次输入都携带完整的上下文历史。（第二个问题会受第一个问题影响）只在 llama-cli 中配置
`--host`	-	服务器模式下的监听地址，默认为 `127.0.0.1`。
`--port`	-	服务器模式下的端口号，默认为 `8080`。
-b	`-b 512`	批处理大小，影响首字延迟。`512`或 `1024`
–mlock	`--mlock`	锁定内存，防止被系统换出。推荐开启
–no-mmap	`--no-mmap`	禁用内存映射，提升加载速度。推荐开启
–temp	`--temp 0.7`	生成温度，控制随机性。`0.7`(对话) / `0.0`(代码)
–api-key	`--api-key xxx`	设置API密钥，增加安全性。
-np	–n-parallel	并行处理请求数（服务器模式）。

版本验证

1
2
3
4
5
# Win11
./llama-cli.exe --version  # 输出 b8370 则为目标版本

# Ubuntu
./llama-cli --version

原文链接： https://www.17you.com/tool/llama-cpp-local-llm-install-guide/ 已复制！

脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我

手把手教程：在Windows和Ubuntu上部署高性能本地AI大模型引擎llama.cpp

下载最新版本资源：

从 llama.cpp Release下载对应系统的预编译包

克隆源码编译：

模型下载 GGUF 格式模型（如 Llama-3、LLaVA、Gemma 3）：

运行模型

核心参数详解

版本验证

相关内容