手把手教程:在Windows和Ubuntu上部署高性能本地AI大模型引擎llama.cpp

llama.cpp 是轻量级、高性能的本地 LLM 推理引擎,纯 C/C++ 实现,无冗余依赖,支持 GGUF 模型量化、多硬件加速(CPU/GPU)、多模态推理,是本地部署翻译 / 对话类 LLM 的核心工具。

下载最新版本资源:

llama.cpp Release下载对应系统的预编译包

  • cpu版本
  • NVDIA显卡选择 CUDA 12 或者 CUDA 13
  • AMD、Intel 显卡选择 Vulkan (跨厂商​ (NVIDIA, AMD, Intel))
  • SYCL 版本 (Intel GPU 专用)
  • SYCL​ 是一个基于 C++ 的跨平台并行编程模型,在 llama.cpp 中主要用于利用 Intel GPU(如 Arc 系列、数据中心 GPU 或集成显卡)进行加速。
  • 适用硬件:Intel Arc A770/A750、Intel Data Center GPU Max/Flex 系列、Intel 集成显卡。
  • HIP 版本 (AMD GPU 专用)
  • HIP​ 是 AMD 推出的异构计算接口,允许开发者编写可以在 AMD 和 NVIDIA GPU 上运行的代码。在 llama.cpp 中,它用于在 AMD GPU​ 上运行模型。
  • 适用硬件:AMD Radeon RX 6000/7000 系列、Instinct 系列。
  • 核心依赖:ROCm(Radeon Open Compute platform)。
  • 将解压后的目录路径(如 D:\llama)添加到系统的 PATH环境变量中

克隆源码编译:

如果你需要最新的功能或自定义编译选项,可以选择源码编译。
安装编译环境

  • Visual Studio:安装 Visual Studio 2022 或更高版本,并勾选“使用 C++ 的桌面开发”和“Windows 11 SDK”。
  • CMake:安装最新版 CMake。
  • CUDA(可选):如果编译 GPU 版,需安装 CUDA Toolkit。
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
# 1. 克隆代码
git clone https://github.com/ggml-org/llama.cpp.git
cd llama.cpp

# 2. 创建构建目录
mkdir build
cd build

# 3. 配置编译选项
# 仅 CPU 编译
cmake .. -G "Visual Studio 17 2022" -A x64
# 启用 CUDA 编译
cmake .. -G "Visual Studio 17 2022" -A x64 -DLLAMA_CUDA=ON

# 4. 开始编译
cmake --build . --config Release

模型下载 GGUF 格式模型(如 Llama-3、LLaVA、Gemma 3):

运行模型

打开命令行(CMD 或 PowerShell),切换到 llama.cpp目录,执行以下命令启动交互式聊天:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
# 基础命令(CPU 运行)
llama-cli.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" -i

# 启用 GPU 加速(NVIDIA)
llama-cli.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" -ngl 35 -i

# 启动 API 服务器(支持 OpenAI 格式调用)
llama-server.exe -m "models\qwen2.5-7b-instruct-q4_k_m.gguf" --host 127.0.0.1 --port 8080

# 允许局域网访问
llama-server.exe -m "model.gguf" --host 0.0.0.0 --port 8080

核心参数详解

参数全称说明
-m--model必填。指定 GGUF 模型文件的路径。
-ngl--n-gpu-layersGPU 核心参数。指定将多少层模型加载到 GPU 显存中。通常设置为 35或 99(全量加载),显存不足时可调小。
-c--ctx-size上下文长度。默认为 512,建议根据模型能力设为 4096 或更高。
-t--threadsCPU 线程数。默认为自动检测,可手动指定以优化性能。
-i--interactive单轮指令,它会为你的当前输入生成回复,但默认不会记住历史。默认每次输入都是全新的、独立的,不携带历史。(第二个问题不会受第一个问题影响)只在 llama-cli 中配置
-cnv--conversation开启交互式对话模式。在此模式下,程序会记住上下文,你可以像与真人聊天一样进行多轮对话,无需每次输入都携带完整的上下文历史。(第二个问题会受第一个问题影响)只在 llama-cli 中配置
--host-服务器模式下的监听地址,默认为 127.0.0.1
--port-服务器模式下的端口号,默认为 8080
-b​-b 512批处理大小,影响首字延迟。512或 1024
–mlock​--mlock锁定内存,防止被系统换出。推荐开启
–no-mmap​--no-mmap禁用内存映射,提升加载速度。推荐开启
–temp​--temp 0.7生成温度,控制随机性。0.7(对话) / 0.0(代码)
–api-key​--api-key xxx设置API密钥,增加安全性。
-np​–n-parallel并行处理请求数(服务器模式)。

版本验证

1
2
3
4
5
# Win11
./llama-cli.exe --version  # 输出 b8370 则为目标版本

# Ubuntu
./llama-cli --version
原文链接: https://www.17you.com/tool/llama-cpp-local-llm-install-guide/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容