手把手教程:在Windows和Ubuntu上部署高性能本地AI大模型引擎llama.cpp
目录
llama.cpp 是轻量级、高性能的本地 LLM 推理引擎,纯 C/C++ 实现,无冗余依赖,支持 GGUF 模型量化、多硬件加速(CPU/GPU)、多模态推理,是本地部署翻译 / 对话类 LLM 的核心工具。
下载最新版本资源:
从 llama.cpp Release下载对应系统的预编译包
- cpu版本
- NVDIA显卡选择 CUDA 12 或者 CUDA 13
- AMD、Intel 显卡选择 Vulkan (跨厂商 (NVIDIA, AMD, Intel))
- SYCL 版本 (Intel GPU 专用)
- SYCL 是一个基于 C++ 的跨平台并行编程模型,在 llama.cpp 中主要用于利用 Intel GPU(如 Arc 系列、数据中心 GPU 或集成显卡)进行加速。
- 适用硬件:Intel Arc A770/A750、Intel Data Center GPU Max/Flex 系列、Intel 集成显卡。
- HIP 版本 (AMD GPU 专用)
- HIP 是 AMD 推出的异构计算接口,允许开发者编写可以在 AMD 和 NVIDIA GPU 上运行的代码。在 llama.cpp 中,它用于在 AMD GPU 上运行模型。
- 适用硬件:AMD Radeon RX 6000/7000 系列、Instinct 系列。
- 核心依赖:ROCm(Radeon Open Compute platform)。
- 将解压后的目录路径(如
D:\llama)添加到系统的PATH环境变量中
克隆源码编译:
如果你需要最新的功能或自定义编译选项,可以选择源码编译。
安装编译环境
- Visual Studio:安装 Visual Studio 2022 或更高版本,并勾选“使用 C++ 的桌面开发”和“Windows 11 SDK”。
- CMake:安装最新版 CMake。
- CUDA(可选):如果编译 GPU 版,需安装 CUDA Toolkit。
| |
模型下载 GGUF 格式模型(如 Llama-3、LLaVA、Gemma 3):
- 推荐从 Hugging Face GGUF 仓库 获取,需注意模型量化版本(如 Q4_0、Q8_0)适配硬件。
- 魔搭社区: https://modelscope.cn/aigc/models
- 中国镜像: https://hf-mirror.com/
- 将模型放在 SSD 目录,减少磁盘 IO 耗时。
- LLM量化等级说明
运行模型
打开命令行(CMD 或 PowerShell),切换到 llama.cpp目录,执行以下命令启动交互式聊天:
| |
核心参数详解
| 参数 | 全称 | 说明 |
|---|---|---|
-m | --model | 必填。指定 GGUF 模型文件的路径。 |
-ngl | --n-gpu-layers | GPU 核心参数。指定将多少层模型加载到 GPU 显存中。通常设置为 35或 99(全量加载),显存不足时可调小。 |
-c | --ctx-size | 上下文长度。默认为 512,建议根据模型能力设为 4096 或更高。 |
-t | --threads | CPU 线程数。默认为自动检测,可手动指定以优化性能。 |
-i | --interactive | 单轮指令,它会为你的当前输入生成回复,但默认不会记住历史。默认每次输入都是全新的、独立的,不携带历史。(第二个问题不会受第一个问题影响)只在 llama-cli 中配置 |
-cnv | --conversation | 开启交互式对话模式。在此模式下,程序会记住上下文,你可以像与真人聊天一样进行多轮对话,无需每次输入都携带完整的上下文历史。(第二个问题会受第一个问题影响)只在 llama-cli 中配置 |
--host | - | 服务器模式下的监听地址,默认为 127.0.0.1。 |
--port | - | 服务器模式下的端口号,默认为 8080。 |
| -b | -b 512 | 批处理大小,影响首字延迟。512或 1024 |
| –mlock | --mlock | 锁定内存,防止被系统换出。推荐开启 |
| –no-mmap | --no-mmap | 禁用内存映射,提升加载速度。推荐开启 |
| –temp | --temp 0.7 | 生成温度,控制随机性。0.7(对话) / 0.0(代码) |
| –api-key | --api-key xxx | 设置API密钥,增加安全性。 |
| -np | –n-parallel | 并行处理请求数(服务器模式)。 |
版本验证
| |
原文链接:
https://www.17you.com/tool/llama-cpp-local-llm-install-guide/
已复制!
脚本编程和自动化工具
寻找技术支持帮助和技术合伙人一起搞事。