检测本地硬件适配大模型LLM
目录
检测本地用户硬件配置(CPU、RAM、GPU),匹配适配的能流畅运行的本地大语言模型(LLM),目前已收录157个模型、支持30家提供商
一、核心特性
- 硬件自动检测:支持NVIDIA/AMD/Intel Arc/Apple Silicon等多品牌GPU,以及x86/ARM架构CPU,可识别多GPU配置,自动检测加速后端(CUDA/Metal/ROCm等),支持手动覆盖GPU显存检测结果。
- 智能模型适配:动态选择最优量化精度(从Q8_0到Q2_K),支持MoE混合专家架构模型(如Mixtral),会计算有效显存需求而非总参数量,按质量、速度、适配度、上下文能力四维打分并生成综合排名。
- 多模式运行:默认交互式TUI,支持模型搜索、筛选、详情查看,集成Ollama可直接下载模型;CLI模式支持各类子命令,所有输出可转为JSON格式,便于脚本/智能体调用。
- 丰富模型分类:涵盖通用、编码、推理、多模态、聊天、嵌入等类别,模型数据源自HuggingFace API,支持数据库自动更新。
二、安装方式
支持Windows/macOS/Linux多平台,提供多种安装途径:
- macOS/Linux快速安装:通过curl执行官方安装脚本,或使用Homebrew一键安装;
- 全平台Cargo安装:需先安装Rust,再执行
cargo install llmfit; - 源码编译:克隆GitHub仓库后通过
cargo build --release编译,二进制文件位于target/release/llmfit。
三、核心使用方法
- TUI模式:直接执行
llmfit,通过快捷键实现模型导航、搜索、筛选、下载、详情查看等操作,支持按适配度、提供商、是否安装排序; - CLI模式:通过
--cli或子命令操作,如llmfit system查看硬件信息、llmfit fit --perfect筛选完美适配模型、llmfit recommend获取模型推荐; - 显存覆盖:通过
--memory参数手动指定GPU显存(支持G/M/T后缀,大小写不敏感); - JSON输出:所有子命令添加
--json可获取机器可读结果,适用于自动化场景。
四、工作原理
- 硬件检测:通过sysinfo读取内存/CPU,通过nvidia-smi/rocm-smi等工具探测GPU,聚合多GPU显存,自动识别加速后端;
- 模型数据库:157个模型嵌入二进制文件,按量化层级计算显存需求,MoE模型单独计算激活专家的有效显存;
- 动态量化:从最高质量量化精度向下遍历,选择硬件可承载的最优精度,显存不足时尝试半上下文长度;
- 四维打分:各维度0-100分,按使用场景加权生成综合分(如聊天场景侧重速度,推理场景侧重质量);
- 速度估算:基于后端、模型参数量、量化精度计算tokens/sec,对CPU卸载、MoE专家切换等场景施加性能惩罚;
- 适配分析:将模型运行模式分为GPU/MoE/CPU+GPU/CPU,适配等级分为Perfect/Good/Marginal/Too Tight。
五、关键集成
1. Ollama集成
- 自动检测本地已安装的Ollama模型,在TUI中标注安装状态;
- 支持从TUI直接发送指令下载模型,实时展示下载进度;
- 维护HuggingFace与Ollama模型名的精准映射,确保下载匹配。
2. OpenClaw集成
- 作为OpenClaw智能体技能,可实现硬件感知的模型推荐、Ollama/vLLM等提供商自动配置;
- 安装后可通过自然语言向OpenClaw询问适配模型,智能体将调用llmfit的JSON接口解析结果。
六、平台与GPU支持
- 平台:Linux全支持;macOS(Apple Silicon)全支持,Metal加速;macOS(Intel)支持内存/CPU检测,有NVIDIA GPU时可检测;Windows支持内存/CPU检测,有NVIDIA GPU时可检测。
- GPU:NVIDIA通过nvidia-smi获取精确显存;AMD通过rocm-smi检测;Intel Arc独显通过sysfs获取显存,核显为共享内存;Apple Silicon使用统一内存(与系统RAM一致)。
原文链接:
https://www.17you.com/tool/llmfit%E6%A8%A1%E5%9E%8B%E9%80%82%E9%85%8D%E7%BB%88%E7%AB%AF/
已复制!
脚本编程和自动化工具
寻找技术支持帮助和技术合伙人一起搞事。