检测本地硬件适配大模型LLM

检测本地用户硬件配置(CPU、RAM、GPU),匹配适配的能流畅运行的本地大语言模型(LLM),目前已收录157个模型、支持30家提供商

一、核心特性

  1. 硬件自动检测:支持NVIDIA/AMD/Intel Arc/Apple Silicon等多品牌GPU,以及x86/ARM架构CPU,可识别多GPU配置,自动检测加速后端(CUDA/Metal/ROCm等),支持手动覆盖GPU显存检测结果。
  2. 智能模型适配:动态选择最优量化精度(从Q8_0到Q2_K),支持MoE混合专家架构模型(如Mixtral),会计算有效显存需求而非总参数量,按质量、速度、适配度、上下文能力四维打分并生成综合排名。
  3. 多模式运行:默认交互式TUI,支持模型搜索、筛选、详情查看,集成Ollama可直接下载模型;CLI模式支持各类子命令,所有输出可转为JSON格式,便于脚本/智能体调用。
  4. 丰富模型分类:涵盖通用、编码、推理、多模态、聊天、嵌入等类别,模型数据源自HuggingFace API,支持数据库自动更新。

二、安装方式

支持Windows/macOS/Linux多平台,提供多种安装途径:

  1. macOS/Linux快速安装:通过curl执行官方安装脚本,或使用Homebrew一键安装;
  2. 全平台Cargo安装:需先安装Rust,再执行cargo install llmfit
  3. 源码编译:克隆GitHub仓库后通过cargo build --release编译,二进制文件位于target/release/llmfit

三、核心使用方法

  1. TUI模式:直接执行llmfit,通过快捷键实现模型导航、搜索、筛选、下载、详情查看等操作,支持按适配度、提供商、是否安装排序;
  2. CLI模式:通过--cli或子命令操作,如llmfit system查看硬件信息、llmfit fit --perfect筛选完美适配模型、llmfit recommend获取模型推荐;
  3. 显存覆盖:通过--memory参数手动指定GPU显存(支持G/M/T后缀,大小写不敏感);
  4. JSON输出:所有子命令添加--json可获取机器可读结果,适用于自动化场景。

四、工作原理

  1. 硬件检测:通过sysinfo读取内存/CPU,通过nvidia-smi/rocm-smi等工具探测GPU,聚合多GPU显存,自动识别加速后端;
  2. 模型数据库:157个模型嵌入二进制文件,按量化层级计算显存需求,MoE模型单独计算激活专家的有效显存;
  3. 动态量化:从最高质量量化精度向下遍历,选择硬件可承载的最优精度,显存不足时尝试半上下文长度;
  4. 四维打分:各维度0-100分,按使用场景加权生成综合分(如聊天场景侧重速度,推理场景侧重质量);
  5. 速度估算:基于后端、模型参数量、量化精度计算tokens/sec,对CPU卸载、MoE专家切换等场景施加性能惩罚;
  6. 适配分析:将模型运行模式分为GPU/MoE/CPU+GPU/CPU,适配等级分为Perfect/Good/Marginal/Too Tight。

五、关键集成

1. Ollama集成

  • 自动检测本地已安装的Ollama模型,在TUI中标注安装状态;
  • 支持从TUI直接发送指令下载模型,实时展示下载进度;
  • 维护HuggingFace与Ollama模型名的精准映射,确保下载匹配。

2. OpenClaw集成

  • 作为OpenClaw智能体技能,可实现硬件感知的模型推荐、Ollama/vLLM等提供商自动配置;
  • 安装后可通过自然语言向OpenClaw询问适配模型,智能体将调用llmfit的JSON接口解析结果。

六、平台与GPU支持

  1. 平台:Linux全支持;macOS(Apple Silicon)全支持,Metal加速;macOS(Intel)支持内存/CPU检测,有NVIDIA GPU时可检测;Windows支持内存/CPU检测,有NVIDIA GPU时可检测。
  2. GPU:NVIDIA通过nvidia-smi获取精确显存;AMD通过rocm-smi检测;Intel Arc独显通过sysfs获取显存,核显为共享内存;Apple Silicon使用统一内存(与系统RAM一致)。
原文链接: https://www.17you.com/tool/llmfit%E6%A8%A1%E5%9E%8B%E9%80%82%E9%85%8D%E7%BB%88%E7%AB%AF/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容