MiniCPM-o 4.5模型加载教程

项目地址

https://github.com/OpenBMB/MiniCPM-o

MiniCPM-o 4.5

MiniCPM-o 4.5 是 MiniCPM-o 系列中最新且性能最强的模型。该模型采用端到端方式构建,基于 SigLip2、Whisper-medium、CosyVoice2 和 Qwen3-8B,总参数量为 9B。其在性能上实现了显著提升,并引入了全新的全双工多模态实时流式交互能力。MiniCPM-o 4.5 的主要特性包括:

  • 🔥 领先的视觉能力 MiniCPM-o 4.5 在涵盖 8 个主流评测基准的 OpenCompass 综合评估中获得了 78.2 的平均分。仅凭 9B 参数,其视觉理解能力超越了 GPT-4o、Gemini 2.0 Pro 等广泛使用的商业模型,接近 Gemini 2.5 Flash 水平。 该模型在单一模型中同时支持指令模式和思考模式,能够更好地平衡不同使用场景下的效率与性能。
  • 🎙 强大的语音能力 MiniCPM-o 4.5 支持音色可配置的中英双语实时语音对话。其语音对话更加自然、富有表现力且稳定。该模型还支持更多有趣的功能,如通过简单的参考音频进行声音克隆和角色扮演,其声音克隆表现甚至超越了 CosyVoice2 等优秀 TTS 工具。
  • 🎬 全双工及主动多模态实时流式交互能力 MiniCPM-o 4.5 的一项核心新特性是能够以端到端的方式同时处理实时连续的视频和音频输入流,并同步生成文本和语音输出流,且互不阻塞。这使得 MiniCPM-o 4.5 能够同时“看、听、说”,提供流畅的实时全模态对话体验。除了被动响应,模型还能进行主动交互,例如基于对场景的实时持续理解,主动发起提醒或评论。
  • 💪 高效率、强悍的 OCR 能力及其他特性 MiniCPM-o 4.5 进一步优化了 MiniCPM-V 系列的众多视觉能力,可以高效处理任意长宽比的高分辨率图像(最高 180 万像素)和高帧率视频(最高 10fps)。其在 OmniDocBench 端到端英文文档解析测试中达到了业内顶尖水平,超越了 Gemini-3 Flash 和 GPT-5 等商业模型以及 DeepSeek-OCR 2 等专用工具。此外,它还具备可信的多模态行为,在 MMHal-Bench 上与 Gemini 2.5 Flash 相当,并支持超过 30 种语言
  • 💫 便捷的使用体验 MiniCPM-o 4.5 提供了多种便捷的使用方式:(1) 支持 llama.cpp 和 Ollama,以便在本地设备上进行高效的 CPU 推理;(2) 提供 16 种尺寸的 int4 和 GGUF 格式量化模型;(3) 支持 vLLM 和 SGLang,实现高吞吐、显存高效的推理;(4)FlagOS 使用 FlagOS 统一多芯片后端插件;(5) 支持通过 LLaMA-Factory 在新领域和任务上进行微调;(6) 提供服务器端在线 Web Demo。我们还同步推出了高性能的 llama.cpp-omni 推理框架以及 WebRTC Demo让全双工多模态实时流式交互体验在 PC 等本地设备上触手可及

text-generation-webui 加载 MiniCPM-o-4_5 模型

text-generation-webui 使用方法

方式 1:软件内直接下载模型

  1. 切换到顶部导航栏 Model 页面

  2. 下载模型:

    • Model name or path 输入框填写官方模型名:openbmb/MiniCPM-o-4_5
    • 点击旁边的 Download 按钮,开始自动下载模型
    • 等待下载完成(进度显示在终端)
  3. 加载模型:

    • 下载完成后,在下拉框选中该模型

    • 模型加载配置(低显存设备必选):

      • Loader:选择 AutoModelBitsAndBytes
      • 勾选 Load in 4-bit 开启 4bit 量化,降低显存占用
      • Device:选择 cuda(N 卡)/vulkan(通用加速)/cpu
    • 点击 Load 按钮,等待终端提示Model loaded successfully

方式 2:手动下载模型放入目录

  1. 访问 HF 镜像站 - MiniCPM-o-4_5
  2. 下载所有模型文件到解压目录下的 models/openbmb_MiniCPM-o-4_5/ 文件夹
  3. 回到 WebUI Model 页面,在下拉框选择该本地模型,加载即可

使用模型(文本对话 + 多模态图像识别)

模型加载完成后,切换功能页面开始使用:

1. 纯文本对话

  1. 切换到 Chat 页面
  2. 在输入框输入问题,点击 Generate 发送
  3. 支持连续对话、清空历史记录、调整生成参数

2. 多模态图像理解(核心功能)

  1. Chat 页面找到图片上传区域(Upload image)
  2. 上传本地图片(JPG/PNG 格式)
  3. 输入提示词(如:描述这张图片的内容),点击生成
  4. 模型会结合图片 + 文本输出结果

Vulkan 加速与性能优化配置

针对该便携版的 Vulkan 特性,优化运行速度、降低资源占用:

1. 显卡加速配置

  • NVIDIA 显卡:优先切换为cuda加速,性能优于 Vulkan
  • AMD/Intel 显卡:固定使用vulkan加速
  • 低显存设备:必须开启 4bit 量化,关闭Load in 8-bit

2. 生成参数优化

切换到 Parameters 页面,调整核心参数:

  • max_new_tokens:设置为 1024,降低内存占用
  • temperature:0.7(平衡随机性和准确性)
  • context window:1024~2048(根据内存调整)
原文链接: https://www.17you.com/ai/minicpmo4.5%E5%85%A8%E6%A8%A1%E6%80%81%E5%A4%A7%E6%A8%A1%E5%9E%8B/ 已复制!
一起薅AI羊毛

保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。

请点击联系我


相关内容