VoxCPM.cpp开源TTS语音合成与声音克隆推理引擎

VoxCPM.cpp 是 VoxCPM(OpenBMB 团队开发的无分词器 TTS 模型)的 C++ 原生推理实现,基于 ggml 库构建,专注于高效、轻量、跨平台的语音合成与声音克隆。它提供了比 Python 版更低的延迟、更小的内存占用以及更好的硬件利用率,并支持 GGUF 量化模型、CPU、CUDA、Vulkan 多平台部署,以及 OpenAI 兼容的 API 接口。

项目定位与核心目标

  • 官方原生推理:替代 Python 版本,提供更低延迟、更小内存占用、更好硬件利用率。
  • GGUF 权重支持:加载 VoxCPM‑GGUF 量化模型(Q4_K、Q8_0、F16、F32)。
  • 跨平台部署:支持 CPU、CUDA、Vulkan,适用于本地、服务器及边缘设备。
  • OpenAI 兼容 API:提供标准 TTS 服务接口,便于集成。

技术架构(关键特点)

  • 基于 ggml 高性能推理

    • 纯 C++ 实现,无 Python 依赖
    • 支持量化加速(Q4_K、Q8_0)
    • 低内存占用:量化后模型仅 2.6 GB–9.4 GB
  • VoxCPM 核心能力(继承自原模型)

    • 无分词器(Tokenizer‑Free):直接文本 → 连续音频特征
    • 零样本声音克隆:3–10 秒参考音频即可克隆音色
    • 上下文感知:理解文本语义,生成自然韵律与情感
    • 多语言支持:中英双语,兼容 30+ 语言
  • 支持 VoxCPM2

    • 已兼容 VoxCPM2(48 kHz 更高音质)
    • AudioVAE V2:输出 48 kHz 高保真音频

主要功能

  • 命令行 TTS 推理(voxcpm_tts)

    • 文本转语音
    • 参考音频 + 参考文本 → 克隆音色
    • 支持 CPU / CUDA / Vulkan
  • OpenAI 兼容 API 服务(voxcpm‑server)

    • /v1/voices:注册/查询/删除音色
    • /v1/audio/speech:文本 → 语音(mp3 / wav / flac / pcm)
    • 支持流式输出(SSE)
  • 模型量化与性能基准

    • 支持导出 Q4_K / Q8_0 / F16 / F32 权重
    • 提供 RTF(实时因子)基准测试

性能表现(关键指标)

  • CPU(i5‑12600K)

    • voxcpm‑0.5b Q4_K:RTF 3.609(1 秒语音≈3.6 秒生成)
    • voxcpm1.5 Q8_0:RTF 4.291
  • CUDA(RTX 4060 Ti)

    • voxcpm‑0.5b Q4_K:RTF 0.550(接近实时)
    • voxcpm1.5 Q8_0 + AudioVAE‑F16:RTF 0.559
  • 模型大小(GGUF)

    • Q4_K:2.63 GB(最小)
    • Q8_0:4.38 GB
    • F16:8.02 GB
    • F32:16.01 GB

优势对比(vs Python 版)

  • 速度:快 2–5 倍(CPU / CUDA)
  • 内存:降低 30–60%(量化更高效)
  • 部署:无 Python 依赖,单二进制文件
  • 稳定性:长期运行无内存泄漏
  • 集成:C++ / C 直接调用,适合嵌入式、游戏、后端

适用场景

  • 本地离线 TTS:隐私优先、无网络
  • 声音克隆应用:配音、虚拟人、播客
  • API 服务:企业级 TTS 服务、高并发
  • 边缘设备:嵌入式、车载、机器人
  • 低资源设备:低配 CPU、笔记本

快速上手(最简步骤)

  • 克隆仓库

    1
    2
    
    git clone https://github.com/bluryar/VoxCPM.cpp
    cd VoxCPM.cpp
  • 编译(CPU)

    1
    2
    
    cmake -B build
    cmake --build build
  • 下载 GGUF 模型(推荐 voxcpm1.5-q8_0-audiovae-f16.gguf

  • 命令行推理

    1
    2
    3
    4
    5
    6
    7
    
    ./build/examples/voxcpm_tts \
      --model-path ./models/voxcpm1.5-q8_0-audiovae-f16.gguf \
      --prompt-audio ./examples/tai_yi_xian_ren.wav \
      --prompt-text "对,这就是我,万人敬仰的太乙真人。" \
      --text "大家好,我现在正在体验AI科技。" \
      --output ./out.wav \
      --backend cpu

总结

VoxCPM.cpp 是 VoxCPM 的高性能、轻量、跨平台 C++ 推理引擎,核心优势包括:

  • 原生 C++ + ggml:速度快、内存小、无 Python 依赖
  • GGUF 量化:支持 Q4_K / Q8_0 / F16 / F32
  • 完整 TTS + 声音克隆功能
  • OpenAI 兼容 API
  • CPU / CUDA / Vulkan 全平台支持

如果需要在本地实现高效、稳定、低资源的 VoxCPM 推理,VoxCPM.cpp 是最佳选择。

原文链接: https://www.17you.com/tool/voxcpm-cpp-ggml-tts-inference/ 已复制!
脚本编程和自动化工具

寻找技术支持帮助和技术合伙人一起搞事。

请点击联系我


相关内容