ACE-Step-1.5音乐生成模型评测

一、项目概述

ACE-Step-1.5 是一款高性能开源本地音乐生成模型,宣称性能超越多数商业音乐生成方案,核心优势在于兼顾商用级生成质量与轻量化本地部署能力,支持在消费级硬件上运行,同时提供丰富的音乐创作与编辑功能,适用于音乐艺术家、制作人及内容创作者等群体。

https://github.com/ace-step/ACE-Step-1.5

二、核心特性

1. 性能表现

  • 超快速生成:A100 显卡生成完整歌曲耗时不足 2 秒(因“思考模式”和扩散步骤不同,耗时 0.5-10 秒),RTX 3090 显卡耗时不足 10 秒。
  • 灵活时长支持:可生成 10 秒至 10 分钟(600 秒)的音频。
  • 批量生成:支持同时生成最多 8 首歌曲。
  • 低显存需求:本地运行仅需不到 4GB 显存,适配消费级 GPU。

2. 生成质量

  • 商用级输出:质量介于 Suno v4.5 与 Suno v5 之间,超越多数商业模型。
  • 丰富风格覆盖:支持 1000+ 乐器与音乐风格,可精细描述音色。
  • 多语言歌词:支持 50+ 语言的歌词提示,用于控制歌曲结构与风格。

3. 功能多样性与可控性

功能分类具体能力
输入与风格控制支持参考音频引导生成、封面生成、基于现有音频的重绘与编辑
音频处理音频轨道分离、多轨道生成(类似 Suno Studio“添加轨道”功能)、人声转伴奏(Vocal2BGM)
参数控制可自定义时长、BPM、调式/音阶、拍号,支持简单描述生成完整歌曲
智能辅助自动扩展标签与歌词(查询重写)、提取音频的 BPM/调式/拍号/描述、自动生成歌词时间戳(LRC)
模型个性化一键标注与 LoRA 训练(仅需 8 首歌曲、RTX 3090 显卡 1 小时即可完成,需 12GB 显存)
质量评估自动对生成音频进行质量评分

三、安装与部署

1. 环境要求

  • 编程语言:Python 3.11
  • 硬件:推荐 CUDA 显卡(支持 CPU/MPS 运行,但速度较慢),Windows 系统需 CUDA 12.8;支持 Intel GPU(如 Ultra 9 285H 核显,需 PyTorch 2.8.0 + Intel PyTorch 扩展)。

2. 安装方式

(1)Windows 便携包(推荐)

  • 步骤:下载并解压 ACE-Step-1.5.7z 包,内含预安装依赖的 python_embeded
  • 快速启动:通过批处理脚本操作,start_gradio_ui.bat 启动 Web 界面,start_api_server.bat 启动 REST API 服务。
  • 辅助工具:提供 check_update.bat(检查 GitHub 更新)、merge_config.bat(合并配置)、quick_test.bat(环境测试)等维护脚本。

(2)标准安装(全平台)

  1. 安装 uv 包管理器:
    • macOS/Linux:curl -LsSf https://astral.sh/uv/install.sh | sh
    • Windows(PowerShell):powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
  2. 克隆仓库并安装依赖:git clone https://github.com/ACE-Step/ACE-Step-1.5.git && cd ACE-Step-1.5 && uv sync
  3. 启动方式:
    • Web 界面(Gradio):uv run acesteppython acestep/acestep_v15_pipeline.py(需激活对应 Python 环境)。
    • REST API 服务:uv run acestep-apipython acestep/api_server.py,默认运行于 http://localhost:8001

3. 配置选项

  • 命令行参数:可指定端口(--port)、服务地址(--server-name)、语言(--language)、模型路径(--config_path/--lm_model_path)、下载源(--download-source)等。
  • 环境变量:通过 .env 文件配置(复制 .env.example 修改),支持控制 LLM 初始化(ACESTEP_INIT_LLM)、模型路径、下载源等。

四、模型下载与选择

1. 下载方式

  • 自动下载:首次运行时从 Hugging Face 或 ModelScope 自动下载(默认“自动检测”源,根据网络是否可访问 Google 选择;支持手动指定 --download-source modelscope/huggingface)。
  • 手动下载:
    • 用 CLI 命令:uv run acestep-download(支持下载指定模型、全量模型、自定义目录)。
    • huggingface-cli:如 huggingface-cli download ACE-Step/Ace-Step1.5 --local-dir ./checkpoints(下载核心模型)。

2. 可用模型

(1)核心模型与变体

模型类型模型名称描述Hugging Face 仓库
核心包ACE-Step/Ace-Step1.5含 VAE、Qwen3-Embedding-0.6B、acestep-v15-turbo、acestep-5Hz-lm-1.7BACE-Step/Ace-Step1.5
LM 模型acestep-5Hz-lm-0.6B轻量版(0.6B 参数)ACE-Step/acestep-5Hz-lm-0.6B
LM 模型acestep-5Hz-lm-4B大型版(4B 参数)ACE-Step/acestep-5Hz-lm-4B
DiT 模型acestep-v15-base基础版 DiTACE-Step/acestep-v15-base
DiT 模型acestep-v15-turboturbo 版 DiT(8 步生成)ACE-Step/acestep-v15-turbo

(2)模型选择建议(按 GPU 显存)

GPU 显存推荐 LM 模型说明
≤6GB无(仅用 DiT)默认禁用 LM 以节省内存
6-12GBacestep-5Hz-lm-0.6B轻量平衡,兼顾性能与质量
12-16GBacestep-5Hz-lm-1.7B质量更优
≥16GBacestep-5Hz-lm-4B最佳质量与音频理解能力

五、使用方式

提供 3 种核心使用途径,文档支持英、中、日三语言:

  1. Gradio Web UI:交互式界面,适合可视化操作,默认地址 http://localhost:7860
  2. Python API:可编程调用,便于集成到其他项目。
  3. REST API:HTTP 异步接口,支持服务化部署,参考 API Documentation

六、架构与技术亮点

  • 混合架构:以语言模型(LM)为“全能规划器”,将用户查询转换为完整歌曲蓝图(支持 10 分钟长曲),同时生成元数据、歌词、描述,引导扩散Transformer(DiT)生成音频。
  • 无偏对齐:通过模型内部机制的内在强化学习实现对齐,无需外部奖励模型或人类偏好数据,避免偏见。
  • 跨语言支持:严格遵循 50+ 语言的提示词,确保生成内容与输入匹配。

七、在线生成

The most powerful local music generation model that outperforms most commercial alternatives
https://acemusic.ai/

原文链接: https://www.17you.com/ai/%E5%BC%80%E6%BA%90%E6%9C%AC%E5%9C%B0%E9%9F%B3%E4%B9%90%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/ 已复制!
一起薅AI羊毛

保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。

请点击联系我


相关内容