ACE-Step-1.5音乐生成模型评测
目录
一、项目概述
ACE-Step-1.5 是一款高性能开源本地音乐生成模型,宣称性能超越多数商业音乐生成方案,核心优势在于兼顾商用级生成质量与轻量化本地部署能力,支持在消费级硬件上运行,同时提供丰富的音乐创作与编辑功能,适用于音乐艺术家、制作人及内容创作者等群体。
https://github.com/ace-step/ACE-Step-1.5
二、核心特性
1. 性能表现
- 超快速生成:A100 显卡生成完整歌曲耗时不足 2 秒(因“思考模式”和扩散步骤不同,耗时 0.5-10 秒),RTX 3090 显卡耗时不足 10 秒。
- 灵活时长支持:可生成 10 秒至 10 分钟(600 秒)的音频。
- 批量生成:支持同时生成最多 8 首歌曲。
- 低显存需求:本地运行仅需不到 4GB 显存,适配消费级 GPU。
2. 生成质量
- 商用级输出:质量介于 Suno v4.5 与 Suno v5 之间,超越多数商业模型。
- 丰富风格覆盖:支持 1000+ 乐器与音乐风格,可精细描述音色。
- 多语言歌词:支持 50+ 语言的歌词提示,用于控制歌曲结构与风格。
3. 功能多样性与可控性
| 功能分类 | 具体能力 |
|---|---|
| 输入与风格控制 | 支持参考音频引导生成、封面生成、基于现有音频的重绘与编辑 |
| 音频处理 | 音频轨道分离、多轨道生成(类似 Suno Studio“添加轨道”功能)、人声转伴奏(Vocal2BGM) |
| 参数控制 | 可自定义时长、BPM、调式/音阶、拍号,支持简单描述生成完整歌曲 |
| 智能辅助 | 自动扩展标签与歌词(查询重写)、提取音频的 BPM/调式/拍号/描述、自动生成歌词时间戳(LRC) |
| 模型个性化 | 一键标注与 LoRA 训练(仅需 8 首歌曲、RTX 3090 显卡 1 小时即可完成,需 12GB 显存) |
| 质量评估 | 自动对生成音频进行质量评分 |
三、安装与部署
1. 环境要求
- 编程语言:Python 3.11
- 硬件:推荐 CUDA 显卡(支持 CPU/MPS 运行,但速度较慢),Windows 系统需 CUDA 12.8;支持 Intel GPU(如 Ultra 9 285H 核显,需 PyTorch 2.8.0 + Intel PyTorch 扩展)。
2. 安装方式
(1)Windows 便携包(推荐)
- 步骤:下载并解压
ACE-Step-1.5.7z包,内含预安装依赖的python_embeded。 - 快速启动:通过批处理脚本操作,
start_gradio_ui.bat启动 Web 界面,start_api_server.bat启动 REST API 服务。 - 辅助工具:提供
check_update.bat(检查 GitHub 更新)、merge_config.bat(合并配置)、quick_test.bat(环境测试)等维护脚本。
(2)标准安装(全平台)
- 安装 uv 包管理器:
- macOS/Linux:
curl -LsSf https://astral.sh/uv/install.sh | sh - Windows(PowerShell):
powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
- macOS/Linux:
- 克隆仓库并安装依赖:
git clone https://github.com/ACE-Step/ACE-Step-1.5.git && cd ACE-Step-1.5 && uv sync。 - 启动方式:
- Web 界面(Gradio):
uv run acestep或python acestep/acestep_v15_pipeline.py(需激活对应 Python 环境)。 - REST API 服务:
uv run acestep-api或python acestep/api_server.py,默认运行于http://localhost:8001。
- Web 界面(Gradio):
3. 配置选项
- 命令行参数:可指定端口(
--port)、服务地址(--server-name)、语言(--language)、模型路径(--config_path/--lm_model_path)、下载源(--download-source)等。 - 环境变量:通过
.env文件配置(复制.env.example修改),支持控制 LLM 初始化(ACESTEP_INIT_LLM)、模型路径、下载源等。
四、模型下载与选择
1. 下载方式
- 自动下载:首次运行时从 Hugging Face 或 ModelScope 自动下载(默认“自动检测”源,根据网络是否可访问 Google 选择;支持手动指定
--download-source modelscope/huggingface)。 - 手动下载:
- 用 CLI 命令:
uv run acestep-download(支持下载指定模型、全量模型、自定义目录)。 - 用
huggingface-cli:如huggingface-cli download ACE-Step/Ace-Step1.5 --local-dir ./checkpoints(下载核心模型)。
- 用 CLI 命令:
2. 可用模型
(1)核心模型与变体
| 模型类型 | 模型名称 | 描述 | Hugging Face 仓库 |
|---|---|---|---|
| 核心包 | ACE-Step/Ace-Step1.5 | 含 VAE、Qwen3-Embedding-0.6B、acestep-v15-turbo、acestep-5Hz-lm-1.7B | ACE-Step/Ace-Step1.5 |
| LM 模型 | acestep-5Hz-lm-0.6B | 轻量版(0.6B 参数) | ACE-Step/acestep-5Hz-lm-0.6B |
| LM 模型 | acestep-5Hz-lm-4B | 大型版(4B 参数) | ACE-Step/acestep-5Hz-lm-4B |
| DiT 模型 | acestep-v15-base | 基础版 DiT | ACE-Step/acestep-v15-base |
| DiT 模型 | acestep-v15-turbo | turbo 版 DiT(8 步生成) | ACE-Step/acestep-v15-turbo |
(2)模型选择建议(按 GPU 显存)
| GPU 显存 | 推荐 LM 模型 | 说明 |
|---|---|---|
| ≤6GB | 无(仅用 DiT) | 默认禁用 LM 以节省内存 |
| 6-12GB | acestep-5Hz-lm-0.6B | 轻量平衡,兼顾性能与质量 |
| 12-16GB | acestep-5Hz-lm-1.7B | 质量更优 |
| ≥16GB | acestep-5Hz-lm-4B | 最佳质量与音频理解能力 |
五、使用方式
提供 3 种核心使用途径,文档支持英、中、日三语言:
- Gradio Web UI:交互式界面,适合可视化操作,默认地址
http://localhost:7860。 - Python API:可编程调用,便于集成到其他项目。
- REST API:HTTP 异步接口,支持服务化部署,参考 API Documentation。
六、架构与技术亮点
- 混合架构:以语言模型(LM)为“全能规划器”,将用户查询转换为完整歌曲蓝图(支持 10 分钟长曲),同时生成元数据、歌词、描述,引导扩散Transformer(DiT)生成音频。
- 无偏对齐:通过模型内部机制的内在强化学习实现对齐,无需外部奖励模型或人类偏好数据,避免偏见。
- 跨语言支持:严格遵循 50+ 语言的提示词,确保生成内容与输入匹配。
七、在线生成
The most powerful local music generation model that outperforms most commercial alternatives
https://acemusic.ai/
原文链接:
https://www.17you.com/ai/%E5%BC%80%E6%BA%90%E6%9C%AC%E5%9C%B0%E9%9F%B3%E4%B9%90%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/
已复制!
一起薅AI羊毛
保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。