ACE-Step-1.5音乐生成模型评测

2026-02-05 2026-03-22 约 2100 字预计阅读 5 分钟 - 次阅读

一、项目概述

ACE-Step-1.5 是一款高性能开源本地音乐生成模型，宣称性能超越多数商业音乐生成方案，核心优势在于兼顾商用级生成质量与轻量化本地部署能力，支持在消费级硬件上运行，同时提供丰富的音乐创作与编辑功能，适用于音乐艺术家、制作人及内容创作者等群体。

https://github.com/ace-step/ACE-Step-1.5

二、核心特性

1. 性能表现

超快速生成：A100 显卡生成完整歌曲耗时不足 2 秒（因“思考模式”和扩散步骤不同，耗时 0.5-10 秒），RTX 3090 显卡耗时不足 10 秒。
灵活时长支持：可生成 10 秒至 10 分钟（600 秒）的音频。
批量生成：支持同时生成最多 8 首歌曲。
低显存需求：本地运行仅需不到 4GB 显存，适配消费级 GPU。

2. 生成质量

商用级输出：质量介于 Suno v4.5 与 Suno v5 之间，超越多数商业模型。
丰富风格覆盖：支持 1000+ 乐器与音乐风格，可精细描述音色。
多语言歌词：支持 50+ 语言的歌词提示，用于控制歌曲结构与风格。

3. 功能多样性与可控性

功能分类	具体能力
输入与风格控制	支持参考音频引导生成、封面生成、基于现有音频的重绘与编辑
音频处理	音频轨道分离、多轨道生成（类似 Suno Studio“添加轨道”功能）、人声转伴奏（Vocal2BGM）
参数控制	可自定义时长、BPM、调式/音阶、拍号，支持简单描述生成完整歌曲
智能辅助	自动扩展标签与歌词（查询重写）、提取音频的 BPM/调式/拍号/描述、自动生成歌词时间戳（LRC）
模型个性化	一键标注与 LoRA 训练（仅需 8 首歌曲、RTX 3090 显卡 1 小时即可完成，需 12GB 显存）
质量评估	自动对生成音频进行质量评分

三、安装与部署

1. 环境要求

编程语言：Python 3.11
硬件：推荐 CUDA 显卡（支持 CPU/MPS 运行，但速度较慢），Windows 系统需 CUDA 12.8；支持 Intel GPU（如 Ultra 9 285H 核显，需 PyTorch 2.8.0 + Intel PyTorch 扩展）。

2. 安装方式

（1）Windows 便携包（推荐）

步骤：下载并解压 ACE-Step-1.5.7z 包，内含预安装依赖的 python_embeded。
快速启动：通过批处理脚本操作，start_gradio_ui.bat 启动 Web 界面，start_api_server.bat 启动 REST API 服务。
辅助工具：提供 check_update.bat（检查 GitHub 更新）、merge_config.bat（合并配置）、quick_test.bat（环境测试）等维护脚本。

（2）标准安装（全平台）

安装 uv 包管理器：
- macOS/Linux：curl -LsSf https://astral.sh/uv/install.sh | sh
- Windows（PowerShell）：powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
克隆仓库并安装依赖：git clone https://github.com/ACE-Step/ACE-Step-1.5.git && cd ACE-Step-1.5 && uv sync。
启动方式：
- Web 界面（Gradio）：uv run acestep 或 python acestep/acestep_v15_pipeline.py（需激活对应 Python 环境）。
- REST API 服务：uv run acestep-api 或 python acestep/api_server.py，默认运行于 http://localhost:8001。

3. 配置选项

命令行参数：可指定端口（--port）、服务地址（--server-name）、语言（--language）、模型路径（--config_path/--lm_model_path）、下载源（--download-source）等。
环境变量：通过 .env 文件配置（复制 .env.example 修改），支持控制 LLM 初始化（ACESTEP_INIT_LLM）、模型路径、下载源等。

四、模型下载与选择

1. 下载方式

自动下载：首次运行时从 Hugging Face 或 ModelScope 自动下载（默认“自动检测”源，根据网络是否可访问 Google 选择；支持手动指定 --download-source modelscope/huggingface）。
手动下载：
- 用 CLI 命令：uv run acestep-download（支持下载指定模型、全量模型、自定义目录）。
- 用 huggingface-cli：如 huggingface-cli download ACE-Step/Ace-Step1.5 --local-dir ./checkpoints（下载核心模型）。

2. 可用模型

（1）核心模型与变体

模型类型	模型名称	描述	Hugging Face 仓库
核心包	ACE-Step/Ace-Step1.5	含 VAE、Qwen3-Embedding-0.6B、acestep-v15-turbo、acestep-5Hz-lm-1.7B	ACE-Step/Ace-Step1.5
LM 模型	acestep-5Hz-lm-0.6B	轻量版（0.6B 参数）	ACE-Step/acestep-5Hz-lm-0.6B
LM 模型	acestep-5Hz-lm-4B	大型版（4B 参数）	ACE-Step/acestep-5Hz-lm-4B
DiT 模型	acestep-v15-base	基础版 DiT	ACE-Step/acestep-v15-base
DiT 模型	acestep-v15-turbo	turbo 版 DiT（8 步生成）	ACE-Step/acestep-v15-turbo

（2）模型选择建议（按 GPU 显存）

GPU 显存	推荐 LM 模型	说明
≤6GB	无（仅用 DiT）	默认禁用 LM 以节省内存
6-12GB	acestep-5Hz-lm-0.6B	轻量平衡，兼顾性能与质量
12-16GB	acestep-5Hz-lm-1.7B	质量更优
≥16GB	acestep-5Hz-lm-4B	最佳质量与音频理解能力

五、使用方式

提供 3 种核心使用途径，文档支持英、中、日三语言：

Gradio Web UI：交互式界面，适合可视化操作，默认地址 http://localhost:7860。
Python API：可编程调用，便于集成到其他项目。
REST API：HTTP 异步接口，支持服务化部署，参考 API Documentation。

六、架构与技术亮点

混合架构：以语言模型（LM）为“全能规划器”，将用户查询转换为完整歌曲蓝图（支持 10 分钟长曲），同时生成元数据、歌词、描述，引导扩散Transformer（DiT）生成音频。
无偏对齐：通过模型内部机制的内在强化学习实现对齐，无需外部奖励模型或人类偏好数据，避免偏见。
跨语言支持：严格遵循 50+ 语言的提示词，确保生成内容与输入匹配。

七、在线生成

The most powerful local music generation model that outperforms most commercial alternatives
https://acemusic.ai/

原文链接： https://www.17you.com/ai/%E5%BC%80%E6%BA%90%E6%9C%AC%E5%9C%B0%E9%9F%B3%E4%B9%90%E7%94%9F%E6%88%90%E6%A8%A1%E5%9E%8B/ 已复制！

一起薅AI羊毛

保持关注，记得把网址（17you.com）加收藏夹！有空经常来网站看看！我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术，以及最新的应用场景。

请点击联系我

ACE-Step-1.5音乐生成模型评测

一、项目概述

二、核心特性

1. 性能表现

2. 生成质量

3. 功能多样性与可控性

三、安装与部署

1. 环境要求

2. 安装方式

（1）Windows 便携包（推荐）

（2）标准安装（全平台）

3. 配置选项

四、模型下载与选择

1. 下载方式

2. 可用模型

（1）核心模型与变体

（2）模型选择建议（按 GPU 显存）

五、使用方式

六、架构与技术亮点

七、在线生成

相关内容