📑 内容目录
📝 项目简介
ACE-Step 是一个开源的音乐生成基础模型,由 ACE Studio 和 StepFun 联合开发。该模型克服了现有方法的关键限制,通过整体架构设计实现了最先进的性能。
⚡
快速生成
A100 GPU 20秒生成4分钟音乐
🎸
多风格
支持主流音乐风格
🌍
多语言
支持19种语言
📊 项目信息
- GitHub: github.com/ace-step/ACE-Step
- ⭐ Star: 4253
- 🍴 Fork: 535
- 📜 License: Apache 2.0
✨ 功能特性
🎯 核心能力
- Text2Music: 文本描述生成音乐
- Lyric2Vocal: 歌词生成人声(LoRA)
- Audio2Audio: 音频风格转换
- Repainting: 局部重绘
- Retake: 变体生成
- Extend: 音乐续延
🎛️ 可控性
- 变体生成: 生成同一提示词的多个变体
- 歌词编辑: 修改局部歌词保持旋律
- 重绘: 选择性修改音乐特定部分
🏆 性能对比
| 特性 | ACE-Step | LLM-based (Yue/SongGen) | Diffusion (DiffRhythm) |
|---|---|---|---|
| 生成速度 | 20秒/4分钟 (A100) | 慢 | 中等 |
| 音乐连贯性 | ✅ 优秀 | ✅ 优秀 | ⚠️ 一般 |
| 歌词对齐 | ✅ 优秀 | ✅ 优秀 | ⚠️ 一般 |
💾 安装部署
📋 环境要求
- Python: 3.10 或更高版本
- GPU: 推荐 NVIDIA GPU (RTX 3090/4090/A100/RTX 2000 Ada)
- 显存: 最低 8GB (开启cpu_offload)
- 系统: Windows 11 / macOS / Linux
- 特殊配置: RTX 2000 Ada 8GB 需要开启cpu_offload
🔧 安装步骤
步骤1: 克隆仓库
git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step
步骤2: 创建虚拟环境(推荐使用conda)
conda create -n ace_step python=3.10 -y
conda activate ace_step
步骤3: 安装PyTorch(Windows GPU用户)
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126
步骤4: 安装ACE-Step
pip install -e .
注意: macOS用户请使用 --bf16 false 参数避免错误
🖥️ 联想P1工作站 + RTX 2000 Ada 8GB 专用配置
步骤1: 安装显卡驱动
从 NVIDIA 官网下载安装最新的 Studio 驱动(专业卡推荐Studio驱动):
https://www.nvidia.com/Download/index.aspx
选择 "NVIDIA RTX / Quadro > RTX 2000 Ada > Windows 11"
步骤2: 安装Visual C++运行库
Windows 11 可能需要安装 Visual C++ 运行库:
下载并安装 Visual C++ 2015-2022 Redistributable
步骤3: 检查CUDA版本
RTX 2000 Ada 需要 CUDA 12.x:
nvidia-smi # 查看驱动和CUDA版本
nvcc --version # 查看CUDA编译器版本
步骤4: 推荐启动参数
针对8GB显存,推荐以下启动参数:
# 基础版(稳定运行)
acestep --cpu_offload true --bf16 false --port 7865
# 进阶版(关闭编译以节省显存)
acestep --cpu_offload true --bf16 false --torch_compile false --overlapped_decode false --device_id 0 --port 7865
# 极速版(需要12GB+显存,不推荐8GB)
acestep --cpu_offload false --bf16 true --torch_compile true --overlapped_decode true --device_id 0 --port 7865
步骤5: 调整生成参数
在Web界面中,建议:
- Inference Steps: 从27降低到15-20(减少显存占用)
- Audio Duration: 控制在60秒以内
- 避免同时生成多个任务
🔧 性能预估:RTX 2000 Ada 8GB 在开启cpu_offload后,预计生成1分钟音乐约需 6-15秒(取决于步数),比RTX 3090略快,但需要更大的优化。
⚙️ Windows特殊配置
如果需要使用torch_compile优化,需要安装Triton:
pip install triton-windows
🚀 使用方法
🎮 基础使用
acestep --port 7865
然后在浏览器打开 http://127.0.0.1:7865
⚡ 高级参数
acestep \
--checkpoint_path /path/to/checkpoint \
--port 7865 \
--device_id 0 \
--share true \
--bf16 true \
--torch_compile true \
--cpu_offload true \
--overlapped_decode true
参数说明
| 参数 | 说明 | 默认值 |
|---|---|---|
| --checkpoint_path | 模型路径,不设置则自动下载 | ~/.cache/ace-step/checkpoints |
| --port | 服务端口 | 7865 |
| --device_id | GPU设备ID | 0 |
| --share | 生成公开链接 | false |
| --bf16 | 使用bf16精度(更快) | true |
| --torch_compile | 使用torch.compile优化 | false |
| --cpu_offload | 模型卸载到CPU(省显存) | false |
| --overlapped_decode | 重叠解码加速 | false |
📱 界面功能
- Text2Music: 文本描述生成音乐,支持标签、歌词、结构标记
- Retake: 变体生成,调整方差控制变化程度
- Repainting: 局部重绘,修改特定时间段
- Edit: 歌词编辑,保持或改变旋律
- Extend: 音乐续延,头尾扩展
🖥️ 硬件性能
RTF (Real-Time Factor) 数值越高代表生成速度越快。27步生成1分钟音乐:
| GPU型号 | RTF (27步) | 生成1分钟耗时 | RTF (60步) | 生成1分钟耗时 |
|---|---|---|---|---|
| NVIDIA RTX 4090 | 34.48× | 1.74秒 | 15.63× | 3.84秒 |
| NVIDIA A100 | 27.27× | 2.20秒 | 12.27× | 4.89秒 |
| NVIDIA RTX 3090 | 12.76× | 4.70秒 | 6.48× | 9.26秒 |
| MacBook M2 Max | 2.27× | 26.43秒 | 1.03× | 58.25秒 |
| NVIDIA RTX 2000 Ada (8GB) 联想P1工作站 |
~10× | ~6秒 | ~5× | ~12秒 |
💡 推荐配置: RTX 4090 + 开启 --torch_compile --cpu_offload --overlapped_decode 可获得最佳体验
💡 RTX 2000 Ada 8GB 专用配置:
由于显存只有8GB,强烈建议使用以下参数:
或者使用更保守的配置:
由于显存只有8GB,强烈建议使用以下参数:
acestep --cpu_offload true --bf16 false --torch_compile false --overlapped_decode false --device_id 0 --port 7865
或者使用更保守的配置:
acestep --cpu_offload true --bf16 false --batch_size 1 --steps 20 --port 7865
🔌 API调用
📦 作为Python库使用
pip install git+https://github.com/ace-step/ACE-Step.git
安装后可以在Python代码中导入ACE-Step:
# 导入ACE-Step相关模块
from acetest import...
🌐 Web API
启动服务后,访问 /api 接口进行HTTP调用
- 基础URL: http://127.0.0.1:7865
- API文档: 启动后在 /docs 查看
🌐 在线体验
🆓 免费在线Demo
- Hugging Face Space: huggingface.co/spaces/ACE-Step/ACE-Step
- ModelScope: ModelScope
- 项目主页: ace-step.github.io
ComfyUI支持
可下载 ComfyUI 节点:Ace_Step_4x_a2a.json
📌 总结
- 🎵 ACE-Step 是开源音乐生成基础模型的里程碑
- ⚡ 快速生成:A100 20秒生成4分钟音乐,比LLM-based快15倍
- 🎸 多风格多语言:支持主流风格和19种语言
- 💾 本地部署:需要Python 3.10 + NVIDIA GPU(推荐4090)
- 🌐 在线体验:Hugging Face / ModelScope 可免费试用
📅 更新时间:2026年3月