📑 内容目录

📝 项目简介

ACE-Step 是一个开源的音乐生成基础模型,由 ACE Studio 和 StepFun 联合开发。该模型克服了现有方法的关键限制,通过整体架构设计实现了最先进的性能。

快速生成
A100 GPU 20秒生成4分钟音乐
🎸
多风格
支持主流音乐风格
🌍
多语言
支持19种语言

📊 项目信息

✨ 功能特性

🎯 核心能力

  • Text2Music: 文本描述生成音乐
  • Lyric2Vocal: 歌词生成人声(LoRA)
  • Audio2Audio: 音频风格转换
  • Repainting: 局部重绘
  • Retake: 变体生成
  • Extend: 音乐续延

🎛️ 可控性

  • 变体生成: 生成同一提示词的多个变体
  • 歌词编辑: 修改局部歌词保持旋律
  • 重绘: 选择性修改音乐特定部分

🏆 性能对比

特性 ACE-Step LLM-based (Yue/SongGen) Diffusion (DiffRhythm)
生成速度 20秒/4分钟 (A100) 中等
音乐连贯性 ✅ 优秀 ✅ 优秀 ⚠️ 一般
歌词对齐 ✅ 优秀 ✅ 优秀 ⚠️ 一般

💾 安装部署

📋 环境要求

  • Python: 3.10 或更高版本
  • GPU: 推荐 NVIDIA GPU (RTX 3090/4090/A100/RTX 2000 Ada)
  • 显存: 最低 8GB (开启cpu_offload)
  • 系统: Windows 11 / macOS / Linux
  • 特殊配置: RTX 2000 Ada 8GB 需要开启cpu_offload

🔧 安装步骤

步骤1: 克隆仓库

git clone https://github.com/ace-step/ACE-Step.git
cd ACE-Step

步骤2: 创建虚拟环境(推荐使用conda)

conda create -n ace_step python=3.10 -y
conda activate ace_step

步骤3: 安装PyTorch(Windows GPU用户)

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126

步骤4: 安装ACE-Step

pip install -e .

注意: macOS用户请使用 --bf16 false 参数避免错误

🖥️ 联想P1工作站 + RTX 2000 Ada 8GB 专用配置

步骤1: 安装显卡驱动

从 NVIDIA 官网下载安装最新的 Studio 驱动(专业卡推荐Studio驱动):

https://www.nvidia.com/Download/index.aspx

选择 "NVIDIA RTX / Quadro > RTX 2000 Ada > Windows 11"

步骤2: 安装Visual C++运行库

Windows 11 可能需要安装 Visual C++ 运行库:

下载并安装 Visual C++ 2015-2022 Redistributable

步骤3: 检查CUDA版本

RTX 2000 Ada 需要 CUDA 12.x:

nvidia-smi # 查看驱动和CUDA版本
nvcc --version # 查看CUDA编译器版本

步骤4: 推荐启动参数

针对8GB显存,推荐以下启动参数:

# 基础版(稳定运行)
acestep --cpu_offload true --bf16 false --port 7865

# 进阶版(关闭编译以节省显存)
acestep --cpu_offload true --bf16 false --torch_compile false --overlapped_decode false --device_id 0 --port 7865

# 极速版(需要12GB+显存,不推荐8GB)
acestep --cpu_offload false --bf16 true --torch_compile true --overlapped_decode true --device_id 0 --port 7865

步骤5: 调整生成参数

在Web界面中,建议:

  • Inference Steps: 从27降低到15-20(减少显存占用)
  • Audio Duration: 控制在60秒以内
  • 避免同时生成多个任务
🔧 性能预估:RTX 2000 Ada 8GB 在开启cpu_offload后,预计生成1分钟音乐约需 6-15秒(取决于步数),比RTX 3090略快,但需要更大的优化。

⚙️ Windows特殊配置

如果需要使用torch_compile优化,需要安装Triton:

pip install triton-windows

🚀 使用方法

🎮 基础使用

acestep --port 7865

然后在浏览器打开 http://127.0.0.1:7865

⚡ 高级参数

acestep \
  --checkpoint_path /path/to/checkpoint \
  --port 7865 \
  --device_id 0 \
  --share true \
  --bf16 true \
  --torch_compile true \
  --cpu_offload true \
  --overlapped_decode true

参数说明

参数 说明 默认值
--checkpoint_path 模型路径,不设置则自动下载 ~/.cache/ace-step/checkpoints
--port 服务端口 7865
--device_id GPU设备ID 0
--share 生成公开链接 false
--bf16 使用bf16精度(更快) true
--torch_compile 使用torch.compile优化 false
--cpu_offload 模型卸载到CPU(省显存) false
--overlapped_decode 重叠解码加速 false

📱 界面功能

  • Text2Music: 文本描述生成音乐,支持标签、歌词、结构标记
  • Retake: 变体生成,调整方差控制变化程度
  • Repainting: 局部重绘,修改特定时间段
  • Edit: 歌词编辑,保持或改变旋律
  • Extend: 音乐续延,头尾扩展

🖥️ 硬件性能

RTF (Real-Time Factor) 数值越高代表生成速度越快。27步生成1分钟音乐:

GPU型号 RTF (27步) 生成1分钟耗时 RTF (60步) 生成1分钟耗时
NVIDIA RTX 4090 34.48× 1.74秒 15.63× 3.84秒
NVIDIA A100 27.27× 2.20秒 12.27× 4.89秒
NVIDIA RTX 3090 12.76× 4.70秒 6.48× 9.26秒
MacBook M2 Max 2.27× 26.43秒 1.03× 58.25秒
NVIDIA RTX 2000 Ada (8GB)
联想P1工作站
~10× ~6秒 ~5× ~12秒
💡 推荐配置: RTX 4090 + 开启 --torch_compile --cpu_offload --overlapped_decode 可获得最佳体验
💡 RTX 2000 Ada 8GB 专用配置:
由于显存只有8GB,强烈建议使用以下参数:
acestep --cpu_offload true --bf16 false --torch_compile false --overlapped_decode false --device_id 0 --port 7865
或者使用更保守的配置:
acestep --cpu_offload true --bf16 false --batch_size 1 --steps 20 --port 7865

🔌 API调用

📦 作为Python库使用

pip install git+https://github.com/ace-step/ACE-Step.git

安装后可以在Python代码中导入ACE-Step:

# 导入ACE-Step相关模块
from acetest import...

🌐 Web API

启动服务后,访问 /api 接口进行HTTP调用

  • 基础URL: http://127.0.0.1:7865
  • API文档: 启动后在 /docs 查看

🌐 在线体验

🆓 免费在线Demo

ComfyUI支持

可下载 ComfyUI 节点:Ace_Step_4x_a2a.json

📌 总结

  • 🎵 ACE-Step 是开源音乐生成基础模型的里程碑
  • 快速生成:A100 20秒生成4分钟音乐,比LLM-based快15倍
  • 🎸 多风格多语言:支持主流风格和19种语言
  • 💾 本地部署:需要Python 3.10 + NVIDIA GPU(推荐4090)
  • 🌐 在线体验:Hugging Face / ModelScope 可免费试用

📅 更新时间:2026年3月

← 返回上一页