工具分享

MusicGen一款基于Transformer模型的AI音乐生成器,可以将文本描述转化为12秒的音频。

特点

使用Meta的encodec音频分词器将音频数据分解成较小的部分,然后预测音乐片段的下一个部分,类似于语言模型预测短语中的下一个字母。它可以同时处理文本和音乐提示,具有快速高效的单阶段处理能力。

部署

  • 安装项目

    1
    2
    3
    4
    pip install 'torch>=2.0'
    git clone https://github.com/facebookresearch/audiocraft.git
    cd audiocraft
    pip install -e . # or if you cloned the repo locally
  • 下载预训练模型

small: 300M model, text to music only

medium: 1.5B model, text to music only

melody: 1.5B model, text to music and text+melody to music(文本加指定的旋律)

large: 3.3B model, text to music only

  • 运行MusicGen

    1
    python app.py

平台

官方demo
在线测试


声明

本文仅作为工具分享记录。

本文永久记录于区块链博客xlog