Stability AI推出音频AIGC工具Stable Audio

继推出文生图模型Stable Diffusion之后，Stability AI又推出了全新的产品——Stable Audio，正式进军音频生成领域。

Stable Audio是由Stability AI内部的声音实验室Harmonai研发的，采用了与Stable Diffusion类似的扩散模型技术。这次Stable Audio训练所采用的数据集授权，来自合作伙伴AudioSparx，包含了时长19500小时的80万条音频文件。

Stable Audiol界面.jpg

在AI音频生成产品领域，已经有多款类似的产品，例如谷歌的开源模型MusicLM、AIVA，以及基于机器学习的Mubert等。Meta也在今年8月开源了音频生成模型AudioCraft。这些产品都采用自然语言生成模式，用户可以输入一系列词语，对音乐的流派、速度、配器、情绪甚至应用场景进行指定。

从试听效果来看，Stable Audio相较于竞争对手有着较为显著的进步。它的声音品质得到了显著提升，很少出现AI生成音频中常见的嘈杂感和压缩感。然而，相对于人工创作的音乐，它在音乐的配器上仍然显得有些混乱。

Stability AI在官方页面中并未明确指出Stable Audio可生成的音乐流派。然而，从GameLook的试听感受上来看，该产品在EDM、氛围音乐、Disco等电子音乐上表现得更好，而在爵士、摇滚等注重器乐的音乐上则显得较为薄弱。

在商业模式上，Stability AI采取了与Midjourney类似的包月订阅模式。他们推出了免费和付费两个档位。免费档位允许用户每月生成20条音频，每条时长45秒，且不可用于商业用途。而付费档位的价格为每月11.99美元，允许用户每月生成500条最高90秒的音频文件，并可用于商业项目。

值得注意的是，Stability AI并未对Stable Audio模型进行开源，这与他们一直以来积极拥抱开源社区的作风有所不同。一些观察者猜测这可能与训练集的授权协议有关。然而，Stability AI承诺，Harmonai将在未来开源另一款使用不同数据训练的模型，这将基于Stable Audio的代码，允许用户自行训练音频模型。

此外，Stability AI还表示他们改进了音频训练的方式。传统的音频扩散模型往往在较长的音频文件中截取区块并进行训练，以适应扩散模型的训练时长。这种训练方法可能会导致生成的音乐缺失开头和结尾。而Stable Audio在训练时参照了音频的文字元数据，包括持续时长和开始时间，因此可以针对任意时间的音频进行生成。

随着Stability AI的加入，AI音频生成的赛道又多了一位有力的竞争者。随着游戏开发规格不断提升，厂商对游戏配乐的要求也在随之上涨。在游戏界推进AIGC应用的今天，AI音频生成或许也将成为一个重要的发展方向。

Stability AI

随着生成模型的不断迭代，未来AI生成的音乐内容将在品质和可用性上有着较大的提升，乃至于真正实现足不出户打造大师级配乐。从AI文生图产品的发展历程上来看，如果能够借助开源社区的广泛力量持续迭代，达成这样的效果并非天方夜谭。到时，游戏界也必然会拥抱AI音频产品。

本文由小熊AI网发布，不代表小熊AI网立场，转载联系作者并注明出处：https://www.xiaoxiong360.com/html/product/657.html

Stability AI推出音频AIGC工具Stable Audio

相关推荐