Stability AI的发布再次打破了创新的界限。这款前沿模型在其前作的成功基础上,增添了一系列突破性功能,可能彻底改变艺术家和音乐家创建及操作音频内容的方式。
Stable Audio 2.0 标志着人工智能生成音频的一个重要里程碑,为音质、多功能性和创意潜力设定了全新标准。这个模型不仅能够生成完整长度的音乐,还可以通过自然语言提示转换音频样本,并生成多种音效,为不同领域的创作者开启了一个充满可能性的世界。
随着对创新音频解决方案的需求不断增长,Stability AI的这款新品有望成为增强创意输出、简化工作流程的必备工具。通过应用先进的人工智能技术,Stable Audio 2.0让用户得以探索音乐创作、声音设计和音频后期制作的全新领域。
Stable Audio 2.0的主要特点包括:
- 创新突破:Stable Audio 2.0 在人工智能生成音频领域实现了重大进展,可能对音乐制作和音频处理产生深远影响。
- 多功能性:此模型不仅能够生成完整的音乐曲目,还可以根据自然语言提示转换音频样本,并生成多种音效,展现出其多样化的应用能力。
- 创意潜力:通过这些新功能,艺术家和音乐家能够探索新的创作领域,可能激发出全新的音乐风格和音频应用。
- 行业应用:Stable Audio 2.0 为各行业的专业人士提供工具,帮助他们提升创意输出、简化工作流程,可能应用于音乐制作、影视和游戏音效设计、以及音频后期制作等领域。
- 技术力量:借助先进的人工智能技术,Stable Audio 2.0 赋予用户探索音乐创作和声音设计新领域的能力。
音频到音频生成的功能演示:
Stability AI 推出 Stable Audio 2.0,它具备一系列令人印象深刻的功能,可能重新定义人工智能生成音频的格局。该模型能够从完整长度的音轨生成到音频到音频的转换、增强的音效制作和风格转换,为创作者提供了全面的工具包,将他们的听觉愿景变为现实。
全长轨道生成: Stable Audio 2.0 能够创建长达三分钟的完整曲目,包括不同的结构部分,如前奏、展开和结尾。此功能允许用户生成具有连贯叙事和进展的完整音乐作品,进一步提升人工智能辅助音乐创作的潜力。模型结合了立体声效果,为生成的音频增加了深度和维度,使其适用于广泛的应用场景。
音频到音频生成: Stable Audio 2.0的一大亮点是音频到音频生成功能。用户可以上传自己的音频样本,并通过自然语言提示对其进行转换。这为艺术家和音乐家提供了全新的声音操控和再创造的可能性。通过人工智能,用户可以轻松修改现有音频以满足特定需求或艺术愿景,无论是改变乐器音色、调整曲调,还是基于样本创作新声音,Stable Audio 2.0 都提供了直观的音频转换方法。
增强音效制作: 除了音乐生成功能,Stable Audio 2.0在多样化音效生成方面也表现出色,适用于电影、电视、游戏和多媒体项目。用户可以快速生成高质量音效,从而减少拟音工作或购买昂贵许可资产的需求。
风格转换: Stable Audio 2.0 允许用户修改生成或上传的音频的风格和音质,从而定制输出以匹配特定主题、流派或情感基调。这对创建凝聚力音轨、调整音乐以适应视觉内容或探索创意混音特别有用。
技术特点:
Stable Audio 2.0 采用尖端的潜在扩散模型架构,使其在性能和输出质量上表现出色。该模型架构精心设计,能够生成连贯、完整长度的音频作品,同时保持对细节的细致控制。
潜在扩散模型架构: Stable Audio 2.0 的核心是针对音频生成优化的潜在扩散模型架构。它由两个关键组件组成:高度压缩的自动编码器和扩散变压器。
自动编码器有效压缩原始音频波形,而扩散变压器擅长处理长数据序列,使模型能够生成结构化、连贯的音频作品。
提高性能和质量: Stable Audio 2.0结合自动编码器和扩散变压器,使其在处理速度和输出质量上相比前代取得了显著提升。用户能够更快地生成音频,并且生成的音频具有高水平的连贯性和音乐完整性。
**在线体验可以去官网,下面说下本地如何跑Stable Audio **
获取指南:
- 一键启动,不用配置复杂环境。
- 下载不用开会员、取决你的网速
发送
前置条件:
-
适用于 Windows 用户(Windows 10 及以上版本)
-
运行软件需要 NVIDIA 显卡,显存 6GB 及以上。
软件内置了 CUDA 12.1 的预编译包。
运行前,请确保已安装符合要求的 CUDA 驱动程序版本。你可以通过以下命令检查系统上安装的 CUDA 版本:
打开 cmd,输入 nvidia-smi
在输出信息中的 CUDA Version 字段会显示当前安装的 CUDA 驱动程序版本。版本需大于等于 12.1。
使用步骤:
- 下载解压包并解压到本地目录。
- 进入目录后,点击 一键启动.exe 即可启动程序。
注意:程序运行期间,请勿关闭 cmd 命令窗口。
使用教程:
解压的文件夹中有两个可执行文件,一个是完全,一个是半精度版本。电脑显卡显存在6~8G使用半精度的,12G及以上使用完全版本。
点击exe执行文件后,加载模型可能会比较慢,可能需要2~3分钟才能加载出来,加载出来会自动打开网页
显示这样基本代表执行成功,如果没有自动打开网页请手动输入http://127.0.0.1:7860 到浏览器打开
成功打开后的网页
输出正向和反向提示词
例如我这里输入优美的钢琴音乐,翻译成英文填入到正向提示词,反向提示词输入框则填入noise,意思是不希望音乐出现噪音,开始秒数,是指从第几秒开始生成音乐。其他参数自行去调试。
这里的种子参数为-1代表随机生成
然后点击生成即可
可以注意下cmd输出内容,有时候可能点击生成,而cmd过了几秒还没有输出,需要关掉cmd命令窗口,重新打开。
类似以下执行输出是正常的
最后执行完毕可以直接播放及预览
好的,教程到此结束,谢谢大家的观看。