Stability AI发布基于稳定扩散的音频生成模型Stable Audio

时间：2023-09-18 09:47:21浏览次数：47

近日Stability AI推出了一款名为Stable Audio的尖端生成模型，该模型可以根据用户提供的文本提示来创建音乐。在NVIDIA A100 GPU上Stable Audio可以在一秒钟内以44.1 kHz的采样率产生95秒的立体声音频，与原始录音相比，该模型处理时间的大幅减少归因于它对压缩音频潜在表示的有效处理。

架构

自动编码器(VAE)，一个文本编码器和U-Net扩散模型。VAE通过获取输入音频数据并表示为保留足够信息用于转换的压缩格式，因为使用了卷积结构，所以不受描述音频编解码器的影响，可以有效地编码和解码可变长度的音频，同时保持高输出质量。

https://avoid.overfit.cn/post/86c750a6534b4cd380c94d3301fcf1bd

标签：AI,音频,Stability,Stable,Audio,模型
From： https://www.cnblogs.com/deephub/p/17710776.html

SK 简化流行编程语言对生成式AI 应用开发的支持
SemanticKernel[1]是一个将大型语言模型（LLM）与流行的编程语言相结合的SDK。Microsoft将SemanticKernel（简称SK）称为轻量级SDK，支持AILLM的集成。Microsoft今年3月份时候首次开源了SK，SK不仅支持C#、还支持Java和Python编程语言。生成式AI应用开发所带来新的语义编程，国际组织世......
2023.37 AI辅助医疗诊断
日常生活看病，有一个难题就是不知道自己要去那个科室，以之前自己去医院看牙齿疼为例，各种搜索确认后才知道要挂口腔内科，中间还有点其它问题医生建议看其它科室，不过最终还算顺利。牙疼尚且如此，更不用说其它罕见病，比如下面链接中的故事。4岁男孩得了罕见病，母亲找了17位专家无果，受自己......
Mac专用投屏工具AirServer 7 .27 for Mac中文免费激活版
AirServer7.27forMac中文免费激活版是一款Mac专用投屏工具，能够通过本地网络将音频、照片、视频以及支持AirPlay功能的第三方App，从iOS设备无线传送到Mac电脑的屏幕上，把Mac变成一个AirPlay终端的实用工具。目前最新的AirServer7.2.7版本，支持macOSHighSierra和iOS11，通......
OpenAI原生GPT问答记录直接导入博客方法
OpenAI原生GPT问答记录直接导入博客方法一般常见的方法是截图放在博客，但是这种方法有点过于粗糙，浪费阅读者流量资源不说，还显得十分不专业。但是对于原生GPT来说，在网页内全选复制并不能达成我们想要的效果，甚至有时候很难区分哪些是用户哪些是AI的话。于是本篇文章应运而生，Openai......
mysql连接不上Job for mysqld.service failed because the control process exited wi
问题:mysql服务器链接不上我们是自己买的服务器搭建的,查看mysql的服务器能不能连的上,看服务是否正常查看进程：top-c；查看磁盘：df-h；linux环境有很多大小,只需要看最大的一个存储就行了,发现可使用的没了,我这图片是清理过后的问题解决先要排查是哪些文件堆满了磁盘，极大的......
使用TestContainers在Docker中进行集成测试
现代软件应用很少独立工作。典型的应用程序会与几个外部系统进行通信，如:数据库、消息系统、缓存提供商其他第三方服务。你应该编写测试确保一切正常运行。单元测试有助于隔离地测试业务逻辑，不涉及任何外部服务。它们易于编写并提供几乎即时的反馈。有了单元测试还不够，集......
Invalid prop type check failed for prop “image“. Expected String, got Undefine
问题描述：vue中类型不匹配导致的错误。大致的意思是期待的是“image“类型，传入的是string，所以导致出错。解决办法：类型转换 <pan-thumb :image="String(filePath)"> ......
C#中的ConcurrentExclusiveSchedulerPair类
C#中的ConcurrentExclusiveSchedulerPair类为什么使用ConcurrentExclusiveSchedulerPair？现实生活中的例子是一个停车场的入口和出口，多辆车可以同时进入和离开停车场，但是只有一个车辆可以进入或离开一次。这时候就需要保证同时只有一个车辆能够访问停车场的入口或出口，避免......
AI绘画：如何让图片开口说话生成视频？变现渠道有哪些？
如何让AI绘画做出来的视频可以开口说话，本篇文章给你讲解清楚。这个项目市面上有很多种叫法，AI数字人，图片说话，图片数字人等等。废话不多说，直接以AI小和尚为例进行实操。1.生成图片：用Midjourney或者StableDiffusion都可以。当然你也可以用我生成好的图片。核心咒语提示词:魔法......
Domain Admin域名和SSL证书过期监控到期提醒
基于Python3+Vue3.js技术栈实现的域名和SSL证书监测平台用于解决，不同业务域名SSL证书，申请自不同的平台，到期后不能及时收到通知，导致线上访问异常，被老板责骂的问题核心功能：域名和SSL证书的过期监控，到期提醒支持证书：单域名证书、多域名证书、通配符证书、IP证书、自签名证书......

Stability AI发布基于稳定扩散的音频生成模型Stable Audio

架构

相关文章

赞助商

阅读排行