首页 > 其他分享 >MusicGen:将文本和旋律转化为音乐

MusicGen:将文本和旋律转化为音乐

时间:2023-06-13 10:45:15浏览次数:53  
标签:旋律 模型 音乐 MusicGen 文本 音频

Meta的MusicGen可以根据文本提示生成短小的新音乐片段,并可选择与现有旋律对齐。

与今天的大多数语言模型一样,MusicGen 基于 Transformer 模型。就像语言模型预测句子中的下一个字符一样,MusicGen 预测音乐作品中的下一个部分。

研究人员使用 Meta 的 EnCodec 音频标记器将音频数据分解为较小的组件。作为一个单阶段模型,它可以并行处理标记,因此 MusicGen 速度快且高效。

该团队使用了 20,000 小时的授权音乐进行训练。特别的是,他们依赖于一组内部的 10,000 首高质量音乐曲目的数据集,以及来自 Shutterstock 和 Pond5 的音乐数据。

MusicGen 可以处理文本和音乐提示

除了架构的效率和生成速度外,MusicGen 在能够处理文本和音乐提示方面也是独特的。文本设置了基本风格,然后与音频文件中的旋律匹配。

例如,如果将文本提示「一个轻快愉快的 EDM 音轨,带有交响鼓、轻柔垫音和强烈情感,速度:130 BPM」与巴赫著名作品《降 D 小调的触技曲与赋格曲(BWV 565)》的旋律结合起来,将生成以下音乐作品:

<iframe allowfullscreen="allowfullscreen" data-mce-fragment="1" frameborder="0" height="360" src="https://the-decoder.de/wp-content/uploads/2023/06/meta_musicgen_demo_video.mp4?_=1" width="640"></iframe>

你无法精确控制与旋律的结合,例如在不同风格中听到旋律。它只作为生成的大致指南,并不完全反映在输出中。

MusicGen 领先于Google 的 MusicLM

研究的作者对其模型的三个不同大小进行了测试:3 亿(300M)、15 亿(1.5B)和 33 亿(3.3B)个参数。他们发现更大的模型生成的音频质量更高,但人们评价最好的是 15 亿参数模型。另一方面,33 亿参数模型更擅长准确匹配文本输入和音频输出。

与其他音乐模型(如 Riffusion、Mousai、MusicLM 和 Noise2Music)相比,MusicGen 在客观和主观指标上表现更好,这些指标测试音乐与歌词的匹配程度以及作曲的可信度。总体而言,这些模型略高于Google 的 MusicLM 水平。

Meta 已在 Github 上发布了代码和模型的开源版本,并允许商业使用。在 Huggingface 上提供了演示

Github 代码和模型:https://github.com/facebookresearch/audiocraft

Huggingface演示:https://huggingface.co/spaces/facebook/MusicGen

标签:旋律,模型,音乐,MusicGen,文本,音频
From: https://www.cnblogs.com/botai/p/MusicGen.html

相关文章

  • word公式粘贴到富文本编辑器
    ​ 1.编辑器修改(可选)1.1在 ueditor/config.json 中添加代码块    /* 上传word配置 */    "wordActionName":"wordupload",/* 执行上传视频的action名称 */    "wordFieldName":"upfile",/* 提交的视频表单名称 */    "wordPathFormat":"/p......
  • 如何将word公式粘贴到百度富文本编辑器里面
    ​ 这种方法是servlet,编写好在web.xml里配置servlet-class和servlet-mapping即可使用后台(服务端)java服务代码:(上传至ROOT/lqxcPics文件夹下)<%@ page language="java" import="java.util.*" pageEncoding="utf-8"%><%@     page contentType="text/html;cha......
  • 如何将word图片粘贴到百度富文本编辑器里面
    ​ 由于工作需要必须将word文档内容粘贴到编辑器中使用 但发现word中的图片粘贴后变成了file:///xxxx.jpg这种内容,如果上传到服务器后其他人也访问不了,网上找了很多编辑器发现没有一个能直接解决这个问题考虑到自己除了工作其他时间基本上不使用windows,因此打算使用nodejs来......
  • 交互设计拆解:文本框
    编辑导读:文本框的出现几乎可以追溯到可视化交互诞生的源头,是一个再经典不过的“鼻祖”控件了。我们每天都在和文本框打交道,不论你是产品设计者还是用户。然而,越是显而易见的东西越容易被我们忽略掉细节。今天作者就和大家一起来梳理一下文本框,一起来看看~ 一、文本框的拆解文本框(T......
  • linux对齐文本
    linux对齐文本catyourfile.txt|column-t上述命令将打印出一个名为yourfile.txt的文件,并将其数据转换为用制表符分隔的列形式,然后输出到终端上。您还可以使用参数-s来指定不同的字段分割符,例如:catyourfile.csv|column-s,-t......
  • [MAUI]写一个跨平台富文本编辑器
    @目录原理创建编辑器定义实现复合样式选择范围字号字体颜色与背景色字体下划线字体加粗与斜体序列化和反序列化跨平台实现集成至编辑器创建控件使用控件最终效果已知问题项目地址富文本编辑器是一种所见即所得(whatyouseeiswhatyouget简称WYSIWYG)文本样式编辑器,用户在编......
  • 在Transformers 中使用约束波束搜索引导文本生成
    引言本文假设读者已经熟悉文本生成领域波束搜索相关的背景知识,具体可参见博文如何生成文本:通过Transformers用不同的解码方法生成文本。与普通的波束搜索不同,约束波束搜索允许我们控制所生成的文本。这很有用,因为有时我们确切地知道输出中需要包含什么。例如,在机器翻译任......
  • 超长文本消息回写企业微信端后台应用遭到截断
    当向企业微信的自建应用推送消息时:消息内容最长不超过2048个字节,超过将截断。为此通过简单的拆分字符回写解决,解决方式如下关键代码:根据非单词字符拆分字符串String[]parts=content.split("(?<=\\W)");privatevoidwriteResponse(Responseresponse){Stringcontent......
  • 使用Python批量修改PPTX文件中文本框格式
    问题描述:最近正在整理Python教材的配套PPT,原来的PPT是4:3的,考虑到现在很多屏幕都是宽屏的,于是打算重新整理一下。对于正常的幻灯片,直接在“页面设置”中修改一下就可以,但是有一章PPT由于反复修改了多次,并且其中有些格式不规范,导致转换成16:9之后有些乱,如图所示:转换之后存在两个大问......
  • Python+matplotlib设置坐标轴文本标签排列方式
    在默认情况下,y轴的文本标签方向是下面这样的:有时候这样子不方便看,我们可能希望文字水平显示并且每行显示一个字,如下图:这时可以使用ylabel()函数的rotation属性设置为'horizontal'并通过手动插入换行符来实现。参考代码如下:公众号“Python小屋”x......