首页 > 其他分享 >音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!

时间:2023-10-30 12:38:44浏览次数:37  
标签:音乐 任务 用户 只差 杰伦 LLM MusicAgent 工具


音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_选择器


作者 | 付奶茶、ZenMoore

利用AI完成音乐处理是一个多样化的领域,涵盖了数十种任务,从生成(例如音色合成)到音乐理解(例如音乐分类)。对于初学者、业余爱好者来说,很难精通、掌握所有任务来满足对于音乐处理上的需求。受到大型语言模型(LLMs)在任务自动化方面上的启发,北京大学和微软亚洲研究院的研究员们提出了MusicAgent,系统集成了众多与音乐相关的工具和自主工作流程,使用户摆脱复杂AI音乐工具限制。

论文题目:
《MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models》

论文链接:
https://arxiv.org/pdf/2310.11954.pdf

项目地址:
https://github.com/microsoft/muzic

概览

将LLMs与音乐结合有以下的挑战:

  1. 工具多样性 与音乐相关的任务呈现出广泛的多样性,而且这些任务的相应工具可能并不总是存在于同一平台上,或者是在GitHub等开源社区中提供的参数化模型,或者是Web API等。
  2. 内部协作 首先,音乐领域任务的多样性导致显式、明确的输入输出模态标准的缺失。其次,即使模态相同,音乐格式也可能不同。

研究人员受HuggingGPT(Shen et al., 2023)等最新工作的启发,利用LLMs作为控制器,以及大量专家工具来完成用户的指令,

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_子任务_02

▲图一

如图1所示。对于工具集,除了利用Hugging Face提供的模型,还从不同来源(包括GitHub和Web API等)整合了各种方法。如图2所示,MusicAgent设计了一个由LLM支持的自主工作流程,其中包括三个关键技能:任务规划器、工具选择器和响应生成器。

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_工作流程_03

▲图二

任务和工具收集

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_人工智能_04

▲表1

表1提供了MusicAgent中包含的与音乐相关的任务集和代表性工具的综合概述。除了生成和理解任务外,收集的任务主要分为三组:

  • 生成任务:包括从简单描述,文本到音乐、歌词到旋律、歌声合成、音色转换、伴奏等。
  • 理解任务:音乐分类、音乐分离、歌词识别和音乐转录等任务。组合这些任务可以将音乐转化为符号表示,并分析各种音乐特征。
  • 辅助任务:包括Web搜索和各种音频处理工具包。Web搜索包括使用Google API进行文本搜索,以及通过Spotify API进行音乐搜索。这些任务主要提供丰富的数据来源,并对音频/MIDI/文本数据执行基本操作,充当辅助功能。

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_工作流程_05

▲图3

此外,图3说明了系统中三种主要数据格式的使用:

i) 文本,包括歌词、流派或与音乐相关的其他属性。

ii) 表示为MIDI文件的乐谱的音乐。

iii) 包含音乐声音的音频。

除了组建任务集,MusicAgent系统可以分为两个主要部分:自主工作流程和插件。自主工作流程充当核心LLM交互组件的角色,其中包括三个关键技能:任务规划器、工具选择器和响应生成器。

自主工作流程

任务规划器

任务规划器在处理用户输入时发挥了至关重要的作用,它将构建整个工作流程的核心,包括确定每个子任务以及它们对应的输入输出格式,还包括子任务之间的依赖关系,形成一个依赖图。借助于in-context learning展现了卓越的任务分解性能,提示中提供了任务规划器的描述、支持的任务以及信息结构,同时还附带了一些音乐任务的分解示例。

工具选择器

工具选择器从各种开源工具中为特定子任务选择最合适的工具。每个工具都带有独特的属性,如文本描述、下载次数、星级评价等。将这些工具属性与用户输入合并作为 prompt,LLM生成工具的标识符和相应的选择理由,说明它为何被认为是最佳选择。用户拥有调整工具属性的自由度,并可以控制LLM如何解释这些属性。例如,用户可以强调下载次数以满足不同的需求。

响应生成器

负责收集来自子任务执行的所有中间结果,并将它们编译成一份连贯的响应。图5中的示例演示了LLM如何组织任务和结果以生成答案。

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_人工智能_06

▲图5

插件

当子任务的所有依赖任务都已完成,所有输入都已实例化时,LLM后端将任务传递给任务执行器,其中工具从输入中选择必要的参数。此外,工具还需要识别任务类型,因为一个工具可能处理多个任务。

系统使用

用户可以灵活选择以两种方式运行此系统,一种是按照GitHub上的说明,另一种是将其作为代码中的模块进行集成。如列表1所示,用户可以添加自定义任务类型,更新工具属性,为每个子任务设计提示,以增强对特定任务的支持。

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_工作流程_07

除了命令行、代码使用之外,MusicAgent还为用户提供了一个Gradio演示。在Gradio演示中,用户可以直接上传音频并可视化观察系统生成的所有中间结果,如图6所示。

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_工作流程_08

小结

在本文中,我们向大家介绍了MusicAgent,这是一个由大型语言模型(LLMs)支持的音乐领域智能体。它的目标是帮助开发者和非专业音乐创作者自动分析用户请求,并选择合适的工具来解决问题。最近,一些智能体的涌现(如AutoGPT和HuggingGPT)受到了大家的热烈关注,这些工作代表着自动化任务处理的重要进步,象征着在不久的将来人们能够更轻松地使用AI来解决各种任务,无需深入的专业知识。小编悄悄透露下~夕小瑶团队最近计划发布一篇关于智能体的大作!敬请各位期待!

音乐智能体登场!我和杰伦的距离或许只差一个 MusicAgent!_选择器_09

标签:音乐,任务,用户,只差,杰伦,LLM,MusicAgent,工具
From: https://blog.51cto.com/xixiaoyao/8087378

相关文章

  • 你和PPT高手之间,就只差一个iSlide
    做幻灯展示是我们日常工作中不可缺少的一部分,有的人喜欢用代码如Latex,markdown+pandoc+revealjs或bookdown。这些都是自动化做幻灯的好工具。我也都有过体会,确实简洁快速。但个人感觉自动化工具更适合结构固定的幻灯,不太适合做复杂些的幻灯,尤其是需要拼凑图或文字时。微软Offic......
  • 【2023.07.17】keeppley周杰伦DZ0157周同学积木评测
    前言本人是自费购买积木,购买原因是给妹妹培养动手能力,减少短视频占用时间,其次是给家里做摆饰,所以选择积木多考虑了美观非专业评测,如果想看更多积木评测请点进我的博客主页分类查看正文这次的说明书颜色真的印刷质量感觉不太好(单指颜色,拼装过程说明还是很不错的),颜色真的很杂......
  • 【B站视频下载教程】杰伦开演唱会了!教你下载周杰伦嘉年华B站录播视频
    本期教程教大家如何用学无止下载器,下载哔哩哔哩B站上面的视频这里以2023年5月5日周杰伦嘉年华香港站B站录播视频为例,教大家下载B站视频。一:电脑网页打开哔哩哔哩B站官网,从网页复制想要下载的视频网址链接二:把复制后的课程链接粘贴至学无止下载器中,即可一键下载三:下载好......
  • 【2023.05.08】keepley周杰伦DZ0155周同学积木评测
    前言本人是自费购买积木,购买原因是给妹妹培养动手能力,减少短视频占用时间,其次是给家里做摆饰,所以选择积木多考虑了美观非专业评测,如果想看更多积木评测请点进我的博客主页分类查看正文原本这个积木是粉色的,改成黑色替换件的话比较麻烦,简便的方法是将原包装内的粉色挑出来(因......
  • 梅西,离新球王的诞生只差一步
    数据对比:LionelMessiWorldPlayeroftheYearawards:4WorldCups:NoneContinentaltitles:ThreeLeaguetitles:SixTotalapps/goals:457apps,354goalsInternationalapps/goals:93apps,42goalsPeleWorldPlayeroftheYearawards:N/AWorldCup......
  • 008爬虫之短短20行代码下载周杰伦所有歌曲
    今天废话不多说直接上代码。下载周杰伦所有歌曲。#下载周杰伦歌曲importrequestsimportreforiinrange(36):url=f"http://search.kuwo.cn/r.s?all=%E5%91......
  • 全网最详细的ChatGPT注册-你和ChatGPT的距离只差这篇文章
    需求背景chatGPT这个词,不知道什么时候,非常突兀的就出现在了大家面前。火的一P,全网搜一下,铺天盖地的全是关于它的各种新闻。各公司的高层领导也在持续关注。我就收到了同样的......
  • 初级程序员晋升中级程序员,只差这7个技能
    在程序员圈,一直流传着这样一个传说,用发量来判断程序员的级别,这明显是种调侃。那么,中级程序员,相对于初级程序员,有哪些不一样的特质呢?总得来说,比较于初级而言,中级程序员在执行......
  • 周杰伦快手 1.1 亿直播观看背后,有哪些“能说的秘密”?
    这两天被周杰伦在快手的独家直播刷屏了,再想到之前的孙燕姿抖音唱聊会,西城男孩的视频号全球直播等等,越来越多让人“爷青回”的歌手们都选择了线上开演唱会。 抛开疫情的因素......
  • 想搞懂持续交付理论和实践,你只差这三个问题
    摘要:今天,我们来了解下什么是“持续交付”及“持续交付”的实践。云原生是当下IT圈非常热门的一个词,其目的是为了各组织在公有云、私有云和混合云等新型动态环境中,构建和运......