首页 > 其他分享 >Voice Agent 开发者必读,2024 最前沿语音模型梳理

Voice Agent 开发者必读,2024 最前沿语音模型梳理

时间:2024-12-04 16:13:34浏览次数:11  
标签:arXiv arxiv Agent 2024 abs https org Voice

今天推荐的是我们的社区成员 BoJack 创建的 GitHub 仓库,如果你在关注 Voice Agent 开发,想了解最前沿的语音模型都有哪些,这个仓库的列表就非常值得关注。

 

BoJack 正在上海交大读博,研究方向为语音多模态,语音交互系统,自监督预训练。他也是近期发布的语音全双工模型 LSLM、TTS 语音合成模型 F5-TTS 的作者之一。

 

仓库地址:https://github.com/ddlBoJack/Awesome-Speech-Language-Model

 

 

Awesome-Speech-Language-Model

论文、代码与资源:语音语言模型和端到端语音对话系统。

通用语音、音频和音乐理解模型

Universal Speech, Audio and Music Understanding

 

模型Model

 

  • LTU: Listen, Think, and Understand - ICLR 2024

 

https://arxiv.org/abs/2305.10790

 

  • SALMONN: Towards Generic Hearing Abilities for Large Language Models- ICLR 2024

 

https://arxiv.org/abs/2310.13289

 

  • LTU-AS: Joint Audio and Speech Understanding - ASRU 2024

 

https://arxiv.org/abs/2309.14405

 

  • Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models - arXiv 2023

 

https://arxiv.org/abs/2311.07919

 

  • Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities - ICML 2024

 

https://arxiv.org/abs/2402.01831

 

  • Qwen2-Audio Technical Report - arXiv 2024

 

https://arxiv.org/abs/2407.10759

 

  • WavLLM: Towards Robust and Adaptive Speech Large Language Model - EMNLP 2024

 

https://arxiv.org/abs/2404.00656

 

  • DiVA: Distilling an End-to-End Voice Assistant Without Instruction Training Data - arXiv 2024

 

https://arxiv.org/abs/2410.02678

 

基准Benchmark

 

  • Dynamic-SUPERB: Towards A Dynamic, Collaborative, and Comprehensive Instruction-Tuning Benchmark for Speech - ICASSP 2024

 

https://arxiv.org/abs/2309.09510

 

  • AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension - ACL 2024

 

https://arxiv.org/abs/2402.07729

 

  • SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding BeyondWords - arXiv 2024

 

https://arxiv.org/abs/2406.13340

 

  • AudioBench: A Universal Benchmark for Audio Large Language Models -arXiv 2024

 

https://arxiv.org/abs/2406.16020

 

  • SALMon: A Suite for Acoustic Language Model Evaluation - arXiv 2024

 

https://arxiv.org/abs/2409.07437

 

  • MMAU: A Massive Multi-Task Audio Understanding and Reasoning Benchmark - arXiv 2024

 

https://www.arxiv.org/abs/2410.19168

 

  • Dynamic-SUPERB Phase-2: A Collaboratively Expanding Benchmark for Measuring the Capabilities of Spoken Language Models with 180 Tasks -ICLR 2024 open review

 

https://openreview.net/forum?id=s7lzZpAW7T

端到端语音对话系统

End2End Speech Dialogue System

 

模型Model

 

  • SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities - EMNLP 2023

 

https://arxiv.org/abs/2305.11000

 

  • GPT-4o Voice Mode -API 2024

 

https://openai.com/index/hello-gpt-4o/

 

  • PSLM: Parallel Generation of Text and Speech with LLMs for Low-Latency Spoken Dialogue Systems - EMNLP 2024

  • VITA: Towards Open-Source Interactive Omni Multimodal LLM - arXiv 2024

 

https://www.arxiv.org/abs/2408.05211

 

  • Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming - arXiv 2024

 

https://arxiv.org/abs/2408.16725

 

  • LLaMA-Omni: Seamless Speech Interaction with Large Language Models -arXiv 2024

 

https://arxiv.org/abs/2409.06666

 

  • Moshi: a speech-text foundation model for real-time dialogue - arXiv 2024

 

https://arxiv.org/abs/2410.00037

 

  • Westlake-Omni - GitHub 2024

 

https://github.com/xinchen-ai/Westlake-Omni

 

  • EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions - arXiv 2024

 

https://arxiv.org/abs/2409.18042

 

  • IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities - arXiv 2024

 

https://arxiv.org/abs/2410.08035

 

  • MooER-omni - GitHub 2024

 

https://github.com/MooreThreads/MooER

 

  • GLM-4-Voice - GitHub 2024

 

https://github.com/THUDM/GLM-4-Voice

 

  • Freeze-Omni: A Smart and Low Latency Speech-to-speech Dialogue Model with Frozen LLM - arXiv 2024

 

https://arxiv.org/abs/2411.00774

 

  • Hertz-dev - GitHub 2024

 

https://github.com/Standard-Intelligence/hertz-dev

 

  • Fish Agent - GitHub 2024

 

https://github.com/fishaudio/fish-speech

 

  • Mini-Omni2: Towards Open-source GPT-4o with Vision, Speech and Duplex Capabilities - arXiv 2024

 

https://arxiv.org/abs/2410.11190

 

基准Benchmark

 

  • VoiceBench: Benchmarking LLM-Based Voice Assistants - arXiv 2024

 

https://arxiv.org/abs/2410.17196

全双工建模

Full Duplex Modeling

 

  • A Full-duplex Speech Dialogue Scheme Based On Large Language Models -NeurIPS 2024

 

https://arxiv.org/abs/2405.19487

 

  • MiniCPM-duplex: Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models - EMNLP 2024

 

https://arxiv.org/abs/2406.15718

 

  • LSLM: Language Model Can Listen While Speaking - arXiv 2024

 

https://arxiv.org/abs/2408.02622

 

  • SyncLLM: Beyond Turn-Based Interfaces: Synchronous LLMs as Full-Duplex Dialogue Agents - arXiv 2024

 

https://arxiv.org/abs/2409.15594

 

  • Enabling Real-Time Conversations with Minimal Training Costs - arXiv 2024

 

https://arxiv.org/abs/2409.11727

 

综述Survey

 

  • Towards audio language modeling -- an overview - arXiv 2024

 

https://arxiv.org/abs/2402.13236

 

  • Recent Advances in Speech Language Models: A Survey - arXiv 2024

 

https://arxiv.org/abs/2410.03751

 

  • Speech Trident - Github

 

https://github.com/ga642381/speech-trident

 

  • A Survey on Speech Large Language Models - arXiv 2024

 

https://arxiv.org/abs/2410.18908

 

编辑:林瑞丽,傅丰元

 

 

 

更多 Voice Agent 学习笔记:

 

从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户

 

WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?

 

人类级别语音 AI 路线图丨 Voice Agent 学习笔记

 

语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服

 

语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场

 

下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》

 

Voice-first,闭关做一款语音产品的思考|社区来稿

 

 

标签:arXiv,arxiv,Agent,2024,abs,https,org,Voice
From: https://www.cnblogs.com/Agora/p/18586512

相关文章

  • Salesforce与AWS两大巨头联手,Agentic AI将如何改变商业模式?
    在人工智能浪潮席卷全球的今天,企业如何利用AI释放数据潜能、实现数字化转型已成为决胜关键。作为行业领先的科技巨头,Salesforce与AWS的战略合作再次将AgenticAI推向商业创新的前沿。仅一年时间,这两家公司就在数据与AI集成方面取得了突破性进展,为企业和消费者带来了全新的智能体......
  • 2024.12.4~2024.12.8
    2024.12.4刚回到北京,呃NOIP也过去了,在家也摆烂了一段时间了,也该做出些调整了怎么说呢,NOIP之前做的计划,虽然并没有严格遵守下去,但也是起到了一个推波助澜的效果的并且计划中的一些条目到目前还适用,所以我就不做什么大的删改,主打的就是一个继承约法n章(省选版):1.作息:6:00起床,7:......
  • 【2024-12-03】探索保养
    20:00家的滋味就和面包一样,不是每时每刻都要吃,但若是一天吃不上就会想念。                                                 ——若泽·萨拉马戈今天下午,我预约了一个......
  • # 20222309 2024-2025-1 《网络与系统攻防技术》实验7实验报告
    1.实验内容本实践的目标理解常用网络欺诈背后的原理,以提高防范意识,并提出具体防范方法。具体实践有(1)简单应用SET工具建立冒名网站(2)ettercapDNSspoof(3)结合应用两种技术,用DNSspoof引导特定访问到冒名网站。2.实验过程(1)简单应用SET工具建立冒名网站查看80端口是否被占用......
  • 哪些CRM系统在2024年赢得了国内市场?
    在2024年,国内CRM市场呈现出新的发展趋势,其中智能化、体系化和平台化成为主流方向。随着企业数字化转型的加速和对客户关系管理的日益重视,CRM系统的重要性愈发凸显。在这一背景下,纷享销客等业内领先的供应商依然处于市场前列,凭借其强大的功能和优质的服务赢得了广泛的认可。本文将......
  • 20222314 2024-2025-1 《网络与系统攻防技术》实验五实验报告
    202223142024-2025-1《网络与系统攻防技术》实验5实验报告1.实验内容学习了信息搜集技术,包括但不限于ip反查,nmap以及其他软件的信息搜集功能2.实验过程(1)从www.besti.edu.cn、baidu.com、sina.com.cn中选择一个DNS域名进行查询,获取如下信息:DNS注册人及联系方式该域名对......
  • 数证杯2024-网络流量分析
    数证杯2024-网络流量分析学习:2024数证杯初赛-WXjzc-博客园1.[填空题]分析网络流量包检材,写出抓取该流量包时所花费的秒数?(填写数字,答案格式:10)(2分)思路:统计-->捕获文件属性​​答案:35042.[填空题]分析网络流量包检材,抓取该流量包时使用计算机操作系统的build版本......
  • Magical Palette( The 2024 ICPC Asia Shenyang Regional Contest)
    MagicalPalette(The2024ICPCAsiaShenyangRegionalContest)题目描述:体面总结小白兔有一个魔法调色板,调色板是一个(n×m......
  • 纽伦堡会展中国荣膺2024“中国会展业金熊猫奖”
    在2024年,纽伦堡会展(上海)有限公司(简称“纽伦堡会展中国”)交出了一份令人满意的答卷。公司在上海成功举办了6场展会,从充满麦芽香气的精酿啤酒展到展现有机产品自然韵味的有机展,从后起之秀的嵌入式展到规模空前的压铸展再到大放异彩的粉体展,纽伦堡会展中国的每场活动都汇聚了众......
  • 20222326 2024-2025-1 《网络与系统攻防技术》实验七实验报告
    1.实验内容实验目的:学习常用网络欺诈背后的原理,提高防范意识,并提出具体防范方法。实验内容:(1)简单应用SET工具建立冒名网站(2)利用ettercap实施DNSspoof攻击,篡改特定网站IP(3)结合应用两种技术,用DNSspoof引导特定访问到冒名网站实验基础知识:(1)TCP/IP攻击:原始报文捕获-Snif......