首页 > 其他分享 >Audio and LLM

Audio and LLM

时间:2024-07-29 18:43:35浏览次数:14  
标签:https LLM 音频 Qwen 语音 Audio

语音交互的三驾马车:ASR、NLP、TTS

https://www.woshipm.com/ai/2620327.html

01  语音交互的组成

我们以一个智能音箱的例子来开始今天的讨论:

假设我们对智能音箱天猫精灵说“放一首周杰伦的《晴天》”。天猫精灵就会说“好的,马上为你播放周杰伦的《晴天》”,并且开始播放音乐。

这个过程猫精灵都做了些什么?

首先,天猫精灵把听到的声音转化成文字,然后理解内容,最后做出相应策略,并把响应策略转化成语音。

因此,语音交互就可以成以下这三个模块:

  • 语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成文字的过程,相当于耳朵。
  • 自然语言处理(Natural Language Processing):简称NLP,是理解和处理文本的过程,相当于大脑。
  • 语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程,相当于嘴巴。

 

https://blog.csdn.net/2301_82275412/article/details/138486739

 

 

 

LLM support audio?

https://blog.csdn.net/nbyvy/article/details/131472332

1、大语言模型为什么难以同语音相结合

    目前部分LLM能够理解但是难以生成多模态内容
    音频信号是连续的,而LLM接受的输入需要离散的,二者存在gap

2、主流的两种语音语言模型(speech-language model)范式

    cascading paradigm:直接在LLM接入TTS和ASR模型,LLM作为一个控制中枢来处理语音任务;LLM只作为内容生成器,并不参与语音维度的生成,无法构建像情绪、韵律这样的附加信息
    spoken language models:将语音信号编码成离散的表征并通过LLM建模;目前的方法难以理解音频语义特征,更无法理解音频文本跨模态关系

为解决上述方法的缺陷,SpeechGPT构建跨模态指令数据集SpeechInstruct和模态链路指令数据集,并且设计三阶段训练任务

 

LLM really support audio but few

SALMONN = 字节+清华

https://github.com/bytedance/SALMONN/

SALMONN is a large language model (LLM) enabling speech, audio events, and music inputs, which is developed by the Department of Electronic Engineering at Tsinghua University and ByteDance. Instead of speech-only input or audio-event-only input, SALMONN can perceive and understand all kinds of audio inputs and therefore obtain emerging capabilities such as multilingual speech recognition and translation and audio-speech co-reasoning. This can be regarded as giving the LLM "ears" and cognitive hearing abilities, which makes SALMONN a step towards hearing-enabled artificial general intelligence.

 

  1. Same as How to train a model: 1-4.
  2. Download salmonn v1 to ckpt.
  3. Running with python3 cli_inference.py --cfg-path configs/decode_config.yaml in A100-SXM-80GB. Now you can input wav_path and prompt. Enjoy yourself !

 

QWEN AUDIO

qwen/Qwen-Audio

https://modelscope.cn/models/qwen/Qwen-Audio

Qwen-Audio 是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。Qwen-Audio 系列模型的特点包括:

  • 音频基石模型:Qwen-Audio是一个性能卓越的通用的音频理解模型,支持各种任务、语言和音频类型。在Qwen-Audio的基础上,我们通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。
  • 兼容多种复杂音频的多任务学习框架:为了避免由于数据收集来源不同以及任务类型不同,带来的音频到文本的一对多的干扰问题,我们提出了一种多任务训练框架,实现相似任务的知识共享,并尽可能减少不同任务之间的干扰。通过提出的框架,Qwen-Audio可以容纳训练超过30多种不同的音频任务;
  • 出色的性能:Qwen-Audio在不需要任何任务特定的微调的情况下,在各种基准任务上取得了领先的结果。具体得,Qwen-Audio在Aishell1、cochlscene、ClothoAQA和VocalSound的测试集上都达到了SOTA;
  • 支持多轮音频和文本对话,支持各种语音场景:Qwen-Audio-Chat支持声音理解和推理、音乐欣赏、多音频分析、多轮音频-文本交错对话以及外部语音工具的使用(如语音编辑)。

 

LLaSM

https://github.com/LinkSoul-AI/LLaSM

第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。

 

TTS

ChatTTS

https://github.com/2noise/ChatTTS

https://chattts.com/

What is ChatTTS?

ChatTTS is a voice generation model designed for conversational scenarios, specifically for the dialogue tasks of large language model (LLM) assistants, as well as applications such as conversational audio and video introductions. It supports both Chinese and English, and through the use of approximately 100,000 hours of Chinese and English data for training, ChatTTS demonstrates high quality and naturalness in speech synthesis.

 

TTS

https://github.com/coqui-ai/TTS

标签:https,LLM,音频,Qwen,语音,Audio
From: https://www.cnblogs.com/lightsong/p/18330778

相关文章

  • spellman电源维修XRM50P50X3839 NY11788
    电源维修的常见故障包括:无法开机、电源烧、短路、输出偏小、电源不通电、电源风扇不转,无输出,缺项,输出过高,电源烧毁,灯不亮,不动作等故障维修。Spellman的专有高压技术,再加上MT电路,导致了一个紧凑和轻量级的模块,是理想的OEM应用布置来获得的高压输出,而较低的电压单元则采用稳健......
  • 基于funasr+pyaudio实现电脑本地麦克风实时语音识别项目语音转文本python实现
    【框架地址】https://github.com/modelscope/FunASR【简单介绍】FunASR是一个功能全面的语音识别工具包,支持多种预训练模型的推理和微调,提供高精度和高效能的语音识别服务。结合PyAudio库,可以实现电脑本地麦克风实时语音识别项目。该项目首先通过PyAudio库捕获麦克风输入的......
  • 从流读取时,PyAudio Stream 导致 Windows 堆损坏(-1073740940 (0xC0000374))
    我在尝试读取PyAudio的Stream时遇到了问题。它因退出代码而崩溃-1073740940这是一个Windows堆损坏错误0xC0000374它发生在我从PyAudio流读取的行中,如下所示:stream.read(chunk_size)我也看到它崩溃了-1073741819ACCESS_VIOLATION_......
  • Qwen2-Audio:对话式AI突破,让你“声”临其境
     阿里巴巴最新推出的音频处理模型Qwen2-Audio,不仅能直接用语音聊天,还能像一位专业的听觉大师一样分析各种声音,功能强大得令人难以置信。Qwen2-Audio可以通过语音聊天和音频分析两种方式与用户互动,用户无需区分这两种模式,模型能够智能识别并在实际使用中无缝切换。  语音聊......
  • LLM大模型:deepspeed实战和原理解析
     多年前搞大数据,因为单节点无力存储和计算PB级别的数据,所以hadoop这种分布式存储和计算框架是标配!如今搞大模型,仍然需要对大量样本数据做计算,因为涉及矩阵运算,单机单卡运算效率太低,也涉及到分布式计算了,大模型时代的分布式pre-train和Inference框架就有现成的—deepspeed!......
  • 鸣潮游戏错误126:加载x3daudio1_7.dll失败的全面解析与修复指南
    在畅玩鸣潮游戏时,不少玩家可能会遭遇错误代码「126」,提示“加载x3daudio1_7.dll失败,该文件缺失或损坏”。这个问题看似棘手,实则有迹可循,通过本文,我们将深入探讨其成因,并提供详细的解决步骤,帮助你重拾游戏乐趣。x3daudio1_7.dll是什么?x3daudio1_7.dll是一个与DirectX音频组件......
  • 加州大学伯克利分校等发表的RouteLLM:利用偏好数据学习路由大语言模型
    加州大学伯克利分校等发表的RouteLLM:利用偏好数据学习路由大语言模型原创 无影寺 AI帝国 2024年07月18日08:03 广东一、结论写在前面论文标题:RouteLLM:LearningtoRouteLLMswithPreferenceData论文链接:https://arxiv.org/pdf/2406.18665v2LLM在广泛的任务中......
  • 通过instructor 对于LLM 进行结构化输出
    很多时候我们是需要对于LLM生成的内容进行结构化输出的,比如我们希望利用LLM的能力,对于用户发布的内容进行情感分析,或者对于文档内容提取关键信息并转换为结构化的内容,instructor是一个很不错的选择(支持多种语言的),以下演示下基于python的参考使用大模型部署为了方便使用了......
  • Python:如何使用pyaudio或sounddevice等库进行自动录音?
    我想做一个项目,需要满足以下录音要求:程序启动后,会在后台不断检测麦克风的声音,当声音分贝大于一定值时打开录音流级别,当分贝低于一定级别时关闭录音流并保存为wav文件。我知道原理,但我无法使用这些库来实现。我想实现以上结果使用Python实现自动录音以下代......
  • [AI]在家中使用日常设备运行您自己的 AI 集群.适用于移动、桌面和服务器的分布式 LLM
    创作不易只因热爱!!热衷分享,一起成长!“你的鼓励就是我努力付出的动力”AI发展不可谓不快,从ollama个人电脑CPU运行到现在,日常设备AI集群.下面对比一下,两款开源AI大模型的分布式推理应用,exo和cake.1.AI集群推理应用exo和cake的简单对比......