语音交互的三驾马车:ASR、NLP、TTS
https://www.woshipm.com/ai/2620327.html
01 语音交互的组成
我们以一个智能音箱的例子来开始今天的讨论:
假设我们对智能音箱天猫精灵说“放一首周杰伦的《晴天》”。天猫精灵就会说“好的,马上为你播放周杰伦的《晴天》”,并且开始播放音乐。
这个过程猫精灵都做了些什么?
首先,天猫精灵把听到的声音转化成文字,然后理解内容,最后做出相应策略,并把响应策略转化成语音。
因此,语音交互就可以成以下这三个模块:
- 语音识别(Automatic Speech Recognition):简称ASR,是将声音转化成文字的过程,相当于耳朵。
- 自然语言处理(Natural Language Processing):简称NLP,是理解和处理文本的过程,相当于大脑。
- 语音合成(Text-To-Speech):简称TTS,是把文本转化成语音的过程,相当于嘴巴。
https://blog.csdn.net/2301_82275412/article/details/138486739
LLM support audio?
https://blog.csdn.net/nbyvy/article/details/131472332
1、大语言模型为什么难以同语音相结合
目前部分LLM能够理解但是难以生成多模态内容
音频信号是连续的,而LLM接受的输入需要离散的,二者存在gap
2、主流的两种语音语言模型(speech-language model)范式
cascading paradigm:直接在LLM接入TTS和ASR模型,LLM作为一个控制中枢来处理语音任务;LLM只作为内容生成器,并不参与语音维度的生成,无法构建像情绪、韵律这样的附加信息
spoken language models:将语音信号编码成离散的表征并通过LLM建模;目前的方法难以理解音频语义特征,更无法理解音频文本跨模态关系
为解决上述方法的缺陷,SpeechGPT构建跨模态指令数据集SpeechInstruct和模态链路指令数据集,并且设计三阶段训练任务
LLM really support audio but few
SALMONN = 字节+清华
https://github.com/bytedance/SALMONN/
SALMONN is a large language model (LLM) enabling speech, audio events, and music inputs, which is developed by the Department of Electronic Engineering at Tsinghua University and ByteDance. Instead of speech-only input or audio-event-only input, SALMONN can perceive and understand all kinds of audio inputs and therefore obtain emerging capabilities such as multilingual speech recognition and translation and audio-speech co-reasoning. This can be regarded as giving the LLM "ears" and cognitive hearing abilities, which makes SALMONN a step towards hearing-enabled artificial general intelligence.
- Same as How to train a model: 1-4.
- Download salmonn v1 to
ckpt
.- Running with
python3 cli_inference.py --cfg-path configs/decode_config.yaml
in A100-SXM-80GB. Now you can inputwav_path
andprompt
. Enjoy yourself !
QWEN AUDIO
qwen/Qwen-Audio
https://modelscope.cn/models/qwen/Qwen-Audio
Qwen-Audio 是阿里云研发的大规模音频语言模型(Large Audio Language Model)。Qwen-Audio 可以以多种音频 (包括说话人语音、自然音、音乐、歌声)和文本作为输入,并以文本作为输出。Qwen-Audio 系列模型的特点包括:
- 音频基石模型:Qwen-Audio是一个性能卓越的通用的音频理解模型,支持各种任务、语言和音频类型。在Qwen-Audio的基础上,我们通过指令微调开发了Qwen-Audio-Chat,支持多轮、多语言、多语言对话。Qwen-Audio和Qwen-Audio-Chat模型均已开源。
- 兼容多种复杂音频的多任务学习框架:为了避免由于数据收集来源不同以及任务类型不同,带来的音频到文本的一对多的干扰问题,我们提出了一种多任务训练框架,实现相似任务的知识共享,并尽可能减少不同任务之间的干扰。通过提出的框架,Qwen-Audio可以容纳训练超过30多种不同的音频任务;
- 出色的性能:Qwen-Audio在不需要任何任务特定的微调的情况下,在各种基准任务上取得了领先的结果。具体得,Qwen-Audio在Aishell1、cochlscene、ClothoAQA和VocalSound的测试集上都达到了SOTA;
- 支持多轮音频和文本对话,支持各种语音场景:Qwen-Audio-Chat支持声音理解和推理、音乐欣赏、多音频分析、多轮音频-文本交错对话以及外部语音工具的使用(如语音编辑)。
LLaSM
https://github.com/LinkSoul-AI/LLaSM
第一个支持中英文双语语音-文本多模态对话的开源可商用对话模型。便捷的语音输入将大幅改善以文本为输入的大模型的使用体验,同时避免了基于 ASR 解决方案的繁琐流程以及可能引入的错误。
TTS
ChatTTS
https://github.com/2noise/ChatTTS
https://chattts.com/
What is ChatTTS?
ChatTTS is a voice generation model designed for conversational scenarios, specifically for the dialogue tasks of large language model (LLM) assistants, as well as applications such as conversational audio and video introductions. It supports both Chinese and English, and through the use of approximately 100,000 hours of Chinese and English data for training, ChatTTS demonstrates high quality and naturalness in speech synthesis.
TTS
https://github.com/coqui-ai/TTS
标签:https,LLM,音频,Qwen,语音,Audio From: https://www.cnblogs.com/lightsong/p/18330778