音频转换
ffmpeg
将音频转换为16k的采样频率的Wav
ffmpeg -i 2023.3.3.mp4 -af "aresample=16000" -ac 1 2023_3_3_16k.wav
moviepy
spleeter
目前spleeter提供三种音轨分离方式,其中:
- Vocals (singing voice) / accompaniment separation (2 stems) —两个音轨:背景和人声
- Vocals /drums / bass / other separation (4 stems) —四个音轨
- Vocals / drums / bass /piano / other separation (5 stems)—五个音轨
去除噪音/保留人声
语音拆分
slicer-gui
ModelScope
语音标注
https://modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary
KAN-TTS
一个语音合成系统通常由两部分组成,分别是语言分析部分和声学系统部分,也被称为前端部分和后端部分。
- 语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学特征,想好该怎么读;
- 声学系统部分主要是根据语音分析部分提供的语音学特征,生成对应的音频,实现发声的功能,其中声学系统部分直接影响了合成语音的自然度和真实感。
如人类通过大脑传递神经信号驱动肺部和声带发出声音一样,计算机对输入的文本,先后经过语言分析和声学系统,最终合成语音信号。
在语音合成领域,类似FastSpeech的Parallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。
SAMBERT是一种基于Parallel结构的改良版TTS模型,它具有以下优点:
- 建立时长与基频、能量的依赖关系,并使用自回归结构的时长预测模块,提升预测韵律的自然度和多样性
- Decoder使用PNCA自回归结构,降低带宽要求,支持CPU实时合成
- 音素级别建模基频、能量,提高容错率
- 以预训练BERT语言模型为编码器,在小规模数据上效果更好