首页 > 其他分享 >音频处理

音频处理

时间:2023-08-15 15:01:11浏览次数:45  
标签:处理 合成 基频 音轨 语音 部分 音频

音频转换

ffmpeg

将音频转换为16k的采样频率的Wav

ffmpeg -i 2023.3.3.mp4 -af "aresample=16000" -ac 1 2023_3_3_16k.wav

moviepy


spleeter

目前spleeter提供三种音轨分离方式,其中:

  • Vocals (singing voice) / accompaniment separation (2 stems) —两个音轨:背景和人声
  • Vocals /drums / bass / other separation (4 stems) —四个音轨
  • Vocals / drums / bass /piano / other separation (5 stems)—五个音轨 


去除噪音/保留人声


语音拆分

slicer-gui


ModelScope


语音标注

https://modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary


KAN-TTS

一个语音合成系统通常由两部分组成,分别是语言分析部分和声学系统部分,也被称为前端部分和后端部分。

  • 语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学特征,想好该怎么读;
  • 声学系统部分主要是根据语音分析部分提供的语音学特征,生成对应的音频,实现发声的功能,其中声学系统部分直接影响了合成语音的自然度和真实感。

如人类通过大脑传递神经信号驱动肺部和声带发出声音一样,计算机对输入的文本,先后经过语言分析和声学系统,最终合成语音信号。

在语音合成领域,类似FastSpeechParallel模型是目前的主流,它针对基频(pitch)、能量(energy)和时长(duration)三种韵律表征分别建模。但是,该类模型普遍存在一些效果和性能上的问题,例如,独立建模时长、基频、能量,忽视了其内在联系;完全非自回归的网络结构,无法满足工业级实时合成需求;帧级别基频和能量预测不稳定。

SAMBERT是一种基于Parallel结构的改良版TTS模型,它具有以下优点:

  1. 建立时长与基频、能量的依赖关系,并使用自回归结构的时长预测模块,提升预测韵律的自然度和多样性
  2. Decoder使用PNCA自回归结构,降低带宽要求,支持CPU实时合成
  3. 音素级别建模基频、能量,提高容错率
  4. 以预训练BERT语言模型为编码器,在小规模数据上效果更好







标签:处理,合成,基频,音轨,语音,部分,音频
From: https://blog.51cto.com/shoucuohulu/7089164

相关文章

  • VTK 实例45:理想低通滤波器(频域处理)
    1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageIdealLowPass.h>8#include&l......
  • VTK 实例46:巴特沃斯低通滤波器(频域处理)
    1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageButterworthLowPass.h>8#incl......
  • VTK 实例47:理想高通滤波器(频域处理)
    1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageIdealHighPass.h>8#include&......
  • VTK 实例48:巴沃斯特高通滤波器(频域处理)
    1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageButterworthHighPass.h>8#inc......
  • MyBatis处理SQL字段类型date与datetime
    1、MyBatis中jdbcType简介MyBatis处理日期有两种的jdbcType,如下所示:(1)jdbcType=DATE(2)jdbcType=TIMESTAMP注意:此时的DATE指的是java.sql.Date,不是java.util.Date,要注意两者的区别。java.util.Date通常情况下用它获取当前时间,java.sql.Date是针对SQL语句使用的,它只包含日期而没有......
  • 实战:工作中对并发问题的处理 | 京东物流技术团队
    1.问题背景问题发生在快递分拣的流程中,我尽可能将业务背景简化,让大家只关注并发问题本身。分拣业务针对每个快递包裹都会生成一个任务,我们称它为task。task中有两个字段需要关注,一个是分拣中发生的异常(exp_type),另一个是分拣任务的状态(status)。另外,需要关注分拣状态上报接口,通过......
  • VTK 实例44:二维图像快速傅里叶变换(频域处理)
    1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageFFT.h>8#include<......
  • 直播源码异步处理技术:处理用户请求的挑战
    在网络技术的快速发展背景下,直播源码平台已经成为了人们社交娱乐的重要工具,直播源码平台的用户会在平台内进行观看直播、短视频,与其他用户进行交流、交谈。由于直播源码平台用户数量的逐日增加,使得直播源码平台每天要应对、处理大量的用户请求,增加了平台的压力,为了应对每天处理大......
  • 实战:工作中对并发问题的处理
    1.问题背景问题发生在快递分拣的流程中,我尽可能将业务背景简化,让大家只关注并发问题本身。分拣业务针对每个快递包裹都会生成一个任务,我们称它为task。task中有两个字段需要关注,一个是分拣中发生的异常(exp_type),另一个是分拣任务的状态(status)。另外,需要关注分拣状态上报接口,通......
  • (十五)MIT公开课雷达系统工程之杂波抑制(多普勒处理)
    0写在前面岁月静好是片刻,一地鸡毛是日常,即使世界偶尔薄凉,内心也要繁华似锦,浅浅喜,静静爱,深深懂得,淡淡释怀,望远处的是风景,看近处的才是人生,唯愿此生,岁月无恙;只言温暖,不语悲伤。——杨绛1基本介绍问题:不仅仅是地杂波。一个陷波为零的多普勒滤波器不能充分抑制雨杂波。MTI对消器的问......