音频处理

音频处理

时间：2023-08-15 15:01:11浏览次数：45

音频转换

ffmpeg

将音频转换为16k的采样频率的Wav

ffmpeg -i 2023.3.3.mp4 -af "aresample=16000" -ac 1 2023_3_3_16k.wav

moviepy

spleeter

目前spleeter提供三种音轨分离方式，其中：

Vocals (singing voice) / accompaniment separation (2 stems) —两个音轨：背景和人声
Vocals /drums / bass / other separation (4 stems) —四个音轨
Vocals / drums / bass /piano / other separation (5 stems)—五个音轨

去除噪音/保留人声

语音拆分

slicer-gui

ModelScope

语音标注

https://modelscope.cn/models/damo/speech_ptts_autolabel_16k/summary

KAN-TTS

一个语音合成系统通常由两部分组成，分别是语言分析部分和声学系统部分，也被称为前端部分和后端部分。

语言分析部分主要是根据输入的文字信息进行分析，生成对应的语言学特征，想好该怎么读；
声学系统部分主要是根据语音分析部分提供的语音学特征，生成对应的音频，实现发声的功能，其中声学系统部分直接影响了合成语音的自然度和真实感。

如人类通过大脑传递神经信号驱动肺部和声带发出声音一样，计算机对输入的文本，先后经过语言分析和声学系统，最终合成语音信号。

在语音合成领域，类似FastSpeech的Parallel模型是目前的主流，它针对基频（pitch）、能量（energy）和时长（duration）三种韵律表征分别建模。但是，该类模型普遍存在一些效果和性能上的问题，例如，独立建模时长、基频、能量，忽视了其内在联系；完全非自回归的网络结构，无法满足工业级实时合成需求；帧级别基频和能量预测不稳定。

SAMBERT是一种基于Parallel结构的改良版TTS模型，它具有以下优点：

建立时长与基频、能量的依赖关系，并使用自回归结构的时长预测模块，提升预测韵律的自然度和多样性
Decoder使用PNCA自回归结构，降低带宽要求，支持CPU实时合成
音素级别建模基频、能量，提高容错率
以预训练BERT语言模型为编码器，在小规模数据上效果更好

标签：处理,合成,基频,音轨,语音,部分,音频
From： https://blog.51cto.com/shoucuohulu/7089164

VTK 实例45：理想低通滤波器（频域处理）
1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageIdealLowPass.h>8#include&l......
VTK 实例46：巴特沃斯低通滤波器（频域处理）
1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageButterworthLowPass.h>8#incl......
VTK 实例47：理想高通滤波器（频域处理）
1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageIdealHighPass.h>8#include&......
VTK 实例48：巴沃斯特高通滤波器（频域处理）
1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageButterworthHighPass.h>8#inc......
MyBatis处理SQL字段类型date与datetime
1、MyBatis中jdbcType简介MyBatis处理日期有两种的jdbcType，如下所示：（1）jdbcType=DATE（2）jdbcType=TIMESTAMP注意：此时的DATE指的是java.sql.Date，不是java.util.Date，要注意两者的区别。java.util.Date通常情况下用它获取当前时间，java.sql.Date是针对SQL语句使用的，它只包含日期而没有......
实战：工作中对并发问题的处理 | 京东物流技术团队
1.问题背景问题发生在快递分拣的流程中，我尽可能将业务背景简化，让大家只关注并发问题本身。分拣业务针对每个快递包裹都会生成一个任务，我们称它为task。task中有两个字段需要关注，一个是分拣中发生的异常（exp_type），另一个是分拣任务的状态（status）。另外，需要关注分拣状态上报接口，通过......
VTK 实例44：二维图像快速傅里叶变换（频域处理）
1#include"vtkAutoInit.h"2VTK_MODULE_INIT(vtkRenderingOpenGL2);3VTK_MODULE_INIT(vtkInteractionStyle);45#include<vtkSmartPointer.h>6#include<vtkImageData.h>7#include<vtkImageFFT.h>8#include<......
直播源码异步处理技术：处理用户请求的挑战
在网络技术的快速发展背景下，直播源码平台已经成为了人们社交娱乐的重要工具，直播源码平台的用户会在平台内进行观看直播、短视频，与其他用户进行交流、交谈。由于直播源码平台用户数量的逐日增加，使得直播源码平台每天要应对、处理大量的用户请求，增加了平台的压力，为了应对每天处理大......
实战：工作中对并发问题的处理
1.问题背景问题发生在快递分拣的流程中，我尽可能将业务背景简化，让大家只关注并发问题本身。分拣业务针对每个快递包裹都会生成一个任务，我们称它为task。task中有两个字段需要关注，一个是分拣中发生的异常（exp_type），另一个是分拣任务的状态（status）。另外，需要关注分拣状态上报接口，通......
(十五)MIT公开课雷达系统工程之杂波抑制(多普勒处理)
0写在前面岁月静好是片刻，一地鸡毛是日常，即使世界偶尔薄凉，内心也要繁华似锦，浅浅喜，静静爱，深深懂得，淡淡释怀，望远处的是风景，看近处的才是人生，唯愿此生，岁月无恙；只言温暖，不语悲伤。——杨绛1基本介绍问题：不仅仅是地杂波。一个陷波为零的多普勒滤波器不能充分抑制雨杂波。MTI对消器的问......