首页 > 其他分享 >从视频到音频:使用VIT进行音频分类

从视频到音频:使用VIT进行音频分类

时间:2023-01-05 11:04:06浏览次数:53  
标签:视频 分类 音频 音乐 VIT 使用

就机器学习而言,音频本身是一个有广泛应用的完整的领域,包括语音识别、音乐分类和声音事件检测等等。传统上音频分类一直使用谱图分析和隐马尔可夫模型等方法,这些方法已被证明是有效的,但也有其局限性。近期VIT已经成为音频任务的一个有前途的替代品,OpenAI的Whisper就是一个很好的例子。

在本文中,我们将利用ViT - Vision Transformer的是一个Pytorch实现在音频分类数据集GTZAN数据集-音乐类型分类上训练它。

https://avoid.overfit.cn/post/1f4156a56139417d97745066c0b497ec

标签:视频,分类,音频,音乐,VIT,使用
From: https://www.cnblogs.com/deephub/p/17026915.html

相关文章