首页 > 其他分享 >Whisper

Whisper

时间:2023-03-07 18:01:49浏览次数:31  
标签:编码器 Whisper 音频 通常 设置 大小 文本

模型理解

Whisper模型参数ModelDimensions的含义如下:

  • n_mels:Mel频率的数量,用于音频处理,通常设置为80。
  • n_audio_ctx:输入音频的上下文大小,即处理音频的窗口大小,通常设置为1500。
  • n_audio_state:音频编码器的隐藏状态大小,通常设置为1024。
  • n_audio_head:音频自注意力头的数量,用于音频编码器,通常设置为16。
  • n_audio_layer:音频编码器的层数,通常设置为24。
  • n_vocab:词汇表的大小,用于文本处理,即模型可以处理的单词数量,通常设置为51865。
  • n_text_ctx:输入文本的上下文大小,即处理文本的窗口大小,通常设置为448。
  • n_text_state:文本编码器的隐藏状态大小,通常设置为1024。
  • n_text_head:文本自注意力头的数量,用于文本编码器,通常设置为16。
  • n_text_layer:文本编码器的层数,通常设置为24。

这些参数定义了Whisper模型的基本架构和各层的大小。通常,这些参数需要根据您的数据集和任务进行调整。例如,如果您的数据集包含更多单词,您可能需要增加词汇表的大小。如果您的输入音频和文本的长度更长,您可能需要增加音频和文本的上下文大小。

模型运行

命令行:whisper /home/mgtv/test_whisper/test2.mp4 --model medium --language zh

标签:编码器,Whisper,音频,通常,设置,大小,文本
From: https://www.cnblogs.com/qwangg/p/17188964.html

相关文章