上一个博客我们看了rope. 那么llama的hidden_states就没啥难点了.
再整体把握一下hf里面llama的代码结构.
文件是:D:\Users\admin\miniconda3\Lib\site-packages\transformers\models\llama\modeling_llama.py
基座:
class LlamaModel(LlamaPreTrainedModel):
这个模型输入 bs, seq_len
输出 bs, seq_len, dim
模型:class LlamaForCausalLM(LlamaPreTrainedModel):
等于LlamaModel接一个linear, 输出下一个字的概率.
class LlamaForCausalLM 跟这个一样. 都是下一个字概率.
class LlamaForSequenceClassification: 句子分类.
这些分类可以是二分类,多分类.