- 2025-01-19计算 SAMOut V3 在将词汇表从1万 增加到6千万的情况下能够减少多少参数
当我们将词汇表从60,000,000(六千万)减少到10,000时,实际上是在缩小模型的词嵌入层及其共享的语言模型头(LMHead)的规模。这将导致参数量显著减少。我们可以通过以下步骤来计算具体的参数减少量。参数量减少计算假设条件:原词汇表大小
- 2025-01-19RWKV-7 与 SamOut 的优势和劣势
RWKV-7的优势超越传统Attention范式RWKV-7引入了WKV机制,取代了传统的self-attention方法,这使得它能够在相同算力消耗下解决attention无法处理的问题。尽管SamOut也实现了高效的长文本处理能力,但两者在具体实现上有不同的侧重点和技术路径。动态状态演化RW
- 2024-12-312024年个人总结
2024年个人总结在过去的一年里,我在大型语言模型(LLM)的设计和开发方面取得了显著进展:SAMOUTLLM架构设计:成功设计了一种名为SAMOUT的创新性大型语言模型,该模型在处理更长文本时能够保持稳定的推理空间,确保了计算资源的有效利用。共享参数SAMOUTLLM:进一步优化了SAMOUT模型,通
- 2024-12-01Samout V2 0.1B 低幻觉
importtorchclassMaxState(torch.nn.Module):def__init__(self,hidden_dim,heads):super(MaxState,self).__init__()asserthidden_dim%heads==0,"Hiddensizemustbedivisiblebythenumberofheads."self.he