网站首页
编程语言
数据库
系统相关
其他分享
编程问答
voc1
2025-01-12
SamOut v3 发布-感叹转义词表能力太强【用em(voc_size=8000多,h)表达2000w 词汇 竟然还能,表达5000w词汇,怎一个愁字了得】
项目地址说明v3主要更换了sky-pile数据集v3使用了转义词表技术,使得8000多的emsize能够表达2000多w的词表v3由于词表是使用jieaba分词,自然在相同token_id数量的情况下信息量更多(更多的字符)v3解码速度保持不变,同样训练消耗算力不变v3幻觉不变v3解码消耗显存