首页 > 其他分享 >llama3的改进

llama3的改进

时间:2024-04-21 09:14:11浏览次数:22  
标签:vocab llama3 token 改进 num hidden id size

llama2
{
"_name_or_path": "TheBloke/Llama-2-7B-fp16",
"architectures": [
"LlamaForCausalLM"
],
"bos_token_id": 1,
"eos_token_id": 2,
"hidden_act": "silu",
"hidden_size": 4096,
"initializer_range": 0.02,
"intermediate_size": 11008,
"max_position_embeddings": 2048,
"model_type": "llama",
"num_attention_heads": 32,
"num_hidden_layers": 32,
"pad_token_id": 0,
"rms_norm_eps": 1e-05,
"tie_word_embeddings": false,
"torch_dtype": "float32",
"transformers_version": "4.30.2",
"use_cache": true,
"vocab_size": 32000
}

llama3:
{
"_name_or_path": "../../llama-3-8b",
"architectures": [
"LlamaForCausalLM"
],
"attention_bias": false,
"attention_dropout": 0.0,
"bos_token_id": 128000,
"eos_token_id": 128001,
"hidden_act": "silu",
"hidden_size": 4096,
"initializer_range": 0.02,
"intermediate_size": 14336,
"max_position_embeddings": 8192,
"model_type": "llama",
"num_attention_heads": 32,
"num_hidden_layers": 32,
"num_key_value_heads": 8,
"pretraining_tp": 1,
"rms_norm_eps": 1e-05,
"rope_scaling": null,
"rope_theta": 500000.0,
"tie_word_embeddings": false,
"torch_dtype": "bfloat16",
"transformers_version": "4.39.3",
"use_cache": true,
"vocab_size": 128256
}

区别:
"bos_token_id": 128000, 跟2不一样
"eos_token_id": 128001, 跟2不一样
"intermediate_size": 14336,比2大
"max_position_embeddings": 8192,比2大 2只有2k说明句子长度变成8k了.
"torch_dtype": "bfloat16", 2代用的32位来存储的. 说明16位模型是更好的效率的方案.
"transformers_version": "4.38.2", 需要的transformers的版本也更高了.
"vocab_size": 128256 #添加了大量的vocab_size 之前只有3w2
"num_key_value_heads": 8, key value 的维度比q要小四倍.

整体上都是维度上的微调和字典增加.

ps

image
可以看到翻了这个vocab, 一个中文都没有, 这下好了老美知道我们遥遥领先了,已经不需要他们的中文支持了.这下稳了,欧耶.剩下喜欢中文llama3的自己调用vocab.add_token添加中文token再finetune吧.

试了,3代可以编码中文, 只不过编码之后的文字很奇怪.
image
具体中文能力还是看测试吧.

标签:vocab,llama3,token,改进,num,hidden,id,size
From: https://www.cnblogs.com/zhangbo2008/p/18148569

相关文章

  • 本地部署Llama3-8B/72b 并进行逻辑推理测试
    美国当地时间4月18日,Meta开源了Llama3大模型,目前开源版本为8B和70B。Llama3模型相比Llama2具有重大飞跃,并在8B和70B参数尺度上建立了LLM模型的新技术。由于预训练和后训练的改进,Llama3模型是目前在8B和70B参数尺度上存在的最好的模型。训练后程序的改进大大降低了错误拒绝率,改善......
  • 国内首家!百度智能云宣布支持Llama3全系列训练推理
    继18日Llama3的8B、70B大模型发布后,百度智能云千帆大模型平台19日宣布在国内首家推出针对Llama3全系列版本的训练推理方案,便于开发者进行再训练,搭建专属大模型,现已开放邀约测试。目前,百度智能云千帆大模型平台中各种尺寸模型定制工具ModelBuilder已预置了最全面最丰富的大模型,支......
  • 传统Item-Based协同过滤推荐算法改进
    前言今天要读的论文为一篇于2009年10月15日发表在《计算机研究与发展》的一篇会议论文,论文针对只根据相似性无法找到准确可靠的最近邻这个问题,提出了结合项目近部等级与相似性求取最近邻的新方法;此外针对系统中新加入的项目,因为其上评分信息的匾乏,求得的最近邻往往是不准确的,为此......
  • 基于注意力机制与改进TF-IDF的推荐算法
    前言本篇文章是2020年8月发表于《计算机工程》的一篇期刊论文,文章名称《基于注意力机制与改进TF-IDF的推荐算法》。文章针对传统推荐系统主要依赖用户对物品的评分数据而无法学习到用户和项目的深层次特征的问题,提出基于注意力机制与改进TF-IDF的推荐算法(AMITI)。将双层注意力......
  • 强化学习-DQN改进及一些强化学习路由优化论文笔记
    RL通用超参数DQN改进DuelStructureVS→该state在当前policy下的valueQSA→该state进行这个action在当前policy下的valueadvantage=VS-QSA裁剪区域的确定?34194按行输出min,33193min为90*90Replaybufferbackgroundknowledge[bisectModule]python自带的二......
  • Pointnet++改进即插即用系列:全网首发iRMB反向残差移动块 |即插即用,提升特征提取模块性
    简介:1.该教程提供大量的首发改进的方式,降低上手难度,多种结构改进,助力寻找创新点!2.本篇文章对Pointnet++特征提取模块进行改进,加入iRMB,提升性能。3.专栏持续更新,紧随最新的研究内容。目录1.理论介绍2.修改步骤2.1步骤一     2.2步骤二     2.3步骤三......
  • R语言改进的K-Means(K-均值)聚类算法分析股票盈利能力和可视化|附代码数据
    全文链接:http://tecdat.cn/?p=32418原文出处:拓端数据部落公众号大量数据中具有"相似"特征的数据点或样本划分为一个类别。聚类分析提供了样本集在非监督模式下的类别划分。人们在投资时总期望以最小的风险获取最大的利益,面对庞大的股票市场和繁杂的股票数据,要想对股票进行合理......
  • 改进NeteaseCloudMusicGtk4:添加移除歌曲按钮
    之前已经发了一篇博客简述了如何阅读这个项目,尽管这个项目已经开源很久了,但我找了很久都没有找到怎么从播放列表移除歌曲,那就自己动手实现,再提个PR吧。运行起来应用后通过Inspector(Ctrl+Shift+I)找到希望放置按钮的位置:专辑按钮的旁边。第一步就是修改UI文件,把这个按钮显示出......
  • 针对本小组项目遇到的某个问题,按照下述步骤,商量一个改进的具体计划
    1.建立规则,仪式,流程,模式代码评审制度:建立定期的代码评审会议,确保每次提交的代码都由至少一个同事进行审查。这有助于发现潜在的资源管理不当、性能问题以及改进代码质量的机会。团队学习时刻:定期举办知识分享会议,讨论代码优化、性能调优和最佳实践等话题,提高团队成员的技术......
  • 基于融合语义信息改进的内容推荐算法。Improved content recommendation algorithm in
    引言路漫漫其修远兮,吾将上下而求索。每天一篇论文,做更好的自己。本文读的这篇论文为发表于2023年5月28日的一篇名为《基于融合语义信息改进的内容推荐算法》(基于融合语义信息改进的内容推荐算法)的文章,文章主要介绍了基于内容的推荐技术在电子商务和教育领域的广泛应用,以及传统基......