首页 > 其他分享 >HuggingFace Transformer 模型下面都有些什么内容?

HuggingFace Transformer 模型下面都有些什么内容?

时间:2024-11-23 23:00:26浏览次数:8  
标签:Transformer tokenizer 模型 HuggingFace json token teach config

以 Qwen2.5-0.5B 模型为例,看一下具体都有哪些文件。
首先将 Hugging Face 上的模型拉下来 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B,如果模型太大的话,可以执行 git clone https://huggingface.co/Qwen/Qwen2.5-0.5B --depth 1,只下载最新版本的模型就行了。

下载完能看到有以下文件:

config.json
merges.txt
tokenizer_config.json
generation_config.json
model.safetensors
tokenizer.json
LICENSE
README.md
vocab.json

其中最重要的就是 model.safetensors 了,保存了神经网络所有的参数,也是体积最大的文件。

config.jsongeneration_config.json 中保存了模型的一些基础信息。

再来看一下几个跟文本的 tokenization 相关的文件,分别包含了以下内容:

  • vocab.json token 与其序号的对应关系
  • merges.txt 合并后的 token 字符串,比如词根 teach,对应的单词在这个文件中有6行对应的:Ġteach erĠteach ingĠteach ersĠteach esĠteach ings. teacher
  • tokenizer_config.json tokenizer 的配置,包含了训练中用到的一些特殊字符的 token,比如 <|im_start|><|endoftext|>
  • tokenizer.json 包含了词表、merges 和特殊 token

如果仔细看一下 vocab.json 文件的内容,并不能找到中文字符对应的 token,但是 Qwen 模型是支持中文的,这是怎么处理的呢,原来这里还多加了一层编码。比如中文的“有”字,在文件中对应的字符是 ä¼ļ 对应的序号是 36993,可以通过 tokenizer.convert_ids_to_tokens 方法来进行转换

标签:Transformer,tokenizer,模型,HuggingFace,json,token,teach,config
From: https://www.cnblogs.com/cdyang/p/18565170/huggingface-model-contents

相关文章

  • 基于Transformer实现电影评论星级分类任务
    基于Transformer实现电影评论星级分类任务1.介绍电影评论星级分类任务是自然语言处理中的一个重要应用,旨在根据用户的文本评论预测其对应的星级评分。本文将介绍如何基于Transformer模型来进行这项任务。2.应用使用场景电商平台:分析用户对商品的评论并自动为其打分,以......
  • 第四期书生大模型实战营 基础岛 第5关
    XTuner微调个人小助手认知任务注:微调内容需要使用30%A100才能完成!!!环境配置与数据准备1. 使用conda先构建一个Python-3.10的虚拟环境,并激活ps:若root中存在Tutorial文件夹记得先删除哦,不然之后在“创建一个用于存储微调数据的文件夹”时有出现问题的TAT。cd~#gi......
  • YOLOv11改进策略【Head】| 结合CVPR-2024 中的DynamicConv 动态卷积 改进检测头, 优化
    一、本文介绍本文记录的是利用DynamicConv优化YOLOv11的目标检测网络模型。在大规模训练中,模型的参数量越多,FLOPs也越高,但在一些对计算资源有限制的场景下,需要低FLOPs的模型同时又希望模型能从大规模预训练中受益。传统的方法很难在增加参数的同时保持低FLOPs,因此Dynamic......
  • 那些学【大模型】的,能骂醒一个算一个
    为啥说胡乱自学大模型的,能骂醒一个算一个。因为很多人学会个AI工具就觉得自己会玩大模型了,其实你才刚入门!随着人工智能技术的飞速发展,大模型研究已成为该领域的一大热点。这些研究覆盖了众多方向,每个方向都面临着独特的研究焦点和挑战。本文将逐一探讨一些备受关注的研究方......
  • AI 大模型催生的新职业,提示词工程师是什么?
    全方位解析“提示词工程师”。‍AI大模型技术正以前所未有的速度重塑我们的未来。它们不仅仅是冷冰冰的算法集合,更是拥有无限创造力的智能体。而在这个智能体的背后,有一群关键的角色——提示词工程师(PromptEngineer)。顾名思义,这类人是专门负责设计和优化AI大模型的提......
  • 大模型RAG面试高频知识点
    看到很多同学对RAG比较感兴趣,但是在面试中被问麻了,不知道如何突出自己的能力。就跟之前做GBDT、BERT和LLM微调一样,我们做的不仅仅是算法本身,而是解决问题的项目方案。让大家恨不得在简历上删除的RAG项目,大致有以下几个特点:1、demo简单:RAG易学难精,搭建一个demo非常简单,但......
  • Cesium初级开发教程之六:模型#model
    一、原理cesium只支持glb和gltf两种模型格式,可以通过gltf的模型node控制节点运动,加载模型的方式主要是entity和primitives两种方式。二、效果图三、代码1、entityviewer.trackedEntity可以将相机聚焦到entity上,并可以围绕entity旋转缩放相机,viewFrom可以调整相机围绕en......
  • 大模型面试——电子科大硕士,今天面试了一个电子科大的校招生
    最近团队一直在招人,金九银十谁家都不想错过优秀的人,请HR每人一杯奶茶拉点人情。今天面到了一个比较满意的校招生,之前也在多家大厂实习过,做过大模型微调、RAG和多模态相关工作他首先介绍的是一个多模态大模型微调项目,采用了whiser+llama3的训练方式,构建mlp层+对比学习训练......
  • 大模型在金融领域落地思路与实践
    导读恒生电子大模型在很多垂直领域均有落地的思路与实践,本文主要分享金融领域的典型案例,并结合案例进一步思考大模型在垂域实践落地的共性问题。前排提示,文末有大模型AGI-CSDN独家资料包哦!今天的介绍会围绕下面四点展开:恒生电子的大模型应用实践大模型时代的知识图谱......
  • 大模型时代 AI 技术在金融行业的创新应用
    导读本次分享主题为大模型时代AI基础软件在金融行业的部署应用,分享内容将聚焦于金融行业,重点介绍某银行在AI基础软件部署和应用方面的经验与心得。前排提示,文末有大模型AGI-CSDN独家资料包哦!本次分享主要分为以下三个部分:大模型时代,AI技术在金融行业的应用趋势......