• 2024-09-30nlp任务之预测中间词-huggingface
    目录1.加载编码器1.1编码试算 2.加载数据集 3.数据集处理 3.1map映射:只对数据集中的'sentence'数据进行编码3.2用filter()过滤 单词太少的句子过滤掉3.3截断句子 4.创建数据加载器Dataloader 5. 下游任务模型 6.测试预测代码 7.训练代码 8.保存与加载模
  • 2024-09-28huggingface的transformers与datatsets的安装与使用
    目录1.安装 2.分词2.1tokenizer.encode() 2.2tokenizer.encode_plus ()2.3tokenizer.batch_encode_plus() 3.添加新词或特殊字符 3.1tokenizer.add_tokens()3.2 tokenizer.add_special_tokens() 4.datasets的使用4.1加载datasets 4.2从dataset中取数据  4.3对datas
  • 2024-09-261.1 HuggingFists简介(一)
    HuggingFists是一款低代码的AI应用开发及运营平台。有别于很多同类型的开发平台,其采用了传统数据科学平台的技术架构。因此,其不但可以帮助用户使用LLM在内的各类AI模型快速搭建出RAG(检索增强生成)、Agent(智能体)、知识图谱等应用;还可以帮助用户完成全结构(结构、半结构、非结
  • 2024-09-17huggingface 的 mnist 数据集的使用
    由于原始的地址设置了登陆权限,所以,选择huggingface的mnist数据集使用。数据装载首先到hf网站下载相关数据集,地址是ylecun/mnist,然后在安装hf设计的数据集加载套件datasets工具包。用huggingface提供的工具下载到本地目录huggingface-clidownload--repo-typed
  • 2024-09-17huggingface上数据集常用格式Parquet及调用
    Parquet格式解释及词解Parquet,中文通常翻译为帕奎或帕凯,是一种高效的列式存储格式。为什么叫Parquet?Parquet这个词源自法语,指的是一种镶木地板。这种地板是由许多小块木块拼凑而成的,每个木块代表一个数据列。这种比喻形象地说明了Parquet格式的存储方式。Parquet的特点和优
  • 2024-09-11如何使用huggingface下载数据集和预训练模型
            如果各位在下载huggingface上的模型和数据库也会出现“connectclosed/failed”等错误,不妨试试下面的解决方案,思路大致是,通过设置镜像的方式来解决。下载数据集1.找到你要下载的数据库名称,并复制2.打开终端,并选择需要使用的conda环境,编写bash文件(或者
  • 2024-09-09Hugging Face 的应用
    大纲Hugging-Face介绍Hugging-Face大语言模型LLM管理Transformers机器学习框架文本生成推理(TGI)HuggingFaceHugging-Face--大语言模型界的GithubHuggingFace专门开发用于构建机器学习应用的工具。该公司的代表产品是其为自然语言处理应用构建的transformers库,以及允
  • 2024-09-09Hugging Face 的应用
    大纲Hugging-Face介绍Hugging-Face大语言模型LLM管理Transformers机器学习框架文本生成推理(TGI)HuggingFaceHugging-Face--大语言模型界的GithubHuggingFace专门开发用于构建机器学习应用的工具。该公司的代表产品是其为自然语言处理应用构建的transformer
  • 2024-08-28最强图像反推Joy_Caption结合ComfyUI Flux GGUF的使用
    前言前言对于图像的提示词反推,大家不都陌生,最开始使用的WD14反推,到我之前写的文章[Flux超强图像提示词伴侣MiniCPM-V2.6(超强)|ComfyUI中Flux实现无IPA三图创意融合]反推的效果都在增强,今天再给大家推荐一款,号称最强提示词反推工具:JoyCaption,在ComfyUI中的安装,以及结合
  • 2024-08-25【HuggingFace Transformers】BertSelfAttention源码解析
    BertSelfAttention源码解析1.BertSelfAttention类介绍1.1关键组件1.2主要方法2.BertSelfAttention类源码解析(核心简版)3.BertSelfAttention类源码解析1.BertSelfAttention类介绍BertSelfAttention类是BERT模型的核心组件之一,主要负责实现多头自注意力
  • 2024-08-24震撼❗️几乎是跪着读完的一本书❗️ HuggingFace自然语言处理详解,快速掌握HuggingFace这本书足够了
    今天又来给大家推荐一本HuggingFace的好书,这本《HuggingFace自然语言处理详解》综合性讲解HuggingFace社区提供的工具集datasets和transformers,书中包括最基础的工具集的用例演示,具体的项目实战,以及预训练模型的底层设计思路和实现原理的介绍。通过本书的学习,读者可以快速
  • 2024-08-22HuggingFace初体验
    起因StableDiffusion3的开源项目大致了解了一下项目的介绍,创新点之类的在oldenvironment基础上,配置了一下newenvironment(pip安装diffusers库、transformers库)解决了一下torch和torchvision的版本冲突问题(询问chatGPT)HuggingFace下载需要登陆的模型官网注册,梯子的原因,导
  • 2024-08-20AIGC:text2img - 文生图
    当前手头上的定制化项目,可用训练数据较少,训练的模型效果不佳。所以通过clip-interrogator获取图片获取描述后,批量进行 文生图以增加样本量。在批量生成前,先简单评测一下当前的主流文生图模型。直接上效果:MidJourney:https://huggingface.co/spaces/mukaist/Midjourne
  • 2024-08-18huggingface_hub cli 使用以及国内加速配置
    主要是一个简单记录,方便后续使用安装pipinstall-Uhuggingface_hub使用下载模型huggingface-clidownload--resume-downloadgpt2--local-dirgpt2下载数据huggingface-clidownload--repo-typedataset--resume-d
  • 2024-08-11HuggingFace的transformers 库中的tokenizer介绍
    在自然语言处理中,tokenizer是一个非常关键的组件,它将文本转化为模型可以理解的格式。这个过程通常包括以下几个步骤:1.文本标准化小写化:将所有文本转换为小写,以减少不同形式的单词(如"Apple"和"apple")被视为不同词的情况。去除标点符号:删除或替换标点符号,不过在某些场景下,
  • 2024-08-08告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
    告别HuggingFace模型下载难题:掌握高效下载策略,畅享无缝开发体验Huggingface国内开源镜像:https://hf-mirror.com/里面总结了很多下载的方法,下面进行一一讲解方法一:网页下载在模型主页的FilesandVersion中中可以获取文件的下载链接。无需登录直接点击下载,还可以复制下载
  • 2024-08-05为什么 Langchain HuggingFaceEmbeddings 模型尺寸与 HuggingFace 上所述的不一样
    我使用的是langchainHuggingFaceEmbeddings模型:dunzhang/stella_en_1.5B_v5。当我查看https://huggingface.co/spaces/mteb/leaderboard时,我可以看到型号是8192。但当我这样做时len(embed_model.embed_query("heyyou"))它给了我1024。请问为什么会有这种差
  • 2024-08-01使用snapshot_download配置代理多线程下载模型
    snapshot_downloadhuggingface官方提供了snapshot_download方法下载完整模型,参数众多、比较完善。支持断点续传、多线程、指定路径、配置代理、排除特定文件等功能。然而有两个缺点:1))该方法依赖于transformers库,而这个库是个开发用的库,对于自动化运维有点重;2)该方法调用
  • 2024-08-01Marker效果试用,也是pdf2md
        主要原理Marker的工作原理基于深度学习模型。它首先通过OCR技术(如果需要的话)提取文本(采用启发式算法和tesseract工具),然后检测页面布局并确定阅读顺序(使用布局分割器[1]和列检测器[2])。接下来,Marker会对每个文本块进行清洁和格式化处理(运用启发式算法和nougat[3
  • 2024-08-01Hugging Face Access Tokens 四种用法
    访问HuggingFace中的资源,需要使用AccessTokens,可以在HuggingFace设置页面(https://huggingface.co/settings/tokens)生成自己的token。一旦你获得了token,可以有下面几种方法使用它:一、直接在代码中传递token类似如下代码,在代码中直接传递HuggingFace的API令牌。fro
  • 2024-07-30无法在 Llama Index 中加载 HuggingFace Embeddings llama3.1
    我有一个非常简单的代码,如下所示:fromllama_index.embeddings.huggingfaceimportHuggingFaceEmbeddingembed_model=HuggingFaceEmbedding(model_name="meta-llama/Meta-Llama-3-8B")我看到这个模型,meta-llama/Meta-Llama-3-8B,只有4.5GB,而我有16GBRAM,最多只使用20
  • 2024-07-29探索10个流行嵌入库:AI文本嵌入的优势与局限
      每周跟踪AI热点新闻动向和震撼发展想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行!订阅:https://
  • 2024-07-27isinstance() arg 2 必须是类型、类型元组或联合
    我在尝试训练模型时收到一条错误消息,但出于某种原因,每次更改模型时它都会给我相同的消息。以下是代码:#Definetrainingargumentstraining_args=TrainArgument(output_dir="bert_results",num_train_epochs=3,per_device_train_batch_size=8,per_
  • 2024-07-23datasets(HuggingFace)学习笔记
    一、概述(1)datasets使用ApacheArrow格式,使得加载数据集没有内存限制(2)datasets的重要模块:load_dataset:用于加载原始数据文件load_from_disk:用于加载Arrow数据文件DatasetDict:用于操作多个数据集,保存、加载、处理等Dataset:用于操作单个数据集,保存、加载、处理等二、数据
  • 2024-07-21TRL SFTTrainer 对截断的说明
    我目前正在使用Huggingface中的SFTTrainer微调LLama模型。但是,我提出了一个问题,我无法通过文档回答(至少,它有点模糊)。我的数据集包含从20个令牌到5k个令牌的样本。目前我正在使用|||和max_seq_length=512,.packing=True但是,我不清楚的是,具