首页 > 其他分享 >2025年NLP神器 - Hugging Face - 预训练模型微调demo

2025年NLP神器 - Hugging Face - 预训练模型微调demo

时间:2024-12-28 10:58:28浏览次数:8  
标签:load NLP datasets demo Hugging dataset examples tokenize import

第一个完整的使用Hugging Face Transformers对预训练模型进行微调的demo is coming!

整体步骤为:

加载数据集load dataset


from datasets import load_dataset
raw_datasets = load_dataset("glue", "mrpc")

对数据集做分词tokenize

from transformers import AutoModelForSequenceClassification
checkpoint = 'distilbert-base-uncased-finetuned-sst-2-english'
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 

def tokenize_function(examples):
    return tokenizer(examples["sentence1"], examples["sentence2"],truncation=True)
 
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

组装DataCollator

from transformers import DataCollatorWithPadding
 
data_collator = DataCollatorWithPadding(tokenizer, padding=True)

构建模型model

标签:load,NLP,datasets,demo,Hugging,dataset,examples,tokenize,import
From: https://blog.csdn.net/weixin_43636694/article/details/144783351

相关文章

  • 课程6:自然语言处理(NLP)与大模型
    1.什么是自然语言处理(NLP)?自然语言处理(NaturalLanguageProcessing,简称NLP)是计算机科学和人工智能的一个分支,它旨在让计算机理解、分析和生成人类语言。简单来说,NLP就是教计算机如何“听懂”和“说话”。*NLP的定义:自然语言处理,简称NLP,就像是让计算机理解和“说话”......
  • JavaScript开发中常见问题代码和相关优化Demo参考4.0
    31. 忽略错误处理的幂等性问题代码:functionupdateUser(id,updates){//更新用户信息}解决方案:确保API端点和函数调用是幂等的,即多次调用不会导致不同的结果。asyncfunctionupdateUser(id,updates){try{awaitfetch(`/api/users/${id}`,{meth......
  • NLP论文速读(AAAI 2024)|面向序列生成的基于高效采样强化学习 (Efficient Sampling-ba
    论文速读|ESRL:EfficientSampling-basedReinforcementLearning forSequenceGeneration论文信息:简介:   本文探讨了将强化学习(ReinforcementLearning,RL)应用于序列生成模型的背景。序列生成是一个长期决策问题,而RL特别适合优化长期奖励,例如序列级别的评分......
  • NLP 中文拼写检测纠正论文-04-Learning from the Dictionary
    拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法,如果提升100W倍的性能?NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正?可我只会写CRUD啊!一个提升英文单词拼写检测性能1000倍的算法?单词拼写纠正-03-leetcodeedit-d......
  • 一个小demo
    懒得讲了,直接看代码吧pox.xml<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation=&quo......
  • 增加一个表格新增行时的校验demo
    效果图,在新增行时增加空值判断,如果有空值不允许新增行 vue2代码示例<template><divclass="home"><el-form:model="form"ref="form":rules="rules"><el-table:data="form.tableData"styl......
  • 【NLP】关于大模型训练常见概念讲解
    随着LLM学界和工业界日新月异的发展,不仅预训练所用的算力和数据正在疯狂内卷,后训练(post-training)的对齐和微调等方法也在不断更新。下面笔者根据资料整理一些关于大模型训练常见概念解释。前排提示,文末有大模型AGI-CSDN独家资料包哦!1Pre-training(预训练)预训练是指在模型......
  • JavaScript开发中常见问题代码和相关优化Demo参考3.0
    21. 不使用const和let问题代码:varx=10;if(true){varx=20;//这里的变量声明会提升并覆盖外部的x}console.log(x);//输出20解决方案:尽量使用const或let来代替var以避免变量提升问题。constx=10;if(true){constx=20;//不影响外部的x}cons......
  • golang并发测试http demo
    packagemainimport( "bytes" "fmt" "math/rand" "net/http" "sync" "time")const( url="http://127.0.0.1:8080"//请求的URL ratePerSecond=10......
  • NLP 中文拼写检测纠正论文-01-介绍了SIGHAN 2015 包括任务描述,数据准备, 绩效指标和评
    拼写纠正系列NLP中文拼写检测实现思路NLP中文拼写检测纠正算法整理NLP英文拼写算法,如果提升100W倍的性能?NLP中文拼写检测纠正Paperjava实现中英文拼写检查和错误纠正?可我只会写CRUD啊!一个提升英文单词拼写检测性能1000倍的算法?单词拼写纠正-03-leetcodeedit-d......