【预训练语言模型】使用Transformers库进行GPT2预训练

时间：2024-03-13 22:35:16浏览次数：24

标签：... datasets Transformers 训练 tokenizer GPT2 text ids token

基于 HuggingFace的Transformer库，在Colab或Kaggle进行预训练。

本教程提供：英文数据集wikitext-2和代码数据集的预训练。
注：可以自行上传数据集进行训练

目的：跑通自回归语言模型的预训练流程

一、准备

1.1 安装依赖

!pip install -U datasets
!pip install accelerate -U

注意：在Colab上训练时，最好将datasets更新到最新版（再重启kernel），避免版本低报错

colab和kaggle已经预安装transformers库

1.2 数据准备

加载数据

from datasets import load_dataset

datasets = load_dataset('wikitext', 'wikitext-2-raw-v1')

当然你也可使用huggingface上任何公开的文本数据集，或使用自己构造的数据，并将路径替换为指定路径：

# datasets = load_dataset("text", data_files={"train": path_to_train.txt, "validation": path_to_validation.txt}

要访问一个数据中实际的元素，您需要先选择一个key，然后给出一个索引:
看一下数据的格式

datasets["train"][10].keys()

可以看到该数据集的每个元素就是一个仅包含文本的字典

dict_keys(['text'])

查看例子

datasets["train"][1]

{‘text': ' =Valkyria Chronicles III = \n'}

训练集和测试集数量

print(len(datasets["train"]), len(datasets["test"]))

36718 4358

通过如下的函数来随机展示数据集中的一些样本：

from datasets import ClassLabel
import random
import pandas as pd
from IPython.display import display, HTML

def show_random_elements(dataset, num_examples=10):
    assert num_examples <= len(dataset), "Can't pick more elements than there are in the dataset."
    picks = []
    for _ in range(num_examples):
        pick = random.randint(0, len(dataset)-1)
        while pick in picks:
            pick = random.randint(0, len(dataset)-1)
        picks.append(pick)
    
    df = pd.DataFrame(dataset[picks])
    for column, typ in dataset.features.items():
        if isinstance(typ, ClassLabel):
            df[column] = df[column].transform(lambda i: typ.names[i])
    display(HTML(df.to_html()))

show_random_elements(datasets["train"])

数据集中，一些是空文本或标题，一些文本完整段落，

二、因果语言建模（Causal Language Modeling，CLM）

对于因果语言建模，我们首先拿到数据集中的所有文本，并将它们分词的结果拼接起来。

然后，我们将它们拆分到特定序列长度的训练样本中，这样模型将接收如下所示的连续文本块：

part of text 1

或

end of text 1 [BOS_TOKEN] beginning of text 2

这取决于训练样本是否跨越数据集中的几个原始文本：

原始文本长于特定序列长度则被切分
原始文本短于特定序列长度则和其他文本拼接。

模型的标签就是将输入右移一个位置（预测下一个token）。

本例中，将使用gpt2模型。

model_checkpoint = "gpt2"
tokenizer_checkpoint = "sgugger/gpt2-like-tokenizer"

当然，你也可以选择这里列出的任何一个https://huggingface.co/models?filter=causal-lm 因果语言模型的checkpoint。

为了用训练模型时使用的词汇对所有文本进行分词，先下载一个预训练过的分词器（Tokenizer）。

直接使用AutoTokenizer类来自加载:

from transformers import AutoTokenizer
    
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, use_fast=True)

现在可以对所有的文本进行分词。

首先定义一个对文本进行分词的函数

def tokenize_function(examples):
    return tokenizer(examples["text"])

然后，将它用到datasets对象中进行分词，使用batch=True和4个进程来加速预处理，并移除之后用不到的text列。

tokenized_datasets = datasets.map(tokenize_function, batched=True, num_proc=4, remove_columns=["text"])

查看已分词的数据集的样本，文本已转换为input_ids (文本的Token Id序列)和attention_mask:

tokenized_datasets["train"][1]
{'input_ids': [238, 8576, 9441, 2987, 238, 252],
 'attention_mask': [1, 1, 1, 1, 1, 1]}

然后，需要将所有文本分词的结果拼接在一起，并将其分割成特定block_size的小块（第二节开头提到的操作，block_size其实就是Batch后的max_length）。

为此，将再次使用map方法，并使用选项batch=True。设置不同的block_size，可以获得不同数量的样本，从而能改变样本数量。

通过这种方式，可以从一批样本中得到新的一批样本。

首先，需要设置预训练CLM模型时所使用的最大序列长度。在这里设置为256，以防您的显存爆炸

标签：...,datasets,Transformers,训练,tokenizer,GPT2,text,ids,token
From： https://www.cnblogs.com/justLittleStar/p/18071696

【预训练语言模型】使用Transformers库进行BERT预训练
基于HuggingFace的Transformer库，在Colab或Kaggle进行预训练。鉴于算力限制，选用了较小的英文数据集wikitext-2目的：跑通Mask语言模型的预训练流程一、准备1.1安装依赖!pip3install--upgradepip!pipinstall-Udatasets!pipinstallaccelerate-U注意：在Kaggle上训练......
蓝桥杯算法训练VIP-数组查找及替换
题目1634:蓝桥杯算法训练VIP-数组查找及替换时间限制:3s内存限制:192MB提交:1629解决:890题目描述给定某整数数组和某一整数b。要求删除数组中可以被b整除的所有元素，同时将该数组各元素按从小到大排序。如果数组元素数值在A到Z的ASCII之间，替换为对应字母。输......
代码随想录算法训练营第四十五天 | 279.完全平方数，322. 零钱兑换，70. 爬楼梯（进阶）
57.爬楼梯（第八期模拟笔试）时间限制：1.000S空间限制：128MB题目描述假设你正在爬楼梯。需要n阶你才能到达楼顶。每次你可以爬至多m(1<=m<n)个台阶。你有多少种不同的方法可以爬到楼顶呢？注意：给定n是一个正整数。输入描述输入共一行，包含两个正整数，分......
模型量化（二）—— 训练后量化PTQ（全代码）
训练后量化（Post-trainingQuantization，PTQ）是一种常见的模型量化技术，它在模型训练完成之后应用，旨在减少模型的大小和提高推理速度，同时尽量保持模型的性能。训练后量化对于部署到资源受限的设备上，如移动设备和嵌入式设备，特别有用。在我们量化时，量化操作可以应用于模型的输入......
代码随想录算法训练营第四十四天 | 377. 组合总和 Ⅳ ，518. 零钱兑换 II ，完全背包
377.组合总和Ⅳ 已解答中等相关标签相关企业给你一个由不同整数组成的数组 nums ，和一个目标整数 target 。请你从 nums 中找出并返回总和为 target 的元素组合的个数。题目数据保证答案符合32位整数范围。示例1：输入：num......
代码随想录算法训练营第七天 | 454.四数相加II 383. 赎金信 15. 三数之和 18. 四数之
day7记录代码随想录第一题力扣454.四数相加II 给定四个包含整数的数组列表 A,B,C,D,计算有多少个元组(i,j,k,l) ，使得 A[i]+B[j]+C[k]+D[l]=0。为了使问题简单化，所有的A,B,C,D具有相同的长度 N，且0≤N≤500。所有整数的范围在-2^28到......
代码随想录算法训练营第四十五天| ● 70. 爬楼梯（进阶） ● 322. 零钱兑换 ● 279.完全
爬楼梯（进阶）题目链接：57.爬楼梯（第八期模拟笔试）(kamacoder.com)思路：笑嘻了，直接给默写出来了。#include<bits/stdc++.h>usingnamespacestd;intmain(){intn,m;cin>>n>>m;vector<int>dp(n+1);dp[0]=1;for(inti=1;i<=n;i++){for(in......
python Ai 应用开发基础训练，字符串，字典，文件，函数，装饰品，生成器（下）
生成器的另一个示例，这个生成器功能是从大小生，生成斐波那契数列deffib(max):#定义一个函数fib，参数为maxa,b=0,1#初始化两个变量a和b，分别赋值为0和1n=0#初始化计数变量n为0whileb<max:#当b小于max时继续循环print(b)#打印当前的斐波......
【图像超分】论文复现：新手入门！Pytorch实现SRCNN，数据预处理、模型训练、测试、评估全流
文章目录前言1.准备数据集和数据预处理1.1数据集选择1.2数据预处理1.3评估指标PSNR和SSIM1.3.1PSNR1.3.2SSIM2.定义网络结构3.设置参数并训练模型3.1参数设置3.2模型训练4.测试训练好的模型5.用训练好的SRCNN模型超分自己的图像数据6.其他补充6.1特征图......
【算法训练营】最长公共子序列，倒水问题，奶牛吃草（Python实现）
最长公共子序列时间限制：1sec空间限制：256MB问题描述给定两个1到n的排列A,B（即长度为n的序列，其中[1,n]之间的所有数都出现了恰好一次）。求它们的最长公共子序列长度。输入格式第一行一个整数n，意义见题目描述。第二行n个用空格隔开的正整数A[1],…,......

【预训练语言模型】使用Transformers库进行GPT2预训练

一、准备

1.1 安装依赖

1.2 数据准备

二、因果语言建模（Causal Language Modeling，CLM）

相关文章

赞助商

阅读排行