6.3.4 训练模型
文件train.py是训练 CLIP 模型的主程序,首先根据命令行参数指定的模型名称加载相应的配置文件,然后创建一个 CLIPWrapper 模型实例,并根据命令行参数初始化数据模块。接着,使用 PyTorch Lightning 的 Trainer 对象进行训练。
import yaml
from argparse import ArgumentParser
from pytorch_lightning import Trainer
from data.text_image_dm import TextImageDataModule
from models import CLIPWrapper
def main(hparams):
config_dir = 'models/configs/ViT.yaml' if 'ViT' in hparams.model_name else 'models/configs/RN.yaml'
with open(config_dir) as fin:
config = yaml.safe_load(fin)[hparams.model_name]
if hparams.minibatch_size < 1:
hparams.minibatch_size = hparams.batch_size
model = CLIPWrapper(hparams.model_name, config, hparams.minibatch_size)
del hparams.model_name
dm = TextImageDataModule.from_argparse_args(hparams)
trainer = Trainer.from_argparse_args(hparams, precision=16, max_epochs=32)
trainer.fit(model, dm)
if __name__ == '__main__':
parser = ArgumentParser()
parser.add_argument('--model_name', type=str, required=True)
parser.add_argument('--minibatch_size', type=int, default=0)
parser = TextImageDataModule.add_argparse_args(parser)
parser = Trainer.add_argparse_args(parser)
args = parser.parse_args()
main(args)
对上述代码的具体说明如下所示:
- 加载模型配置文件:根据模型名称确定加载 ViT.yaml 还是 RN.yaml 配置文件。
- 创建模型实例:使用 CLIPWrapper 类创建模型实例,传入模型名称、配置和最小批次大小。
- 初始化数据模块:使用 TextImageDataModule.from_argparse_args 根据命令行参数初始化数据模块。
- 设置训练器参数:使用 Trainer.from_argparse_args 根据命令行参数设置训练器,包括精度和最大训练周期。
- 开始训练:使用 trainer.fit 方法开始训练模型。
6.3.5 模型微调
文件train_finetune.py用于微调 CLIP 模型的主程序 train_finetune.py,首先加载预训练的图像编码器(ResNet-50)、文本编码器(DECLUTR-SCI-BASE)以及相应的 tokenizer,然后创建了一个 CustomCLIPWrapper 模型实例进行微调训练。
import torch
from argparse import ArgumentParser
from pytorch_lightning import Trainer
from data.text_image_dm import TextImageDataModule
from models import CustomCLIPWrapper
from torchvision.models import resnet50
from transformers import AutoTokenizer, AutoModel
def main(hparams):
img_encoder = resnet50(pretrained=True)
img_encoder.fc = torch.nn.Linear(2048, 768)
tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-sci-base")
txt_encoder = AutoModel.from_pretrained("johngiorgi/declutr-sci-base")
if hparams.minibatch_size < 1:
hparams.minibatch_size = hparams.batch_size
model = CustomCLIPWrapper(img_encoder, txt_encoder, hparams.minibatch_size, avg_word_embs=True)
dm = TextImageDataModule.from_argparse_args(hparams, custom_tokenizer=tokenizer)
trainer = Trainer.from_argparse_args(hparams, precision=16, max_epochs=32)
trainer.fit(model, dm)
if __name__ == '__main__':
parser = ArgumentParser()
parser.add_argument('--minibatch_size', type=int, default=0)
parser = TextImageDataModule.add_argparse_args(parser)
parser = Trainer.add_argparse_args(parser)
args = parser.parse_args()
main(args)
对上述代码的具体说明如下所示:
- 加载预训练模型和 tokenizer:加载预训练的 ResNet-50 图像编码器和 DECLUTR-SCI-BASE 文本编码器,以及相应的 tokenizer。
- 修改图像编码器:将 ResNet-50 的全连接层替换为一个线性层,将输出维度调整为 768。
- 创建模型实例:使用 CustomCLIPWrapper 类创建模型实例,传入图像编码器、文本编码器和其他参数,如最小批次大小。
- 初始化数据模块:使用 TextImageDataModule.from_argparse_args 根据命令行参数初始化数据模块,同时传入自定义的 tokenizer。
- 设置训练器参数:使用 Trainer.from_argparse_args 根据命令行参数设置训练器,包括精度和最大训练周期。
- 开始微调训练:使用 trainer.fit 方法开始微调训练模型。
6.3.6 调试运行
根据自己的需要,大家可以按照如下三种方式训练文生图模型CLIP。
1. 全新训练
在训练文生图模型CLIP时可以直接使用项目中的配置信息,只需提供一个训练目录或自己的数据集即可。在训练时需要指定模型名称,并告诉训练文件夹和批量大小,所有可能的模型都可以在models/config目录下的yaml文件中找到。例如运行命令如下:
python train.py --model_name RN50 --folder data_dir --batchsize 512
2. 微调训练
为了更高效地进行CLIP训练,可以使用类CustomCLIPWrapper,这个类用于微调预训练的图像和语言模型,这样可以大大提高性能效率。要使用这个功能,只需修改train_finetune.py文件,传入一个图像编码器和Hugging Face文本编码器。
img_encoder = resnet50(pretrained=True)
img_encoder.fc = torch.nn.Linear(2048, 768)
tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-sci-base")
txt_encoder = AutoModel.from_pretrained("johngiorgi/declutr-sci-base")
model = CustomCLIPWrapper(img_encoder, txt_encoder, hparams.minibatch_size, avg_word_embs=True)
具体的命令行参数与之前一样,只是去掉了 --model_name 标志:
python train_finetune.py --folder data_dir --batchsize 512
3. 使用自己的DataModule进行训练
此时需要每个图像对具有相同的stem名称(即coco_img1.png和coco_img1.txt),你只需在运行时指定文件夹即可。任何子文件夹结构都将被忽略,这意味着foo/bar/image1.jpg将始终找到它的myster/folder/image1.txt,只要它们共享一个共同的父文件夹。所有图像后缀都可以使用,唯一的期望是标题由\n分隔。
4. 使用自己的数据进行训练
如果你有不同的训练需求,可以插入自己的DataLoader。首先注释掉项目中的DataModule,并将你自己的DataModule插入到 trainer.fit(model, your_data) 中,然后编辑train.py脚本以满足你的需求。唯一的期望是返回元组的第一项是图像批次,第二项是文本批次。
标签:argparse,微调,训练,模型,args,parser,hparams From: https://blog.csdn.net/asd343442/article/details/142484505