（6-3-03）CLIP模型训练与微调（3）训练模型+模型微调+调试运行

标签：argparse 微调训练模型 args parser hparams

6.3.4 训练模型

文件train.py是训练 CLIP 模型的主程序，首先根据命令行参数指定的模型名称加载相应的配置文件，然后创建一个 CLIPWrapper 模型实例，并根据命令行参数初始化数据模块。接着，使用 PyTorch Lightning 的 Trainer 对象进行训练。

import yaml
from argparse import ArgumentParser
from pytorch_lightning import Trainer
from data.text_image_dm import TextImageDataModule
from models import CLIPWrapper


def main(hparams):
    config_dir = 'models/configs/ViT.yaml' if 'ViT' in hparams.model_name else 'models/configs/RN.yaml'
    with open(config_dir) as fin:
        config = yaml.safe_load(fin)[hparams.model_name]

    if hparams.minibatch_size < 1:
        hparams.minibatch_size = hparams.batch_size

    model = CLIPWrapper(hparams.model_name, config, hparams.minibatch_size)
    del hparams.model_name
    dm = TextImageDataModule.from_argparse_args(hparams)
    trainer = Trainer.from_argparse_args(hparams, precision=16, max_epochs=32)
    trainer.fit(model, dm)


if __name__ == '__main__':
    parser = ArgumentParser()
    parser.add_argument('--model_name', type=str, required=True)
    parser.add_argument('--minibatch_size', type=int, default=0)
    parser = TextImageDataModule.add_argparse_args(parser)
    parser = Trainer.add_argparse_args(parser)
    args = parser.parse_args()

    main(args)

对上述代码的具体说明如下所示：

加载模型配置文件：根据模型名称确定加载 ViT.yaml 还是 RN.yaml 配置文件。
创建模型实例：使用 CLIPWrapper 类创建模型实例，传入模型名称、配置和最小批次大小。
初始化数据模块：使用 TextImageDataModule.from_argparse_args 根据命令行参数初始化数据模块。
设置训练器参数：使用 Trainer.from_argparse_args 根据命令行参数设置训练器，包括精度和最大训练周期。
开始训练：使用 trainer.fit 方法开始训练模型。

6.3.5 模型微调

文件train_finetune.py用于微调 CLIP 模型的主程序 train_finetune.py，首先加载预训练的图像编码器（ResNet-50）、文本编码器（DECLUTR-SCI-BASE）以及相应的 tokenizer，然后创建了一个 CustomCLIPWrapper 模型实例进行微调训练。

import torch
from argparse import ArgumentParser
from pytorch_lightning import Trainer
from data.text_image_dm import TextImageDataModule
from models import CustomCLIPWrapper
from torchvision.models import resnet50
from transformers import AutoTokenizer, AutoModel

def main(hparams):
    img_encoder = resnet50(pretrained=True)
    img_encoder.fc = torch.nn.Linear(2048, 768)
    tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-sci-base")
    txt_encoder = AutoModel.from_pretrained("johngiorgi/declutr-sci-base")
    if hparams.minibatch_size < 1:
        hparams.minibatch_size = hparams.batch_size
    model = CustomCLIPWrapper(img_encoder, txt_encoder, hparams.minibatch_size, avg_word_embs=True)
    dm = TextImageDataModule.from_argparse_args(hparams, custom_tokenizer=tokenizer)
    trainer = Trainer.from_argparse_args(hparams, precision=16, max_epochs=32)
    trainer.fit(model, dm)


if __name__ == '__main__':
    parser = ArgumentParser()
    parser.add_argument('--minibatch_size', type=int, default=0)
    parser = TextImageDataModule.add_argparse_args(parser)
    parser = Trainer.add_argparse_args(parser)
    args = parser.parse_args()
    main(args)

对上述代码的具体说明如下所示：

加载预训练模型和 tokenizer：加载预训练的 ResNet-50 图像编码器和 DECLUTR-SCI-BASE 文本编码器，以及相应的 tokenizer。
修改图像编码器：将 ResNet-50 的全连接层替换为一个线性层，将输出维度调整为 768。
创建模型实例：使用 CustomCLIPWrapper 类创建模型实例，传入图像编码器、文本编码器和其他参数，如最小批次大小。
初始化数据模块：使用 TextImageDataModule.from_argparse_args 根据命令行参数初始化数据模块，同时传入自定义的 tokenizer。
设置训练器参数：使用 Trainer.from_argparse_args 根据命令行参数设置训练器，包括精度和最大训练周期。
开始微调训练：使用 trainer.fit 方法开始微调训练模型。

6.3.6 调试运行

根据自己的需要，大家可以按照如下三种方式训练文生图模型CLIP。

1. 全新训练

在训练文生图模型CLIP时可以直接使用项目中的配置信息，只需提供一个训练目录或自己的数据集即可。在训练时需要指定模型名称，并告诉训练文件夹和批量大小，所有可能的模型都可以在models/config目录下的yaml文件中找到。例如运行命令如下：

python train.py --model_name RN50 --folder data_dir --batchsize 512

2. 微调训练

为了更高效地进行CLIP训练，可以使用类CustomCLIPWrapper，这个类用于微调预训练的图像和语言模型，这样可以大大提高性能效率。要使用这个功能，只需修改train_finetune.py文件，传入一个图像编码器和Hugging Face文本编码器。

img_encoder = resnet50(pretrained=True)
img_encoder.fc = torch.nn.Linear(2048, 768)

tokenizer = AutoTokenizer.from_pretrained("johngiorgi/declutr-sci-base")
txt_encoder = AutoModel.from_pretrained("johngiorgi/declutr-sci-base")

model = CustomCLIPWrapper(img_encoder, txt_encoder, hparams.minibatch_size, avg_word_embs=True)

具体的命令行参数与之前一样，只是去掉了 --model_name 标志：

python train_finetune.py --folder data_dir --batchsize 512

3. 使用自己的DataModule进行训练

此时需要每个图像对具有相同的stem名称（即coco_img1.png和coco_img1.txt），你只需在运行时指定文件夹即可。任何子文件夹结构都将被忽略，这意味着foo/bar/image1.jpg将始终找到它的myster/folder/image1.txt，只要它们共享一个共同的父文件夹。所有图像后缀都可以使用，唯一的期望是标题由\n分隔。

4. 使用自己的数据进行训练

如果你有不同的训练需求，可以插入自己的DataLoader。首先注释掉项目中的DataModule，并将你自己的DataModule插入到 trainer.fit(model, your_data) 中，然后编辑train.py脚本以满足你的需求。唯一的期望是返回元组的第一项是图像批次，第二项是文本批次。

标签：argparse,微调,训练,模型,args,parser,hparams
From： https://blog.csdn.net/asd343442/article/details/142484505