NLP 之四：双向预训练模型

标签：NLP self torch ids test train 双向之四 data

利用预训练好的模型进行微调（Fine-tune），可以获得比传统模型的巨大提升。

此时学习率一般是正常的十分之一（\(10^{-5}\) 左右）。也可以保持预训练的参数不变。

Transformer 架构

Encoder-only：擅长分类任务
Decoder-only：擅长生成任务
Encoder-only：混合情况（例如文本翻译、总结）

在无监督训练中，Encoder 和 Decoder 最大的区别是，前者可以从上下文同时学习，而后者则只能从上文学习。

前者也被称为双向预训练模型，BERT 便是其中的经典之作。

BERT：Encoder-only

为了同时从上下文学习，我们不能再使用直接使用注意力机制预测文本每一个词。因为这样当叠了两层 Attention 后，模型就可以从每个词自己提取出信息，直接预测出自己。取而代之的是以下的两种训练策略：

掩码语言模型（MLM）：随机一定规模（一般是15%）的词替换为【MASK】，用别的词预测它们。
下一句预测 (NSP) ：选两个句子，让模型判断其中一个是不是紧跟在另一个后面。

不过后者效果并不好，并且基本在一两轮训练后正确率就会接近100%。

IMDB 情感分类：BERT 微调实例

参考了网上的代码。

数据处理

正常下载下来是这样的，我们先处理成 [text,label] 的形式。(貌似这里 train 和 test 比例是1:1，正常来说会让它们变成大约9:1，不过我懒了）

import os
import random

def init(aim_set, data_dir, type):
    for i in os.listdir(data_dir):
        file_path = os.path.join(data_dir, i)
        with open(file_path, "r", encoding="utf-8") as file:
            aim_set.append([file.read(), type])

train_data = []
test_data = []
init(train_data, "aclImdb/train/pos/", 1)
init(train_data, "aclImdb/train/neg/", 0)
init(test_data, "aclImdb/test/pos/", 1)
init(test_data, "aclImdb/test/neg/", 0)
random.shuffle(train_data)
random.shuffle(test_data)

将数据转化成类 Dataset&Dataloader 的格式。

tokenizer = BertTokenizer.from_pretrained("./bert-base-uncased/", truncation=True, do_lower_case=True)

class My_Dataset(Dataset):
    def __init__(self, dataframe, tokenizer, max_len):
        self.tokenizer = tokenizer
        self.text = [row[0] for row in dataframe]
        self.targets = [row[1] for row in dataframe]
        self.max_len = max_len
    def __len__(self):
        return len(self.text)
    def __getitem__(self, index):
        text = str(self.text[index])
        text = " ".join(text.split())
        inputs = self.tokenizer.encode_plus(
            text,
            add_special_tokens = True,
            max_length = self.max_len,
            pad_to_max_length = True,
            return_token_type_ids = True
        )
        return {
            "ids": torch.tensor(inputs["input_ids"], dtype=torch.long),
            "mask": torch.tensor(inputs["attention_mask"], dtype=torch.long),
            "token_type_ids": torch.tensor(inputs["token_type_ids"], dtype=torch.long),
            "targets": torch.tensor(self.targets[index], dtype=torch.float)
        }

train_set = My_Dataset(train_data, tokenizer, MAX_LEN)
test_set = My_Dataset(test_data, tokenizer, MAX_LEN)

train_params = {"batch_size": TRAIN_BATCH_SIZE, "shuffle": True}
test_params = {"batch_size": VALID_BATCH_SIZE, "shuffle": True}
train_loader = DataLoader(train_set, **train_params)
test_loader = DataLoader(test_set, **test_params)

模型搭建

from transformers import BertModel

class BertClass(nn.Module):
    def __init__(self):
        super(BertClass, self).__init__()
        self.BERT = BertModel.from_pretrained("./bert-base-uncased/")
        self.l1 = torch.nn.Linear(768, 768)
        self.ReLU = torch.nn.ReLU()
        self.l2 = torch.nn.Linear(768, 2)

    def forward(self, input_ids, attention_mask, token_type_ids):
        output_BERT = self.BERT(input_ids=input_ids, attention_mask=attention_mask, token_type_ids=token_type_ids)
        hidden_state = output_BERT[0]
        x = hidden_state[:, 0]
        return self.l2(self.ReLU(self.l1(x)))

微调训练

model = BertClass()
model.to(device)
loss_function = torch.nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(params=model.parameters(), lr=LEARNING_RATE)

def calc(preds, targets):
    n_correct = (preds == targets).sum().item()
    return n_correct

def train(epoch, train_loader):
    tr_loss = 0
    n_correct = 0
    nb_tr_steps = 0
    nb_tr_examples = 0
    model.train()
    for _, data in tqdm(enumerate(train_loader, 0)):
        ids = data["ids"].to(device, dtype=torch.long)
        mask = data["mask"].to(device, dtype=torch.long)
        token_type_ids = data["token_type_ids"].to(device, dtype=torch.long)
        targets = data["targets"].to(device, dtype=torch.long)
        outputs = model(ids, mask, token_type_ids)
        loss = loss_function(outputs, targets)
        tr_loss += loss.item()
        big_val, big_idx = torch.max(outputs.data, dim=1)
        n_correct += calc(big_idx, targets)
        nb_tr_steps += 1
        nb_tr_examples += targets.size(0)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
    epoch_loss = tr_loss / nb_tr_steps
    epoch_accu = (n_correct * 100) / nb_tr_examples
    print(f"The Total Accuracy for Epoch {epoch}: {(n_correct * 100) / nb_tr_examples}")
    print(f"Training Loss Epoch: {epoch_loss}")
    print(f"Training Accuracy Epoch: {epoch_accu}")
train(epoch, train_loader)
torch.save(model, model_dir)

结果

用 bert-base-uncased 微调可以在测试集上达到93%的正确率；如果权重初始随机，只靠 imdb 数据训练一轮，甚至只有50%左右；本地对 bert 简单预训练（mlm）则有85%。

~~为什么BERT不能识别出阴阳怪气啊~~

标签：NLP,self,torch,ids,test,train,双向,之四,data
From： https://www.cnblogs.com/xcyle/p/17975123