首页 > 其他分享 >基于线性支持向量机的词嵌入文本分类torch案例

基于线性支持向量机的词嵌入文本分类torch案例

时间:2023-04-19 17:35:07浏览次数:39  
标签:嵌入 tensor torch 这里 embedding np 向量 size

基于线性支持向量机的词嵌入文本分类torch案例_分类

一、前言

简介线性支持向量机,并使用线性支持向量机实现文本分类, 输入文本通过词嵌入方法转换成浮点张量,给出torch案例

线性支持向量机(Linear Support Vector Machine,简称Linear SVM)是一种常用的分类算法,它通过一个超平面来将数据分成两类。对于线性可分的数据集,线性SVM能够找到一个最优的超平面,使得距离最近的数据点到这个超平面的距离最大化,从而使得分类边界更加稳定。

二、项目介绍

在文本分类任务中,我们可以使用线性SVM来将文本分成两类,比如正面和负面。首先需要将文本转换成数字表示,这可以通过词嵌入(Word Embedding)方法来实现。词嵌入是将单词转换成向量表示的一种技术,它可以将单词之间的语义关系表达为向量之间的距离关系。在文本分类任务中,我们可以将每个单词转换成一个固定长度的向量,然后将所有单词的向量按照一定的顺序组合成一个文本向量,从而得到文本的数字表示。

三、Toy demo 项目展示

下面是使用PyTorch实现文本分类任务的示例代码,其中使用了线性SVM作为分类器:

import torch
import torch.nn as nn
import torch.optim as optim
import numpy as np

class LinearSVM(nn.Module):
    def __init__(self, input_size):
        super(LinearSVM, self).__init__()
        self.linear = nn.Linear(input_size, 1)

    def forward(self, x):
        out = self.linear(x)
        return out

class TextDataset(torch.utils.data.Dataset):
    def __init__(self, texts, labels, word_embedding):
        self.texts = texts
        self.labels = labels
        self.word_embedding = word_embedding

    def __getitem__(self, index):
        text = self.texts[index]
        label = self.labels[index]
        text_vec = np.mean([self.word_embedding[word] for word in text.split() if word in self.word_embedding], axis=0)
        text_vec = torch.from_numpy(text_vec).float()
        return text_vec, label

    def __len__(self):
        return len(self.labels)

# 定义超参数
embedding_size = 50
lr = 0.01
num_epochs = 10

# 加载数据集
train_texts = ['good movie', 'not a good movie', 'bad movie', 'an excellent movie', 'i loved it', 'could have been better', 'completely ridiculous', 'not worth watching', 'it was okay', 'awesome movie']
train_labels = [1., -1, -1, 1, 1, -1, -1, -1, 0, 1]
word_embedding = {'good': np.random.rand(embedding_size), 'movie': np.random.rand(embedding_size), 'not': np.random.rand(embedding_size), 'bad': np.random.rand(embedding_size), 'an': np.random.rand(embedding_size), 'excellent': np.random.rand(embedding_size), 'i': np.random.rand(embedding_size), 'loved': np.random.rand(embedding_size), 'it': np.random.rand(embedding_size), 'could': np.random.rand(embedding_size), 'have': np.random.rand(embedding_size), 'been': np.random.rand(embedding_size), 'better': np.random.rand(embedding_size), 'completely': np.random.rand(embedding_size), 'ridiculous': np.random.rand(embedding_size), 'worth': np.random.rand(embedding_size), 'watching': np.random.rand(embedding_size), 'was': np.random.rand(embedding_size), 'okay': np.random.rand(embedding_size), 'awesome': np.random.rand(embedding_size)}
train_dataset = TextDataset(train_texts, train_labels, word_embedding)
train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=2, shuffle=True)

# 定义模型、损失函数和优化器
model = LinearSVM(embedding_size)
criterion = nn.HingeEmbeddingLoss()
optimizer = optim.SGD(model.parameters(), lr=lr)

# 训练模型
for epoch in range(num_epochs):
    for batch_data in train_dataloader:
        # print(batch_data)
        x, y = batch_data
        print("这里这里", y)

        x = x.unsqueeze(1)
        model.zero_grad()
        out = model(x)
        loss = criterion(out.squeeze(), y.float())
        loss.backward()
        optimizer.step()
    print('Epoch [{}/{}], Loss: {:.4f}'.format(epoch+1, num_epochs, loss.item()))

# 测试模型



    test_texts = ['good film', 'bad film']
    test_labels = [1, -1]
    test_dataset = TextDataset(test_texts, test_labels, word_embedding)
    test_dataloader = torch.utils.data.DataLoader(test_dataset, batch_size=2, shuffle=False)

    with torch.no_grad():
        for batch_data in test_dataloader:
            x, y = batch_data
            x = x.unsqueeze(1)
            out = model(x)
            predicted = torch.sign(out.squeeze())
            print('Predicted:', predicted)
            print('True:', y)

四、运行结果

这里这里 tensor([-1,  1])
这里这里 tensor([ 1, -1])
这里这里 tensor([1., 1.], dtype=torch.float64)
这里这里 tensor([ 0, -1])
这里这里 tensor([-1, -1])
Epoch [1/10], Loss: 0.8326
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1, -1])
这里这里 tensor([-1, -1])
这里这里 tensor([ 1, -1])
这里这里 tensor([1, 1])
这里这里 tensor([1., 0.], dtype=torch.float64)
Epoch [2/10], Loss: 0.7192
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([1., 1.])
这里这里 tensor([-1,  0])
这里这里 tensor([-1, -1])
这里这里 tensor([1, 1])
这里这里 tensor([-1, -1])
Epoch [3/10], Loss: 0.7749
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([ 1, -1])
这里这里 tensor([ 0, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([ 1., -1.], dtype=torch.float64)
Epoch [4/10], Loss: 0.5134
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([ 1., -1.], dtype=torch.float64)
这里这里 tensor([-1,  1])
这里这里 tensor([-1, -1])
这里这里 tensor([0, 1])
这里这里 tensor([-1,  1])
Epoch [5/10], Loss: 0.3517
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([1., 0.], dtype=torch.float64)
这里这里 tensor([ 1, -1])
这里这里 tensor([-1, -1])
这里这里 tensor([-1,  1])
Epoch [6/10], Loss: 0.4878
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([1, 1])
这里这里 tensor([-1, -1])
这里这里 tensor([-1.,  1.])
这里这里 tensor([ 0, -1])
Epoch [7/10], Loss: 0.6830
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([-1, -1])
这里这里 tensor([-1,  1])
这里这里 tensor([0., 1.])
这里这里 tensor([ 1, -1])
Epoch [8/10], Loss: 0.5232
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([0, 1])
这里这里 tensor([ 1, -1])
这里这里 tensor([-1, -1])
这里这里 tensor([ 1, -1])
这里这里 tensor([ 1., -1.], dtype=torch.float64)
Epoch [9/10], Loss: 0.4531
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])
这里这里 tensor([-1, -1])
这里这里 tensor([1, 1])
这里这里 tensor([-1,  1])
这里这里 tensor([-1,  0])
这里这里 tensor([-1.,  1.])
Epoch [10/10], Loss: 0.3971
Predicted: tensor([1., 1.])
True: tensor([ 1, -1])

五、损失函数

介绍nn.HingeEmbeddingLoss并使用

nn.HingeEmbeddingLossPyTorch中用于计算支持向量机的损失函数之一。它的作用是通过一个间隔边界将正样本和负样本分开。具体来说,该损失函数使用了一个margin参数,表示正负样本之间的间隔边界,然后计算正样本与该边界之间的距离和负样本与该边界之间的距离,并将它们相加。

该损失函数的数学公式如下:

l o s s ( x , y ) = 1 N ∑ i = 1 N max ⁡ ( 0 , − y i ( x i ⋅ w − b ) + m a r g i n ) loss(x,y) = \frac{1}{N}\sum_{i=1}^{N} \max(0, -y_i(x_i\cdot w - b) + margin) loss(x,y)=N1​i=1∑N​max(0,−yi​(xi​⋅w−b)+margin)

其中, x x x表示输入样本, y y y表示对应的标签, w w w表示模型的权重, b b b表示模型的偏置, N N N表示样本数量, m a r g i n margin margin表示间隔边界。

在计算损失时,如果一个样本被正确地分类,则该样本的损失为0,否则根据该样本的标签和预测值,计算出该样本的距离,然后与 m a r g i n margin margin进行比较,得到该样本的损失值。

下面是一个使用nn.HingeEmbeddingLoss进行二分类任务的例子,其中使用的数据集为sklearn中的鸢尾花数据集:

import torch
import torch.nn as nn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 加载数据集并进行预处理
iris = load_iris()
X, y = iris.data, iris.target
scaler = StandardScaler()
X = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 定义模型、损失函数和优化器
model = nn.Linear(4, 1)
criterion = nn.HingeEmbeddingLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 训练模型
num_epochs = 100
batch_size = 16
for epoch in range(num_epochs):
    for i in range(0, len(X_train), batch_size):
        inputs = torch.FloatTensor(X_train[i:i+batch_size])
        labels = torch.FloatTensor(y_train[i:i+batch_size])
        optimizer.zero_grad()
        outputs = model(inputs)
        loss = criterion(outputs.squeeze(), labels.float())
        loss.backward()
        optimizer.step()

    # 计算测试集准确率
    with torch.no_grad():
        inputs = torch.FloatTensor(X_test)
        labels = torch.FloatTensor(y_test)
        outputs = model(inputs).squeeze()
        predicted = torch.sign(outputs)
        accuracy = (predicted == labels).sum().item() / len(y_test)
    print(f"Epoch {epoch+1}: Loss={loss.item():.4f}, Accuracy={accuracy:.4f}")

在上面的例子中,首先加载鸢尾花数据集并进行标准化处理。然后定义了一个包含一个线性层的模型,使用nn.HingeEmbeddingLoss是一个PyTorch中的损失函数,用于支持向量机(SVM)学习。在SVM中,目标是将两个类别的数据分开,并且在最大化间隔的同时最小化错误分类的数量。Hinge损失函数是一种常用的SVM损失函数,它对正确分类的样本给予0损失,对于错误分类的样本给予一个非零的损失,损失随着距离正确分类边界的距离线性增加。

HingeEmbeddingLoss需要输入一个标量值作为阈值,将大于等于该阈值的样本视为正样本,将小于该阈值的样本视为负样本。具体而言,对于一个大小为 N N N的批次,标签 y y y应该是一个大小为 N N N的张量,其中1表示正类,-1表示负类。如果 y i = 0 y_i = 0 yi​=0,则样本 i i i将被忽略,即不计入损失函数中。

标签:嵌入,tensor,torch,这里,embedding,np,向量,size
From: https://blog.51cto.com/guog/6207028

相关文章

  • NLP深度网络中self.embedding(x)词嵌入后降维方法
    在自然语言处理中的循环神经网络中,经常使用torch定义类,self.embedding(x)中,x是输入,介绍self.embedding(x)返回结果,以及结果的形状,并解释这个形状在自然语言处理中的循环神经网络中,使用PyTorch定义类时通常会包含一个嵌入层(embeddinglayer)。在嵌入层中,使用self.embedding(x)语......
  • 基于词嵌入方法的逻辑回归文本分类
    文本分类是否能用逻辑回归的方法?文本分类可以使用逻辑回归的方法。逻辑回归是一种用于二元分类的统计学习方法,它可以将输入的特征映射到一个概率值,用于判断输入数据属于哪一类。在文本分类中,我们可以将文本的特征表示为词袋模型或者TF-IDF向量,然后使用逻辑回归算法对这些特征......
  • 基于词嵌入的逻辑回归文本分类
    简述逻辑回归(LogisticRegression)原理,并用torch实现逻辑回归文本分类,原始数据一共有100条句子,每个样本是一条句子,每个句子有50个单词,每个单词用长为50的词向量表示。现在需要用一条句子预测一个类别,本文给出torch案例逻辑回归是一种常用的分类算法,它是一种线性分类模型。逻......
  • 深度学习-Pytorch常见的数据类型
    深度学习-Pytorch常见的数据类型数据类型认识首先,python与PyTorch中的数据类型pythonPyTorchintIntTensorfloatFloatTensorintarrayIntTensorsize[d1,d2,...]floatarrayFloatTensorsize[d1,d2,...]string无在PyTorch中表达String:one-hot即......
  • 痞子衡嵌入式:我被邀请做嵌入式联盟主办的职场奇葩说(上海站)辩手
    「嵌入式联盟」是「科锐国际」联合圈子里一些有影响力的公众号主组建起来的嵌入式行业人才的专属社区。联盟致力于为嵌入式领域从业者提供线下交流与分享的机会,定期进行技术及行业信息等深度的探讨,满足嵌入式人才零距离交流及互助需求。痞子衡有幸被邀请做3月26日联盟首期活动“嵌......
  • 自然语言处理:词嵌入简介
    动动发财的小手,点个赞吧!WordEmbeddings机器学习模型“查看”数据的方式与我们(人类)的方式不同。例如,我们可以轻松理解“我看到一只猫”这一文本,但我们的模型却不能——它们需要特征向量。此类向量或词嵌入是可以输入模型的词的表示。工作原理:查找表(词汇)在实践中,你有一个允许......
  • 痞子衡嵌入式:恩智浦经典LPC系列MCU内部Flash IAP驱动入门
    大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是恩智浦经典LPC系列MCU内部FlashIAP驱动。LPC系列MCU是恩智浦公司于2003年开始推出的非常具有代表性的产品,距今已经有近20年的生命。按时间线演进来说,其主要分为三代:-元老:基于ARM7/9内核的LPC2000......
  • 痞子衡嵌入式:利用i.MXRT1xxx系列ROM集成的DCD功能可轻松配置指定外设
    大家好,我是痞子衡,是正经搞技术的痞子。今天痞子衡给大家介绍的是利用i.MXRT1xxx系列ROM集成的DCD功能可轻松配置指定外设。关于i.MXRT1xxx系列芯片BootROM中集成的DCD功能这个话题,痞子衡早就想写了,但是一直没有动笔,毕竟这个话题比较生涩,单独讲会比较枯燥。最近痞子衡......
  • PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SV
    全文下载链接:http://tecdat.cn/?p=26219最近我们被客户要求撰写关于银行机器学习的研究报告,包括一些图形和统计输出。该数据与银行机构的直接营销活动相关,营销活动基于电话。通常,需要与同一客户的多个联系人联系,以便访问产品(银行定期存款)是否会(“是”)或不会(“否”)订阅银行数据集我......
  • 直播预告 | 嵌入式BI如何将数据分析真正融入业务流程
    在信息化高速发展的今天,数据成为企业最有价值的资产之一。而数据本身很难直接传递有价值的信息,只有通过对数据进行挖掘、分析,才能让数据真正成为生产力。商业智能(BI)应运而生,可以帮助企业更好地从数据中提取信息和知识,通过可视化的方式,快速准确地进行报表展现与分析,为企业提供决策支......