word2vec使用skip-gram实现

时间：2022-08-24 17:35:15浏览次数：66

标签：word2vec center skip self like gram context data size

import torch
import torch.nn as nn
from torch.utils.data import DataLoader, Dataset
import numpy as np
from tqdm import tqdm 
sentences = ["jack like dog", "jack like cat", "jack like animal",
             "dog cat animal", "banana apple cat dog like", "dog fish milk like",
             "dog cat animal like", "jack like apple", "apple like", "jack like banana",
             "apple banana jack movie book music like", "cat dog hate", "cat dog like"]

sentences_list = " ".join([i for i in sentences]).split(" ")
# 词到下标的映射
vocab = list(set(sentences_list))
word2idx = {j: i for i, j in enumerate(vocab)}
idx2word = {i: j for i, j in enumerate(vocab)}
vocab_size = len(vocab)
window_size = 2
embedding_size = 2

def make_data(seq_data):
    context_arr = []
    center = []
    context = []
    skip_gram = []
    seq_data = " ".join([i for i in seq_data]).split()
    for sen in seq_data:
        for step in range(window_size, len(sen) - window_size):
            # 中心词
            center = step
            # 上下文
            context_arr = list(range(step - window_size, step)) + list(range(step + 1, step + window_size))
            for context_i in context_arr:
                skip_gram.append([np.eye(vocab_size)[word2idx[seq_data[center]]], context_i])
    input_data = []
    target_data = []
    for a, b in skip_gram:
        input_data.append(a)
        target_data.append(b)
    return torch.FloatTensor(input_data), torch.LongTensor(target_data)

 class my_dataset(Dataset):
    def __init__(self, input_data, target_data):
        super(my_dataset, self).__init__()
        self.input_data = input_data
        self.target_data = target_data
 
    def __getitem__(self, index):
        return self.input_data[index], self.target_data[index]
 
    def __len__(self):
        return self.input_data.size(0)  # 返回张量的第一个维度
    
# 输入单词，输出上下文
class SkipGram(nn.Module):
    def __init__(self, embedding_size):
        super(SkipGram, self).__init__()
        self.embedding_size = embedding_size
        self.fc1 = torch.nn.Linear(vocab_size, self.embedding_size)
        self.fc2 = torch.nn.Linear(self.embedding_size, vocab_size)
        self.loss = nn.CrossEntropyLoss()
 
    def forward(self, center, context):
        """
        :param center: [Batch_size]
        :param context:[Batch_size, vocab_size]
        :return:
        """
        center = self.fc1(center)
        center = self.fc2(center)
        loss = self.loss(center, context)
        return loss
    
batch_size = 2
center_data, context_data = make_data(sentences)
train_data = my_dataset(center_data, context_data)
train_loader = DataLoader(train_data, batch_size, shuffle=True)
epochs = 5
model = SkipGram(embedding_size=embedding_size)
model.train()

optim = torch.optim.Adam(model.parameters(), lr=1e-3)
for epoch in range(epochs):
    loop = tqdm(enumerate(train_loader), total = len(train_loader))
    for index, (center, context) in loop:
        loss = model(center, context)
        loop.set_description(f'Epoch [{epoch}/{epochs}]')
        loop.set_postfix(loss = loss.item())
        optim.zero_grad()
        loss.backward()
        optim.step()

标签：word2vec,center,skip,self,like,gram,context,data,size
From： https://www.cnblogs.com/ygxdbmx/p/16620960.html

UML建模——用例图（Use Case Diagram）
UML建模——用例图（UseCaseDiagram）用例图主要用来描述角色以及角色与用例之间的连接关系。说明的是谁要使用系统，以及他们使用该系统可以做些什么。一个用例图包含了多个......
关于Microfoft C# Windows程序设计P494 ProgramWithIcon.cs学习体会（重点是winform标
此程序的重点就是如何添加ico文件：一、在解决方案资源管理器的项目上右键，添加->新建项二、下拉找到“图标文件”选项，然后将名称更改为“ProgramWithIcon.ico”......
PowerShell教程 - 编程结构（Program Struct）- 第一部分
更新记录转载请注明出处。2022年8月21日发布。2022年8月18日从笔记迁移到博客。变量（Variables）变量说明Avariablemaybeofany.NETtypeorobjectinstance......
PowerShell教程 - 编程结构（Program Struct）- 第三部分
更新记录转载请注明出处。2022年8月21日发布。2022年8月18日从笔记迁移到博客。预定义变量预定义的布尔值$True$False预定义变量预定义变量描述（Descrip......
PowerShell教程 - 编程结构（Program Struct）- 第五部分
更新记录转载请注明出处。2022年8月21日发布。2022年8月18日从笔记迁移到博客。枚举类型定义枚举类型（Defininganenumeration）简单的定义enumMyEnum{Zero......
PowerShell教程 - 编程结构（Program Struct）- 第四部分
更新记录转载请注明出处。2022年8月21日发布。2022年8月18日从笔记迁移到博客。分支结构（Branching）if语句（ifStatement）if(条件){ #code}实例：$userInput=R......
PowerShell教程 - 编程结构（Program Struct）- 第二部分
更新记录转载请注明出处。2022年8月20日发布。2022年8月15日从笔记迁移到博客。字符串（String）说明本质就是.NETSystem.Stringtype使用字符串的索引（Indexingi......
git rebase之abort,continue,skip
gitrebase--abort会放弃合并，回到rebase操作之前的状态，之前的提交的不会丢gitrebase--skip会将引起冲突的commit丢弃掉gitrebase--continue常用选择合并冲突......
解决Docker容器 iptables问题---docker: Error response from daemon: driver failed
一、问题如下[root@echohyeapp]#dockerrun-itd--namemysql-test-p3306:3306-eMYSQL_ROOT_PASSWORD=123456mysql:5.75ae9dc1c7bf16762e7064a5f3ab0396b1f5ba3a......
dotnet build error CS5001: Program does not contain a static 'Main' method suita
前言Docker环境编译.Net6项目，出现诡异的CS5001Programdoesnotcontainastatic'Main'methodsuitableforanentrypoint排查从报错信息看是Program.csMain方......

word2vec使用skip-gram实现

相关文章

赞助商

阅读排行