首页 > 其他分享 >【深度学习】文本张量表示方法

【深度学习】文本张量表示方法

时间:2024-08-25 22:24:57浏览次数:13  
标签:编码 词汇 矩阵 张量 hot 深度 model 文本 向量

1 文本张量表示

  • 将一段文本使用张量进行表示,其中一般将词汇为表示成向量,称作词向量,再由各个词向量按顺序组成矩阵形成文本表示.

  • 举个例子:

    ["人生", "该", "如何", "起头"]
    
    ==>
    
    # 每个词对应矩阵中的一个向量
    [[1.32, 4,32, 0,32, 5.2],
     [3.1, 5.43, 0.34, 3.2],
     [3.21, 5.32, 2, 4.32],
     [2.54, 7.32, 5.12, 9.54]]

  • 文本张量表示的作用:

    • 将文本表示成张量(矩阵)形式,能够使语言文本可以作为计算机处理程序的输入,进行接下来一系列的解析工作.
  • 文本张量表示的方法:

    • one-hot编码
    • Word2vec
    • Word Embedding

2 one-hot词向量表示

  • 又称独热编码,将每个词表示成具有n个元素的向量,这个词向量中只有一个元素是1,其他元素都是0,不同词汇元素为0的位置不同,其中n的大小是整个语料中不同词汇的总数.

  • 举个例子:

    ["改变", "要", "如何", "起手"]`
    ==>
    
    [[1, 0, 0, 0],
     [0, 1, 0, 0],
     [0, 0, 1, 0],
     [0, 0, 0, 1]]
    

  • onehot编码实现:
    # 导入用于对象保存与加载的joblib
    import joblib
    # 导入keras中的词汇映射器Tokenizer
    from keras.preprocessing.text import Tokenizer
    # 假定vocab为语料集所有不同词汇集合
    vocab = {"周杰伦", "陈奕迅", "王力宏", "李宗盛", "吴亦凡", "鹿晗"}
    # 实例化一个词汇映射器对象
    t = Tokenizer(num_words=None, char_level=False)
    # 使用映射器拟合现有文本数据
    t.fit_on_texts(vocab)
    
    for token in vocab:
        zero_list = [0]*len(vocab)
        # 使用映射器转化现有文本数据, 每个词汇对应从1开始的自然数
        # 返回样式如: [[2]], 取出其中的数字需要使用[0][0]
        token_index = t.texts_to_sequences([token])[0][0] - 1
        zero_list[token_index] = 1
        print(token, "的one-hot编码为:", zero_list)
    
    # 使用joblib工具保存映射器, 以便之后使用
    tokenizer_path = "./Tokenizer"
    joblib.dump(t, tokenizer_path)
  • 输出效果:
    鹿晗 的one-hot编码为: [1, 0, 0, 0, 0, 0]
    王力宏 的one-hot编码为: [0, 1, 0, 0, 0, 0]
    李宗盛 的one-hot编码为: [0, 0, 1, 0, 0, 0]
    陈奕迅 的one-hot编码为: [0, 0, 0, 1, 0, 0]
    周杰伦 的one-hot编码为: [0, 0, 0, 0, 1, 0]
    吴亦凡 的one-hot编码为: [0, 0, 0, 0, 0, 1]
    
    # 同时在当前目录生成Tokenizer文件, 以便之后使用
  • onehot编码器的使用:
    # 导入用于对象保存与加载的joblib
    # from sklearn.externals import joblib
    # 加载之前保存的Tokenizer, 实例化一个t对象
    t = joblib.load(tokenizer_path)
    
    # 编码token为"李宗盛"
    token = "李宗盛"
    # 使用t获得token_index
    token_index = t.texts_to_sequences([token])[0][0] - 1
    # 初始化一个zero_list
    zero_list = [0]*len(vocab)
    # 令zero_List的对应索引为1
    zero_list[token_index] = 1
    print(token, "的one-hot编码为:", zero_list) 
  • 输出效果:
    李宗盛 的one-hot编码为: [1, 0, 0, 0, 0, 0]

  • one-hot编码的优劣势:

    • 优势:操作简单,容易理解.
    • 劣势:完全割裂了词与词之间的联系,而且在大语料集下,每个向量的长度过大,占据大量内存.

    • 正因为one-hot编码明显的劣势,这种编码方式被应用的地方越来越少,取而代之的是接下来我们要学习的稠密向量的表示方法word2vec和word embedding.

3 word2vec模型

3.1 模型介绍 

  • word2vec是一种流行的将词汇表示成向量的无监督训练方法, 该过程将构建神经网络模型, 将网络参数作为词汇的向量表示, 它包含CBOW和skipgram两种训练模式.

  • CBOW(Continuous bag of words)模式:

    • 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用上下文词汇预测目标词汇.
  • 分析:
  • 图中窗口大小为9, 使用前后4个词汇对目标词汇进行预测.
  • CBOW模式下的word2vec过程说明:
  • 假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长),窗口大小为3,因此模型的第一个训练样本来自Hope can set,因为是CBOW模式,所以将使用Hope和set作为输入,can作为输出,在模型训练时, Hope,can,set等词汇都使用它们的one-hot编码. 如图所示: 每个one-hot编码的单词与各自的变换矩阵(即参数矩阵3x5, 这里的3是指最后得到的词向量维度)相乘之后再相加, 得到上下文表示矩阵(3x1).

  • 接着, 将上下文表示矩阵与变换矩阵(参数矩阵5x3, 所有的变换矩阵共享参数)相乘, 得到5x1的结果矩阵, 它将与我们真正的目标矩阵即can的one-hot编码矩阵(5x1)进行损失的计算, 然后更新网络参数完成一次模型迭代.

  • 最后窗口按序向后移动,重新更新参数,直到所有语料被遍历完成,得到最终的变换矩阵(3x5),这个变换矩阵与每个词汇的one-hot编码(5x1)相乘,得到的3x1的矩阵就是该词汇的word2vec张量表示.
  • skipgram模式:
    • 给定一段用于训练的文本语料, 再选定某段长度(窗口)作为研究对象, 使用目标词汇预测上下文词汇.

  • 分析:
  • 图中窗口大小为9, 使用目标词汇对前后四个词汇进行预测.
  • skipgram模式下的word2vec过程说明:
  • 假设我们给定的训练语料只有一句话: Hope can set you free (愿你自由成长),窗口大小为3,因此模型的第一个训练样本来自Hope can set,因为是skipgram模式,所以将使用can作为输入 ,Hope和set作为输出,在模型训练时, Hope,can,set等词汇都使用它们的one-hot编码. 如图所示: 将can的one-hot编码与变换矩阵(即参数矩阵3x5, 这里的3是指最后得到的词向量维度)相乘, 得到目标词汇表示矩阵(3x1).

  • 接着, 将目标词汇表示矩阵与多个变换矩阵(参数矩阵5x3)相乘, 得到多个5x1的结果矩阵, 它将与我们Hope和set对应的one-hot编码矩阵(5x1)进行损失的计算, 然后更新网络参数完成一次模 型迭代.

  • 最后窗口按序向后移动,重新更新参数,直到所有语料被遍历完成,得到最终的变换矩阵即参数矩阵(3x5),这个变换矩阵与每个词汇的one-hot编码(5x1)相乘,得到的3x1的矩阵就是该词汇的word2vec张量表示.

3.2 word2vec的训练和使用

  • 第一步: 获取训练数据
  • 第二步: 训练词向量
  • 第三步: 模型超参数设定
  • 第四步: 模型效果检验
  • 第五步: 模型的保存与重加载
 1 获取训练数据

数据来源:http://mattmahoney.net/dc/enwik9.zip

在这里, 我们将研究英语维基百科的部分网页信息, 它的大小在300M左右。这些语料已经被准备好, 我们可以通过Matt Mahoney的网站下载。

注意:原始数据集已经放在/root/data/enwik9.zip,解压后数据为/root/data/enwik9,预处理后的数据为/root/data/fil9

  • 查看原始数据:
    $ head -10 data/enwik9
    
    # 原始数据将输出很多包含XML/HTML格式的内容, 这些内容并不是我们需要的
    <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.3/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.mediawiki.org/xml/export-0.3/ http://www.mediawiki.org/xml/export-0.3.xsd" version="0.3" xml:lang="en">
      <siteinfo>
        <sitename>Wikipedia</sitename>
        <base>http://en.wikipedia.org/wiki/Main_Page</base>
        <generator>MediaWiki 1.6alpha</generator>
        <case>first-letter</case>
          <namespaces>
          <namespace key="-2">Media</namespace>
          <namespace key="-1">Special</namespace>
          <namespace key="0" />
  • 原始数据处理:
    # 使用wikifil.pl文件处理脚本来清除XML/HTML格式的内容
    # perl wikifil.pl data/enwik9 > data/fil9 #该命令已经执行
  • 查看预处理后的数据:
    # 查看前80个字符
    head -c 80 data/fil9
    
    # 输出结果为由空格分割的单词
     anarchism originated as a term of abuse first used against early working class
    2 训练词向量
    # 代码运行在python解释器中
    # 导入fasttext
    >>> import fasttext
    # 使用fasttext的train_unsupervised(无监督训练方法)进行词向量的训练
    # 它的参数是数据集的持久化文件路径'data/fil9'
    
    # 注意,该行代码执行耗时很长
    >>> model1 = fasttext.train_unsupervised('data/fil9') 
    
    # 可以使用以下代码加载已经训练好的模型
    >>> model = fasttext.load_model("data/fil9.bin")
    
    
    # 有效训练词汇量为124M, 共218316个单词
    Read 124M words
    Number of words:  218316
    Number of labels: 0
    Progress: 100.0% words/sec/thread:   53996 lr:  0.000000 loss:  0.734999 ETA:   0h 0m
    3 查看单词对应的词向量
    # 通过get_word_vector方法来获得指定词汇的词向量
    >>> model.get_word_vector("the")
    
    array([-0.03087516,  0.09221972,  0.17660329,  0.17308897,  0.12863874,
            0.13912526, -0.09851588,  0.00739991,  0.37038437, -0.00845221,
            ...
           -0.21184735, -0.05048715, -0.34571868,  0.23765688,  0.23726143],
          dtype=float32)
    4 模型超参数设定
    # 在训练词向量过程中, 我们可以设定很多常用超参数来调节我们的模型效果, 如:
    # 无监督训练模式: 'skipgram' 或者 'cbow', 默认为'skipgram', 在实践中,skipgram模式在利用子词方面比cbow更好.
    # 词嵌入维度dim: 默认为100, 但随着语料库的增大, 词嵌入的维度往往也要更大.
    # 数据循环次数epoch: 默认为5, 但当你的数据集足够大, 可能不需要那么多次.
    # 学习率lr: 默认为0.05, 根据经验, 建议选择[0.01,1]范围内.
    # 使用的线程数thread: 默认为12个线程, 一般建议和你的cpu核数相同.
    
    >>> model = fasttext.train_unsupervised('data/fil9', "cbow", dim=300, epoch=1, lr=0.1, thread=8)
    
    Read 124M words
    Number of words:  218316
    Number of labels: 0
    Progress: 100.0% words/sec/thread:   49523 lr:  0.000000 avg.loss:  1.777205 ETA:   0h 0m 0s
    5 模型效果检验
    # 检查单词向量质量的一种简单方法就是查看其邻近单词, 通过我们主观来判断这些邻近单词是否与目标单词相关来粗略评定模型效果好坏.
    
    # 查找"运动"的邻近单词, 我们可以发现"体育网", "运动汽车", "运动服"等. 
    >>> model.get_nearest_neighbors('sports')
    
    [(0.8414610624313354, 'sportsnet'), (0.8134572505950928, 'sport'), (0.8100415468215942, 'sportscars'), (0.8021156787872314, 'sportsground'), (0.7889881134033203, 'sportswomen'), (0.7863013744354248, 'sportsplex'), (0.7786710262298584, 'sporty'), (0.7696356177330017, 'sportscar'), (0.7619683146476746, 'sportswear'), (0.7600985765457153, 'sportin')]
    
    
    # 查找"音乐"的邻近单词, 我们可以发现与音乐有关的词汇.
    >>> model.get_nearest_neighbors('music')
    
    [(0.8908010125160217, 'emusic'), (0.8464668393135071, 'musicmoz'), (0.8444250822067261, 'musics'), (0.8113634586334229, 'allmusic'), (0.8106718063354492, 'musices'), (0.8049437999725342, 'musicam'), (0.8004694581031799, 'musicom'), (0.7952923774719238, 'muchmusic'), (0.7852965593338013, 'musicweb'), (0.7767147421836853, 'musico')]
    
    # 查找"小狗"的邻近单词, 我们可以发现与小狗有关的词汇.
    >>> model.get_nearest_neighbors('dog')
    
    [(0.8456876873970032, 'catdog'), (0.7480780482292175, 'dogcow'), (0.7289096117019653, 'sleddog'), (0.7269964218139648, 'hotdog'), (0.7114801406860352, 'sheepdog'), (0.6947550773620605, 'dogo'), (0.6897546648979187, 'bodog'), (0.6621081829071045, 'maddog'), (0.6605004072189331, 'dogs'), (0.6398137211799622, 'dogpile')]
    6 模型的保存与重加载
    # 使用save_model保存模型
    >>> model.save_model("fil9.bin")
    
    # 使用fasttext.load_model加载模型
    >>> model = fasttext.load_model("fil9.bin")
    >>> model.get_word_vector("the")
    
    array([-0.03087516,  0.09221972,  0.17660329,  0.17308897,  0.12863874,
            0.13912526, -0.09851588,  0.00739991,  0.37038437, -0.00845221,
            ...
           -0.21184735, -0.05048715, -0.34571868,  0.23765688,  0.23726143],
          dtype=float32)

    4 词嵌入word embedding介绍

  • 通过一定的方式将词汇映射到指定维度(一般是更高维度)的空间.
  • 广义的word embedding包括所有密集词汇向量的表示方法,如之前学习的word2vec, 即可认为是word embedding的一种.
  • 狭义的word embedding是指在神经网络中加入的embedding层, 对整个网络进行训练的同时产生的embedding矩阵(embedding层的参数), 这个embedding矩阵就是训练过程中所有输入词汇的向量表示组成的矩阵.

  • word embedding的可视化分析:

  • 通过使用tensorboard可视化嵌入的词向量.
    import tensorflow as tf
    import tensorboard as tb
    tf.io.gfile = tb.compat.tensorflow_stub.io.gfile
    
    # 导入torch和tensorboard的摘要写入方法
    import torch
    import json
    import fileinput
    from torch.utils.tensorboard import SummaryWriter
    # 实例化一个摘要写入对象
    writer = SummaryWriter()
    
    # 随机初始化一个100x50的矩阵, 认为它是我们已经得到的词嵌入矩阵
    # 代表100个词汇, 每个词汇被表示成50维的向量
    embedded = torch.randn(100, 50)
    
    # 导入事先准备好的100个中文词汇文件, 形成meta列表原始词汇
    meta = list(map(lambda x: x.strip(), fileinput.FileInput("./vocab100.csv")))
    writer.add_embedding(embedded, metadata=meta)
    writer.close()
  • 在终端启动tensorboard服务:
  • 浏览器展示并可以使用右侧近邻词汇功能检验效果:

标签:编码,词汇,矩阵,张量,hot,深度,model,文本,向量
From: https://blog.csdn.net/DGFfdAf/article/details/141506282

相关文章

  • 【Rust光年纪】文本分析利器:探索Rust语言的多功能文本处理库
    从情感分析到关键词提取:Rust语言文本分析库详解前言随着自然语言处理技术的不断发展,对各种文本数据进行分析和处理的需求也在不断增加。本文将介绍一些用于Rust语言的文本分析和处理库,包括情感分析、自然语言处理、中文转换、语言检查和关键词提取等方面的工具和资源。......
  • [深度学习]了解常见优化方法的问题及解决方案
    传统的梯度下降优化算法中,可能会碰到以下情况:碰到平缓区域,梯度值较小,参数优化变慢碰到“鞍点”,梯度为0,参数无法优化碰到局部最小值对于这些问题,出现了一些对梯度下降算法的优化方法,例如:Momentum、AdaGrad、RMSprop、Adam等.1.指数加权平均我们最常见的算数平均指......
  • Django后台管理Xadmin使用DjangoUeditor富文本编辑器
    Django后台管理Xadmin使用DjangoUeditor富文本编辑器一、下载点击github下载https://github.com/twz915/DjangoUeditor31、下载完后解压到跟xadmin同一层级目录:2、解压后名称可能为DjangoUeditor3-master,需要改为DjangoUeditor3、进入DjangoUeditor目录,把DjangoUedit......
  • Objective-C 中的系统调用术:NSTask 深度解析
    标题:Objective-C中的系统调用术:NSTask深度解析在Objective-C开发中,有时我们需要执行外部程序或命令行工具来完成特定的任务,如运行脚本、调用系统服务或执行自定义命令。NSTask是Foundation框架中一个用于创建和管理系统命令的类,它允许开发者在应用中启动和控制外部......
  • 【pytorch深度学习——小样本学习策略】网格搜索和遗传算法混合优化支持向量机的小样
    最近需要根据心率血氧数据来预测疲劳度,但是由于心率血氧开源数据量较少,所以在训练模型时面临着样本数量小的问题,需要对疲劳程度进行多分类,属于小样本,高维度问题。在有限样本的条件之下,必须要需要选择合适的深度学习算法同时满足模型的泛化能力和学习精度。其次,由于小样本学习的......
  • 深度学习 回归问题
    1.梯度下降算法深度学习中,梯度下降算法是是一种很重要的算法.梯度下降算法与求极值的方法非常类似,其核心思想是求解x′x'......
  • 如何快速将经纬度坐标解析为地址文本?
    GIS数据转换器的"坐标转地址"功能,可以帮助用户将经纬度坐标快速转换为对应的地址文本,广泛用于地图导航、地籍管理、物流追踪、紧急救援等多个领域,提高地理位置信息的实用性和可访问性。下面是详细的使用步骤:方法/步骤1.数据要求(1)数据格式:软件支持DWG、DX......
  • 每天五分钟深度学习:从数学角度分析逻辑回归算法损失函数的来源
    本文重点前面的课程中,我们只得到了逻辑回归算法模型的损失函数(如下所示),但是你是否知道它为什么是逻辑回归算法的损失函数?本文对其进行拆分,从0到1构建该损失函数,从数学角度分析为什么它是逻辑回归的损失函数.逻辑回归在逻辑回归算法中,我们需要预测y^,也就是说目标函数如下所......
  • 深度解析:为何顶尖SEO专家偏爱使用代理技术?
    在当今这个数字化时代,搜索引擎优化(SEO)已成为企业和电商从业者在网站获取自然流量、提升品牌知名度和促进业务增长的关键策略之一。然而,随着搜索引擎算法的不断升级和市场竞争的日益激烈,传统的SEO手段已难以满足现代改善SEO需求。在此背景下,利用代理技术优化网站排名成为了一种......
  • 通感算一体化:(二)深度解读通、感、算三者的内含与联系
    一、6G和5G的区别6G的理论速度更快,可以达到“每秒10Tbps(万亿比特)”,比5G快了1000倍;峰值速率从Gbit/s提升到Tbit/s,体验速率从Mbps提升到Gbit/s,空口时延从毫秒级提升到亚毫秒级,定位精度从m级提升到cm级,网络容量提升到5G的1,000倍,连接密度从1个/平方米提升到10~100个/平方......