首页 > 其他分享 >TextCNN: Convolutional Neural Networks for Sentence Classification

TextCNN: Convolutional Neural Networks for Sentence Classification

时间:2024-07-09 21:19:27浏览次数:14  
标签:Convolutional 特征向量 Classification Sentence 卷积 矩阵 static CNN 向量

本文是CNN应用在NLP领域的开山之作。TextCNN的成功并不是网络结构的成功,而是通过引入已经训练好的词向量在多个数据集上达到了超越benchmark的表现,证明了构造更好的embedding,是提升NLP各项任务的关键能力。

作者做了一系列实验,这些实验使用卷积神经网络(CNN)在预训练的词向量之上进行训练,用于句子级分类任务。作者发现,一个简单的CNN只需要很少的超参数调整和静态向量即可在多个基准测试上都能获得出色的结果。通过微调来学习特定于任务的向量可以进一步提高性能。此外,作者还建议对架构进行间的修改,以允许使用特定于任务的向量和静态向量。

论文所使用的模型结构图如下图,我们来看看作者说的一个简单的CNN,到底有多简单。

上图的最左边便是词嵌入矩阵,将输入的句子中的每个单词映射成一个向量表示,然后拼接起来成为一个7x5的矩阵,7就是输入句子的长度,5就是词向量的维度。然后使用尺寸为2x2,3x3,4x4的卷积核(每种尺寸的卷积核个数为2个)对词嵌入矩阵进行卷积操作,得到2x3(3是尺寸个数,2是每种尺寸的卷积核个数)个特征向量。再对得到的6个特征向量分别进行最大池化操作再拼接池化化的向量得到最终的特征向量。再将得到的特征向量经过一个全连接层将特征向量大小映射为类别个数大小并输出各个类别的概率大小。

没了,就是这么简单,再看下面的实验结果。CNN-rand是词嵌入矩阵随机初始化,然后通过反向传播更新输入层的各个单词对应的词向量。CNN-static是词嵌入矩阵使用与训练好的词向量矩阵,然后所有单词的词向量都保持静态(包括随机初始化的未知单词),仅学习模型的其他参数。CNN-non-static是使用预训练的词向量矩阵+通过反向传播的方式动态调整词向量嵌入矩阵的值。CNN-multichannel是具有两组词向量的模型,每组词向量都被视为一个“通道”,每个卷积核都应用于两个通道,但梯度仅通过其中一个通道反向传播,因此,该模型能够微调一组词向量,同时保持另一组词向量静态。

CNN-static的实验结果的数据说明了作者的发现:一个简单的CNN只需要很少的超参数调整和静态向量可以在多个基准测试上都能获得出色的结果。CNN-non-static 和CNN-static的对比说明了“通过微调来学习特定于任务的向量可以进一步提高性能”。


代码实现

标签:Convolutional,特征向量,Classification,Sentence,卷积,矩阵,static,CNN,向量
From: https://www.cnblogs.com/jokewl/p/18292759

相关文章

  • 读论文《OSCNet: Orientation-Shared ConvolutionalNetwork for CT Metal Artifact Le
    论文题目:面向共享的CT金属伪影学习卷积网络论文主题:金属伪影去噪论文地址:OSCNet_TMI2023.pdf-Google云端硬盘这个是oscnet+,oscnet进阶版,感觉和acdnet很像其实,本文读论文,下一篇博客讲讲复现摘要:        在本文中,我们仔细研究了具有旋转对称条纹图案的金属工件......
  • 基于Sentence Transformer微调向量模型
    SentenceTransformer库升级到了V3,其中对模型训练部分做了优化,使得模型训练和微调更加简单了,跟着官方教程走了一遍,顺利完成向量模型的微调,以下是对官方教程的精炼和总结。一所需组件使用SentenceTransformer库进行向量模型的微调需要如下的组件:数据数据:用于训练和评估的数......
  • Exploring Large Language Models and Hierarchical Frameworks for Classification o
    本文是LLM系列文章,针对《ExploringLargeLanguageModelsandHierarchicalFrameworksforClassificationofLargeUnstructuredLegalDocuments》的翻译。探索大型非结构化法律文件分类的大型语言模型和层次框架摘要1引言2相关工作3方法:分类框架(MESc)4结......
  • image-classification-dataset
    importtorchtextfromtorchvisionimporttransformsfromtorch.utilsimportdatafromd2limporttorchasd2limporttorchvisiontrans=transforms.ToTensor()fashion_mnist_train=torchvision.datasets.FashionMNIST("../data",......
  • 论文阅读:Improved Graph Contrastive Learning for Short Text Classification
    LiuY,HuangL,GiunchigliaF,etal.Improvedgraphcontrastivelearningforshorttextclassification[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.2024,38(17):18716-18724.GIFT模型的github网址整体框架图首先,构建一个由Gw、Ge和Gp三......
  • 【高光谱遥感分类论文解读1】Hyperspectral Image Classification Using Group-Aware
    目录一、论文基本信息二、研究背景三、研究方法1.GAHT总体框架2.GPE模块3.Transformer编码模块四、实验本文是博主对原论文的解读,仅代表博主个人观点,欢迎在评论区和我交流~其中,本博文中的图片和公式均来源于原论文,如需进一步了解,请查看原论文。一、论文基本信息......
  • SentencePiece: A simple and language independent subword tokenizer and detokeniz
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布! Abstract 1Introduction 2SystemOverview  3LibraryDesign 3.1LosslessTokenization  3.2Efficientsubwordtrainingandsegmentation 3.3Vocabularyidmanagement 3.4Customi......
  • Summary:《Adversarial Machine Learning in Image Classification: A Survey Towards
    Note“TaxonomyofAdversarialImages”(Machado等,2023,p.5)(pdf)扰动范围(PerturbationScope):个体扰动(Individual-scopedperturbations):为每个输入图像单独生成的扰动。通用扰动(Universal-scopedperturbations):独立于任何输入样本生成的扰动,可应用于任何合......
  • Combining Recurrent, Convolutional, and Continuous-time Models with Linear State
    目录概符号说明LSSL和其它方法的联系代码GuA.,JohnsonI.,GoelK.,SaabK.,DaoT.,RudraA.,andReC.Combiningrecurrent,convolutional,andcontinuous-timemodelswithlinearstate-spacelayers.NeurIPS,2021.Statespacerepresentaion-wiki.概Mamba......
  • 吴恩达机器学习第一课 Supervised Machine Learning Regression and Classification
    SupervisedMachineLearningRegressionandClassification第一周1.1机器学习定义1.2监督学习1.2.1回归在输入输出学习后,然后输入一个没有见过的x输出相应的y1.2.2classification有多个输出1.3无监督学习数据仅仅带有输入x,但不输出标签y,算法需要找到数据中的......