首页 > 编程语言 >基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享

时间:2023-06-23 19:32:33浏览次数:46  
标签:NLP Classification 卷积 分类 神经网络 源码 文本 打包


导读:文本分类是NLP领域一项基础工作,在工业界拥有大量且丰富的应用场景。传统的文本分类需要依赖很多词法、句法相关的human-extracted feature,自2012年深度学习技术快速发展之后,尤其是循环神经网络RNN、卷积神经网络CNN在NLP领域逐渐获得广泛应用,使得传统的文本分类任务变得更加容易,准确率也不断提升,本文主要内容整理自网络,汇集了2014年以来,DL在文本分类领域相关的6篇论文,主要从CNN、RNN、Attention、RNN+CNN,或Word-level、Character-level角度出发,提升文本分类准确率。

文本附论文及源码下载地址。

Convolutional Neural Networks for Sentence Classification

主要内容:基于预先训练好的word embedding,采用卷积神经网络( CNN )训练了一个word-level的句子分类器,并进行了一些列的实验来验证分类效果。实验证明,一个简单的CNN模型,只需要调整少量超参数和word embedding,在多个标准数据集上都取得了很好的效果。根据特定的任务对word embedding进一步fine-tuning,可以进一步提高分类效果。此外,还提出了一些对模型结构的进行简单修改的建议,以允许模型同时使用task-specific embedding和预先训练好的static embedding。





Character-level Convolutional Networks for Text Classification Very Deep Convolutional Networks for Text Classification

主要内容:本文主要研究字符级(character-level)卷积网络( ConvNets )在文本分类中的应用。构建了几个大规模数据集,以证明字符级的卷积网络可以获得更好的分类结果。并与传统模型(如bag-of-words、n - gram及TFIDF变体)和深度学习模型(如基于单词的ConvNets和递归神经网络)进行了比较。


基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享_Powered by 金山文档


Very Deep Convolutional Networks for Text Classification

主要内容:本文是首次将非常深度卷积网络应用于文本处理。NLP领域使用最多的DL模型有递归神经网络,特别是LSTMs和卷积神经网络。但与计算机视觉领域的深层卷积网络(Google InceptionNet,ResNet)相比,NLP常用的深度学习模型深度还是比较浅。本文提出了一种新的,character-level的文本处理架构( VDCNN ),只使用小的卷积和池化操作。实验证明,模型的性能随着深度的增加而增加:最后达到29个卷积层,并在多个文本分类任务上的取得了最优的成绩。


基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享_Powered by 金山文档_02


Text Classification Improved by Integrating Bidirectional LSTM with Two-dimensional Max Pooling

主要内容:递归神经网络( RNN )是自然语言处理( NLP )任务中最常用的网络结构之一,因为它的递归结构非常适合处理不同长度的文本。RNN可以基于word的embedding,把整个句文本抽取成一个矩阵。这个矩阵包括两个维度:时间步长维度和特征向量维度。现有的大多数模型通常只在时间步长维度上通过一维( 1D )max-pooling操作或基于注意力的操作来把整个整个句子转换成一个固定长度的向量。但这就存在一个问题:特征向量维上的特征向量之间并不是相互独立的,简单地在时间步长维度上单独应用1D的max-pooling可能破坏特征表示的结构。相反,在二维上应用二维( 2D )pooling操作可以获得更多对序列建模任更有意义的特征。为了整合矩阵的两个维度上的特征,本文提出使用2D max-pooling操作来获得文本的固定长度表示。本文还利用二维卷积对矩阵中更有意义的信息进行了采样。对情感分析、问题分类、主观性分类和新闻组分类6个文本分类任务进行了实验。与现有模型相比,所提出的模型在6个任务中的4个任务上取得了最优的结果。


基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享_Powered by 金山文档_03


Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

主要内容:关系分类是自然语言处理领域的一项重要语义处理任务。但存在两个问题:1、即使是最先进的系统仍然需要依赖一些lexical resources(如WordNet )或NLP系统(如依赖与句法分析和命名实体识别)来获得高级特征。2、重要信息会出现在句子的任何位置。针对这些问题,本文提出了基于注意力机制的双向长短期记忆网络( Att-BLSTM )来捕捉句子中最重要的语义信息。在SemEval - 2010关系分类任务上的进行试验,结果证明该方法优于现有的大多数方法。


基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享_深度学习_04


Recurrent Convolutional Neural Networks for Text Classification

主要内容:文本分类是许多NLP应用中的基础任务。传统的文本分类器往往依赖于许多人为设计的特征,如字典、知识库和特殊的树结构。与传统的文本分类方法相比,本文将卷积神经网络和循环神经网络相结合,提出了一种无需人为feature的递归卷积神经网络。在模型结构中中,采用一种递归结构来尽可能地捕获上下文信息,学习word的表示,这与传统的基于窗口的神经网络相比,引入更少的噪声。还采用了一个max - pooling层,自动判断哪些词在文本分类中起着关键作用,以捕获文本中的关键信息。在四个常用数据集上进行了实验,实验结果表明,在多个数据集上,特别是在文档级数据集上,该方法的性能优于现有的方法。


基于深度学习的文本分类6大算法-原理、结构、论文、源码打包分享_开发语言_05



标签:NLP,Classification,卷积,分类,神经网络,源码,文本,打包
From: https://blog.51cto.com/u_13046751/6538938

相关文章

  • GoLang在不同系统打包
    配置Mac下编译Linux,Windows平台的64位可执行程序:goenv-wCGO_ENABLED=0GOOS=linuxGOARCH=amd64goenv-wCGO_ENABLED=0GOOS=windowsGOARCH=amd64Linux下编译Mac,Windows平台的64位可执行程序:goenv-wCGO_ENABLED=0GOOS=darwinGOARCH=amd64goenv-wCGO_E......
  • 用python写一个保存文本到文件的函数
    用python写一个保存文本到文件的函数━━━━━━━━━━━━━━━━━━━━━━━━━可以通过Python的文件操作来实现保存文本到文件的功能。下面是一个保存文本到文件的函数的示例:defsave_text_to_file(text,file_path):try:withopen(file_path,'w')a......
  • 文本识别分类系统python,基于深度学习的CNN卷积神经网络算法
    一、介绍文本分类系统,使用Python作为主要开发语言,通过TensorFlow搭建CNN卷积神经网络对十余种不同种类的文本数据集进行训练,最后得到一个h5格式的本地模型文件,然后采用Django开发网页界面,实现用户在界面中输入一段文字,识别其所属的文本种类。在我们的日常生活和工作中,文本数据无......
  • 中文文本纠错相关经典论文、数据集、系统等资源分享
       中文文本纠错又分为中文拼写纠错(ChineseSpellingCheck,CSC)和语法纠错(GrammaticalErrorCorrection,GEC)。中文拼写纠错任务对中文文本中的拼写纠错(别字、别词)进行检测和纠正。语法纠错任务纠正文本中不同类型的错误,包括拼写、标点、语法等类型错误。    本资源整理......
  • 历史最全互联网公司常用框架源码赏析整理分享
    “技术深度”与“技术广度”是对开发者来说最为重要的两个维度,本项目致力于从源码层面,剖析和挖掘互联网行业主流技术的底层实现原理,为广大开发者“提升技术深度”提供便利。目前开放的有Spring全家桶、Mybatis、Netty、Dubbo框架,及Redis、Tomcat中间件等,让我们一起开......
  • NLP实战必读-基于Python的文本分析实战
    本书介绍   从新闻和演讲到社交媒体上的非正式聊天,自然语言是最丰富、利用最少的数据来源之一。它不仅源源不断地供给,总是在环境中变化和适应;它还包含传统数据源无法传达的信息。解锁自然语言的关键是通过文本分析的创造性应用。本书展示了数据科学家用应用机器学习模型构建语......
  • 基于SpringBoot实现SSMP整合的案例源码
    案例介绍:基于SpringBoot实现SSMP整合的案例之一(案例分析与模块创建)-掘金(juejin.cn)源码下载:点我......
  • 将python程序打包为exe可执行文件方法
    将py打包为exe文件需要依赖pyinstaller第三方库-F:打包后只生成单个exe格式文件;-D:默认选项,创建一个目录,包含exe文件以及大量依赖文件;-c:默认选项,使用控制台(就是类似cmd的黑框);-w:不使用控制台;-p:添加搜索路径,让其找到对应的库;-i:改变生成程序的icon图标。1.单个py文件编......
  • stata rencode源码
    *rencode*Programtoencodevariableandreplaceoriginalasdesired.*Likeencode,butcanspecifyreplaceoptioninsteadofgenerate(name).*Thisprogramalsocompressesthegeneratedvariabletoamoreefficientdatatypeifpossible.*KennethL.S......
  • 使用pyinstaller打包python为exe文件
    将Python图形界面程序打包成可执行文件,可以在没有Python环境的电脑上运行,可以使用PyInstaller或者cx_Freeze等工具。使用PyInstaller打包Python程序首先,在命令行中安装PyInstaller:pipinstallpyinstaller在命令行中进入Python程序所在目录。输入以下命令:pyinstaller--onef......