首页 > 其他分享 >【AI学习笔记4】四种主流的神经网络 FNN、RNN、CNN、Transformer

【AI学习笔记4】四种主流的神经网络 FNN、RNN、CNN、Transformer

时间:2024-12-22 23:31:25浏览次数:7  
标签:Transformer RNN AI 模型 神经网络 https CNN

 

一、人工神经网络的分类

最常用的人工神经网络(Artificial Neural Network,ANN)主要包括以下四种:前馈神经网络(Feedforward Neural Network,FNN)、循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN),还有当前最流行的大模型常用的Transformer神经网络。不同模型的网络具有不同的结构和特点,适用于解决不同类型的任务。【1】

 

  1. 前馈神经网络(FNN)

前馈神经网络FNN是一种最基础的神经网络模型,其特点是每个神经元的输出只传给下一层的神经元。信息处理是从输入层到输出层单向的,适合于解决分类和回归等问题。【1】

FNN相关的概念:

感知机——(Perceptron)。

多层感知机——MLP(Multilayer Perceptron),包含一个输入层、一个或多个隐藏层和一个输出层。

全连接神经网络详解——FCNN(Full Connect Neural Network),当前层的每个神经元都会接入前一层每个神经元的输入信号。

深度神经网络——DNN(Deep Neural Networks)。

 

一个典型的MLP网络:【2】

 

 

  1. 循环神经网络
    循环神经网络RNN是一种能够处理序列数据的神经网络模型,在网络中引入了循环结构,使得每个神经元不仅能够接收来自上一层的输入,还能够接收来自同一层的输入。

RNN主要用于解决序列预测和语言建模等问题,可以细分为RNN、LSTM(Long Short-Term Memory)、GRU(Gated Recurrent Unit)等。其中LSTM是最常用的循环神经网络之一,它通过引入门控机制和记忆单元,有效解决了传统RNN存在的梯度消失(vanishing gradient)和梯度爆炸(exploding gradient)等问题。【1】

 

一个典型的RNN网络:【3】

 

 

  1. 卷积神经网络
    卷积神经网络CNN是一种专门用于处理图像数据的神经网络模型,其特点是在网络中引入了卷积层(Convolutional Layer)和池化层(Pooling Layer)等结构,提取出图像的特征信息。最后会接一个全连接层(Fully Connected Layer)分类得到output。
        CNN主要用于解决图像分类和目标检测等问题,可细分为LeNet、AlexNet、VGGNet、GoogLeNet、ResNet等。其中ResNet通过引入残差结构,有效解决了深度神经网络训练过程中存在的梯度消失和梯度爆炸等问题,取得了在图像分类任务上的优秀表现。【1】

 

一个典型的CNN网络:【4】

 

残差网络(ResNet):【5】

 

  1. Transformer神经网络

Transformer模型是一种采用注意力机制深度学习模型,这一机制可以按输入数据各部分重要性的不同而分配不同的权重。该模型主要用于自然语言处理(NLP)与计算机视觉(CV)领域。【6】

原始的Transformer模型使用编码器-解码器(encoder–decoder)架构。每个编码层和解码层都使用了多头注意力机制。

Google BERT(Bidirectional Encoder Representations from Transformers)采用的是Transformer的编码器结构。

OpenAI GPT(Generative Pre-trained Transformer)采用的是Transformer的解码器结构。

 

一个典型的Transformer网络:

 

《Attention Is All You Need》【7】

 

二、人工神经网络的训练

前馈神经网络可以通过反向传播来训练模型,通过反向传播可以计算每个神经元相关的误差,从而对模型参数(权重weight)进行适当的调整和拟合。【8】

拟合与欠拟合【9】:

过拟合: 根本原因是特征维度过多,模型假设过于复杂,参数过多,训练数据过少,噪声过多,导致拟合的函数完美的预测训练集,但对新数据的测试集预测结果差。过度的拟合了训练数据,而没有考虑到泛化能力。见下图,为了解决这一问题使用dropout的方式解决。

 

使用dropout的方式在网络正向传播过程中随机失活一部分神经元,dropout随机冻结神经元,类似于一个随机森林,在训练过程中每次冻结一些,在梯度回传的过程中,提高泛化性。

 

参考文献(References):

【1】 搬砖的石头 《神经网络三大模型:FNN、RNN与CNN详解》

https://cloud.baidu.com/article/1895979

 

【2】 mob64ca13fc5fb6 《mlp神经网络回归分析 mlp神经网络算法》

https://blog.51cto.com/u_16213600/7985286

 

【3】 Samuel Zhou 《循环神经网络(RNN)、长短时记忆网络(LSTM)及(GRU)模型》

https://juejin.cn/post/6996899273174417444

 

【4】 《【深度学习】卷积神经网络-CNN简单理论介绍_专栏_易百纳技术社区

https://www.google.com/url?sa=i&url=https%3A%2F%2Fwww.ebaina.com%2Farticles%2F140000017212&psig=AOvVaw0ese9PNRqiayPs7xRfz4al&ust=1734960548009000&source=images&cd=vfe&opi=89978449&ved=0CBcQjhxqFwoTCLjt2_q9u4oDFQAAAAAdAAAAABAE

 

【5】 视觉嵌入式 《经典神经网络模型分类简介(一)》

https://blog.csdn.net/qq_59572329/article/details/121596475

 

【6】 《Transformer模型》

https://zh.wikipedia.org/wiki/Transformer%E6%A8%A1%E5%9E%8B

 

【7】 Google 《Attention Is All You Need》

https://arxiv.org/abs/1706.03762

 

【8】 《什么是神经网络?》

https://www.ibm.com/cn-zh/topics/neural-networks

 

【9】 全栈程序员站长《深度学习—2.常见的神经网络结构》

https://cloud.tencent.com/developer/article/1885536

标签:Transformer,RNN,AI,模型,神经网络,https,CNN
From: https://www.cnblogs.com/jasonqiustar/p/18622783

相关文章

  • Faiss
    Faisshttps://github.com/facebookresearch/faisshttps://faiss.ai/index.htmlhttps://arxiv.org/pdf/2401.08281 FaissFaissisalibraryforefficientsimilaritysearchandclusteringofdensevectors.Itcontainsalgorithmsthatsearchinsetsofvecto......
  • AI文字界面描述生成原型与前端代码
    场景   之前文章也有介绍AI助力生成原型与UI前端代码第一回代码自动生成:AI大模型可以根据用户提供的文字界面描述,自动生成前端代码,如HTML、CSS和JavaScript。这种自动化过程显著减少了手动编写代码的时间和工作量,提高了开发效率。例如,开发者只需提供界面的草图或描述性语言,AI......
  • 离开Jetbrains拥抱VsCode: 离开大便拥抱大便
    为什么要离开Jetbrains原因很简单,Jetbrains对于AICoding的支持非常烂其中大部分的AICoding都是通过插件来实现的,但是体验非常不好,而且开发难度比之Vscode高了许多,很多同时支持Jetbrains以及VsCode的插件,更新速度有巨大的区别例如Continue,VsCode上可以做到周更,......
  • 离开Jetbrains拥抱VsCode: 离开大便拥抱大便
    为什么要离开Jetbrains原因很简单,Jetbrains对于AICoding的支持非常烂其中大部分的AICoding都是通过插件来实现的,但是体验非常不好,而且开发难度比之Vscode高了许多,很多同时支持Jetbrains以及VsCode的插件,更新速度有巨大的区别例如Continue,VsCode上可以做到周更,......
  • React+TypeScript+Tailwind 实现圣诞祝福网页
    圣诞节快要到啦,提前祝大家圣诞节快乐!!!项目完整源码在最后哦✨视频(一):项目环境搭建在这个教程中,我们将一步步创建一个精美的圣诞祝福网页。本文是系列的第一部分,我们将完成项目的环境搭建。环境准备1.Node.js安装访问Node.js官网下载并安装LTS(长期支持)版本验......
  • Scale AI公司的平台:Outlier平台;Remotows平台
    ScaleAI公司Scale指的是ScaleAI公司,是一家总部位于加利福尼亚州旧金山的人工智能公司.以下是关于它的一些信息:做小规模大模型LLMs发展历程2016年成立,最初致力于为自动驾驶汽车等应用创建标记数据集,通过构建数据管道和标注技术,在人工智能模型训练领域崭露头角.2019......
  • 九析带你轻松完爆AI大模型(二十四)---科技文明发展
    申明:九析唯一授权【超级网红系列课程——AI 大模型全栈架构师】系列课程        “桥本小姐打游戏怎么还气鼓鼓的?”    “哎呀,大叔你不懂,人家在辛苦打怪升级呢。”    “哦,乔本小姐打的是什么游戏呢?”    “文明这款游戏,大叔。” ......
  • push代码报错fatal: Authentication failed的问题解决
    在不使用pat之前,我的centos系统不能向github提交代码,然后我在github上申请了pat并且配置,可以成功提交代码了,而且还免除了输入用户名和密码的麻烦。如何申请pat(咨询文心快码就可以得到答案):如何在git上配置pat(继续咨询文心快码):配置完成之后,问题得到解决,现在可以正常的push代码......
  • Transformers 框架 Pipeline 任务详解(五):表格问答(table-question-answering)
    在自然语言处理领域,表格问答是一项能够从结构化数据中提取信息的关键技术。它结合了自然语言理解和表格数据处理的能力,使得用户可以通过自然语言提问来获取表格中的特定信息。HuggingFace的Transformers框架通过其PipelineAPI提供了强大的table-question-answering功能,允许......
  • 千峰教育--Netty 再学习 1 网络模型概述(BIO、NIO、AIO)、BIO 逻辑实现及其局限性(单线程
    课程介绍1网络模型概述2Channel详解3Buffer详解4Selector详解5NIO综合案例-聊天室6AIO概念及实现 1网络编程IO模型介绍1.1BLockingIOBlockingIO也称BIO,及同步阻塞IO。Java的io包基于流模型实现,提供了FIle,FileInputStream,FileOutputStream等输入输出流......