首页 > 其他分享 >深度Q神经网络(DQN)

深度Q神经网络(DQN)

时间:2023-12-27 17:34:04浏览次数:21  
标签:s1 情商 更新 神经网络 课程 深度 DQN

有了上节课值函数近似的铺垫,这节课就来到了DQN,推开了深度强化学习的大门

为什么要学习DQN呢,为什么一定要有神经网络的参与呢,AI的发展肯定是为了帮助人类去完成一些事情,而人类的世界是很复杂的,很抽象的,不可能你几个数据就能训练出一个很厉害的模型,所以你需要上百万甚至不止的数据,那么,你从哪得到那么多数据不说,你就算得到了,你有办法储存吗,效率高吗,精确度怎么样?(比如我步长是1,我的状态是1,2,3,4,5,6,7,但是我的最佳状态是被夹在1和2之间的怎么办)那么就需要神经网络给我们提供的黑盒子函数,现在说说区别,逼入我是用表格训练的,我想得到Q(s1,s1),Q(s1,a2)....Q(s1,an),我是用表格肯定得一直输入什么,s1,a1;s1,a2.....s1,an;烦死了,但是我交给神经网络来做,我只需要给它输入s1,它就可以给我Q(s1,s1),Q(s1,a2)....Q(s1,an),多方便啊,这就是深度强化学习的魅力,然后就是老套路,运用Q-learning,时序差分那些东西一直更新参数就ok了,函数的话参数更新了,Q value也会更新 

 但是呢,但是,DQN尽管使用了神经网络,也会啊,有它的一点弊端,什么弊端呢,我用通俗的话举个例子,比如啊,你遇到了一个女孩子或男孩子,你们还不熟(state),就是说你很少和她(他)聊天(action),但是啊,她/他对你很是热情,不把你当外人,啥都和你说,和你很暧昧很亲密(Q(s,a)),这是啊,假如说你是那个神经网络,你就被骗了,被渣女/男给骗了,因为正常的女/男孩子不会这样,那要怎么解决呢,DQN有两个很重要的东西,第一个就是经验回放池,第二个就是目标网络,先讲讲第一个,就是你每次遇到一个女孩子,你肯定要和她相处对不对,然后你和她相处之后肯定会留下记忆(你和她熟不熟(s),你对她做了什么(action),她给你的反馈(Q(s,a))),把这些美好回忆放在经验回放池里面,接着有时候啊,你无聊的时候随机回忆几个女孩子,回忆(你和她熟不熟(s),你对她做了什么(action),她给你的反馈(Q(s,a)))然后学习,充分利用你们的美好记忆,哪怕你和这个女孩子最后只是路人,你们的回忆也是对你人生发展有帮助的,这就是经验回放池,没有它,你可能会觉得,这个女/男孩子太坏了,或者我和他/她不熟,不去回忆学习,最后被下一个渣男/女给骗了

接着就是目标网络,目标网络就是emmm.....比如你想谈一段美好的恋爱,目标网络可以是教练网络,就是你学的那些“高情商”课程,有时候啊,你发现这个女/男孩子不对劲,她给你的Q(s,a)很奇怪啊,很像是遇到渣女/男了,你就会看看你的“高情商”课程,嗯嗯确认过眼神。。。。懂了,然后就去更新这个你的一些做法想法避免遇到渣女/男,然后就是,有时候你会觉得,这个“高情商”课程很不贴近日常生活,你就会去结合实际更新这个高情商课程,然后毕竟这个课程是比你厉害的,所以他更新的速度肯定比你慢,你要做的就是和它一起前进,就是课程走个两步,你要走五步去追他,往这个方向去更新,这个就是double DQN

标签:s1,情商,更新,神经网络,课程,深度,DQN
From: https://www.cnblogs.com/cjtaaa/p/17931031.html

相关文章

  • 深度学习:Stable Diffusion API 快速上手教程
    StableDiffusion是一个先进的深度学习模型,用于创造和修改图像。这个模型能够基于文本描述来生成图像,让机器理解和实现用户的创意。使用这项技术的关键在于掌握其API,通过编程来操控图像生成的过程。在探索StableDiffusionAPI的世界前,需要把握以下基本概念:API(应用程序编程接口......
  • 自然语言处理与神经网络的结合
    1.背景介绍自然语言处理(NLP)是计算机科学与人工智能领域的一个分支,研究如何让计算机理解、生成和处理人类语言。自然语言处理的主要任务包括文本分类、情感分析、命名实体识别、语义角色标注、语言模型、机器翻译、语音识别、语音合成等。自然语言处理的一个重要方向是基于神经网络......
  • AI人工智能中的数学基础原理与Python实战:深度学习框架与数学基础
    1.背景介绍人工智能(ArtificialIntelligence,AI)和深度学习(DeepLearning,DL)是当今最热门的技术领域之一。它们在图像识别、自然语言处理、语音识别等方面的应用表现卓越,为人类提供了无尽的便利。然而,为了更好地理解和应用这些技术,我们需要掌握其数学基础原理。在本文中,我们将探讨......
  • 深度学习原理与实战:深度学习在图像识别中的应用
    1.背景介绍深度学习是人工智能领域的一个热门话题,它是一种通过模拟人类大脑结构和工作方式来解决复杂问题的算法。深度学习的核心思想是通过多层次的神经网络来学习数据的特征,从而实现对复杂问题的解决。图像识别是深度学习的一个重要应用领域,它可以帮助人们自动识别和分类图像,从而......
  • 深度学习原理与实战:批量归一化(Batch Normalization)的理解
    1.背景介绍深度学习是近年来最热门的人工智能领域之一,它是一种通过多层神经网络来处理大量数据并从中学习模式的技术。深度学习的一个主要挑战是训练深层网络的难度,这是因为深层网络容易受到梯度消失或梯度爆炸的影响。在深度学习中,神经网络的输入通常是从数据集中抽取的特征,这些特......
  • 神经网络优化的时间序列预测和序列生成
    1.背景介绍时间序列预测和序列生成是一类重要的问题,它们的核心是利用过去的数据来预测未来的数据。传统的方法包括ARIMA、ExponentialSmoothing等,但随着深度学习技术的发展,神经网络也成为了一种非常有效的方法。本文将介绍神经网络优化的时间序列预测和序列生成的核心概念、算法原......
  • 循环层神经网络在图像识别中的应用与实践
    1.背景介绍循环层神经网络(RecurrentNeuralNetworks,RNN)是一种人工神经网络,可以处理序列数据,如自然语言、音频、视频等。在图像识别领域,循环层神经网络在传统的卷积神经网络(ConvolutionalNeuralNetworks,CNN)之上,可以提高模型的表现。图像识别是计算机视觉领域的一个重要分支,它涉及......
  • 云计算:从基础架构原理到最佳实践之:云计算人工智能与深度学习
    1.背景介绍云计算是一种基于互联网的计算资源共享和分配模式,它允许用户在网络上获取计算资源,而无需购买和维护自己的硬件和软件。云计算的核心思想是将计算任务分解为多个小任务,并将这些小任务分配给不同的计算节点进行处理。这种分布式计算模式有助于提高计算效率、降低成本和提高......
  • 神经网络优化篇:详解其他正则化方法(Other regularization methods)
    其他正则化方法除了\(L2\)正则化和随机失活(dropout)正则化,还有几种方法可以减少神经网络中的过拟合:一.数据扩增假设正在拟合猫咪图片分类器,如果想通过扩增训练数据来解决过拟合,但扩增数据代价高,而且有时候无法扩增数据,但可以通过添加这类图片来增加训练集。例如,水平翻转图片,并......
  • 深度学习与推荐系统:个性化推荐与用户行为分析
    1.背景介绍推荐系统是现代互联网企业的核心业务之一,它旨在根据用户的历史行为、个人特征和实时行为等多种因素,为用户推荐相关的商品、内容或服务。随着数据量的增加,传统的推荐算法已经不能满足现实中复杂的需求,深度学习技术因其强大的表示能力和学习能力,成为推荐系统的一个重要方向......