深度Q神经网络(DQN)

时间：2023-12-27 17:34:04浏览次数：25

有了上节课值函数近似的铺垫，这节课就来到了DQN,推开了深度强化学习的大门

为什么要学习DQN呢，为什么一定要有神经网络的参与呢，AI的发展肯定是为了帮助人类去完成一些事情，而人类的世界是很复杂的，很抽象的，不可能你几个数据就能训练出一个很厉害的模型，所以你需要上百万甚至不止的数据，那么，你从哪得到那么多数据不说，你就算得到了，你有办法储存吗，效率高吗，精确度怎么样？（比如我步长是1，我的状态是1，2，3，4，5，6，7，但是我的最佳状态是被夹在1和2之间的怎么办）那么就需要神经网络给我们提供的黑盒子函数，现在说说区别，逼入我是用表格训练的，我想得到Q(s1,s1),Q(s1,a2)....Q(s1,an),我是用表格肯定得一直输入什么,s1,a1;s1,a2.....s1,an;烦死了，但是我交给神经网络来做，我只需要给它输入s1,它就可以给我Q(s1,s1),Q(s1,a2)....Q(s1,an),多方便啊，这就是深度强化学习的魅力，然后就是老套路，运用Q-learning,时序差分那些东西一直更新参数就ok了，函数的话参数更新了，Q value也会更新　

但是呢，但是，DQN尽管使用了神经网络，也会啊，有它的一点弊端，什么弊端呢，我用通俗的话举个例子，比如啊，你遇到了一个女孩子或男孩子，你们还不熟（state），就是说你很少和她（他）聊天（action），但是啊，她/他对你很是热情，不把你当外人，啥都和你说，和你很暧昧很亲密（Q(s,a)），这是啊，假如说你是那个神经网络，你就被骗了，被渣女/男给骗了，因为正常的女/男孩子不会这样,那要怎么解决呢，DQN有两个很重要的东西，第一个就是经验回放池，第二个就是目标网络，先讲讲第一个，就是你每次遇到一个女孩子，你肯定要和她相处对不对，然后你和她相处之后肯定会留下记忆（你和她熟不熟（s）,你对她做了什么（action），她给你的反馈（Q(s,a)））,把这些美好回忆放在经验回放池里面，接着有时候啊，你无聊的时候随机回忆几个女孩子，回忆（你和她熟不熟（s）,你对她做了什么（action），她给你的反馈（Q(s,a)））然后学习，充分利用你们的美好记忆，哪怕你和这个女孩子最后只是路人，你们的回忆也是对你人生发展有帮助的，这就是经验回放池，没有它，你可能会觉得，这个女/男孩子太坏了，或者我和他/她不熟，不去回忆学习，最后被下一个渣男/女给骗了

接着就是目标网络，目标网络就是emmm.....比如你想谈一段美好的恋爱，目标网络可以是教练网络，就是你学的那些“高情商”课程，有时候啊，你发现这个女/男孩子不对劲，她给你的Q(s,a)很奇怪啊，很像是遇到渣女/男了，你就会看看你的“高情商”课程，嗯嗯确认过眼神。。。。懂了，然后就去更新这个你的一些做法想法避免遇到渣女/男，然后就是，有时候你会觉得，这个“高情商”课程很不贴近日常生活，你就会去结合实际更新这个高情商课程，然后毕竟这个课程是比你厉害的，所以他更新的速度肯定比你慢，你要做的就是和它一起前进，就是课程走个两步，你要走五步去追他，往这个方向去更新，这个就是double DQN

标签：s1,情商,更新,神经网络,课程,深度,DQN
From： https://www.cnblogs.com/cjtaaa/p/17931031.html

深度学习：Stable Diffusion API 快速上手教程
StableDiffusion是一个先进的深度学习模型，用于创造和修改图像。这个模型能够基于文本描述来生成图像，让机器理解和实现用户的创意。使用这项技术的关键在于掌握其API，通过编程来操控图像生成的过程。在探索StableDiffusionAPI的世界前，需要把握以下基本概念：API（应用程序编程接口......
自然语言处理与神经网络的结合
1.背景介绍自然语言处理（NLP）是计算机科学与人工智能领域的一个分支，研究如何让计算机理解、生成和处理人类语言。自然语言处理的主要任务包括文本分类、情感分析、命名实体识别、语义角色标注、语言模型、机器翻译、语音识别、语音合成等。自然语言处理的一个重要方向是基于神经网络......
AI人工智能中的数学基础原理与Python实战：深度学习框架与数学基础
1.背景介绍人工智能（ArtificialIntelligence,AI）和深度学习（DeepLearning,DL）是当今最热门的技术领域之一。它们在图像识别、自然语言处理、语音识别等方面的应用表现卓越，为人类提供了无尽的便利。然而，为了更好地理解和应用这些技术，我们需要掌握其数学基础原理。在本文中，我们将探讨......
深度学习原理与实战：深度学习在图像识别中的应用
1.背景介绍深度学习是人工智能领域的一个热门话题，它是一种通过模拟人类大脑结构和工作方式来解决复杂问题的算法。深度学习的核心思想是通过多层次的神经网络来学习数据的特征，从而实现对复杂问题的解决。图像识别是深度学习的一个重要应用领域，它可以帮助人们自动识别和分类图像，从而......
深度学习原理与实战：批量归一化(Batch Normalization)的理解
1.背景介绍深度学习是近年来最热门的人工智能领域之一，它是一种通过多层神经网络来处理大量数据并从中学习模式的技术。深度学习的一个主要挑战是训练深层网络的难度，这是因为深层网络容易受到梯度消失或梯度爆炸的影响。在深度学习中，神经网络的输入通常是从数据集中抽取的特征，这些特......
神经网络优化的时间序列预测和序列生成
1.背景介绍时间序列预测和序列生成是一类重要的问题，它们的核心是利用过去的数据来预测未来的数据。传统的方法包括ARIMA、ExponentialSmoothing等，但随着深度学习技术的发展，神经网络也成为了一种非常有效的方法。本文将介绍神经网络优化的时间序列预测和序列生成的核心概念、算法原......
循环层神经网络在图像识别中的应用与实践
1.背景介绍循环层神经网络（RecurrentNeuralNetworks，RNN）是一种人工神经网络，可以处理序列数据，如自然语言、音频、视频等。在图像识别领域，循环层神经网络在传统的卷积神经网络（ConvolutionalNeuralNetworks，CNN）之上，可以提高模型的表现。图像识别是计算机视觉领域的一个重要分支，它涉及......
云计算：从基础架构原理到最佳实践之：云计算人工智能与深度学习
1.背景介绍云计算是一种基于互联网的计算资源共享和分配模式，它允许用户在网络上获取计算资源，而无需购买和维护自己的硬件和软件。云计算的核心思想是将计算任务分解为多个小任务，并将这些小任务分配给不同的计算节点进行处理。这种分布式计算模式有助于提高计算效率、降低成本和提高......
神经网络优化篇：详解其他正则化方法（Other regularization methods）
其他正则化方法除了\(L2\)正则化和随机失活（dropout）正则化，还有几种方法可以减少神经网络中的过拟合:一.数据扩增假设正在拟合猫咪图片分类器，如果想通过扩增训练数据来解决过拟合，但扩增数据代价高，而且有时候无法扩增数据，但可以通过添加这类图片来增加训练集。例如，水平翻转图片，并......
深度学习与推荐系统：个性化推荐与用户行为分析
1.背景介绍推荐系统是现代互联网企业的核心业务之一，它旨在根据用户的历史行为、个人特征和实时行为等多种因素，为用户推荐相关的商品、内容或服务。随着数据量的增加，传统的推荐算法已经不能满足现实中复杂的需求，深度学习技术因其强大的表示能力和学习能力，成为推荐系统的一个重要方向......

深度Q神经网络(DQN)

相关文章

赞助商

阅读排行