• 2024-07-01Swift 新结构化并发中鲜为人知的 isolated 参数
    概述伴随着Swift5.5(WWDC21)推出的新结构化并发到今年的WWDC24已经有3个多年头了。想必大家都对其中async/awiat、asynclet、TaskGroup、Actor等各种概念都了然于胸了吧?不过小伙伴们可能不知道的是:新结构化并发(或叫现代结构化并发)中还有一个“隐藏宝藏”,它就是i
  • 2024-06-30(六)大模型RLHF:PPO原理与源码解读
    大模型RLHF:PPO原理与源码解读原文链接:图解大模型RLHF系列之:人人都能看懂的PPO原理与源码解读本文直接从一个RLHF开源项目源码入手(deepspeed-chat),根据源码的实现细节,给出尽可能丰富的训练流程图,并对所有的公式给出直观的解释。希望可以帮助大家更具象地感受RLHF的训练流程。关
  • 2024-06-24UE4 C++ 随机生成迷宫地图
    参考参考原理就是利用一个房间的三个方向(排除进入口)出口(可以减少,即设置墙壁),从而获得下一次房间生成的位置,其中涉及到对于多个房间重叠,生成结束后如何对缺口进行修补等功能实现RoomBaseActor该Actor类是后续创建房间的基类,如果想要固定所有房间形状即只改变出口个数,那么在该类
  • 2024-06-17[转]ECS在游戏后端开发的应用
     E--Entity实体,本质上是存放组件的容器C--Component组件,游戏所需的所有数据结构S--System系统,根据组件数据处理逻辑状态的管理器 这里需要强调一下,Componet组件只能存放数据,不能实现任何处理状态相关的函数,而System系统不可以自己去记录维护任何状态。说的通
  • 2024-06-16UE4 C++ AI感官获取检测结果
    重写ActorsPerceptionUpdated函数有委托OnPerceptionUpdated,可以自己编写函数然后进行绑定。也可以直接对ActorsPerceptionUpdated进行重写,该函数会在有感官变化时进行调用其会根据委托获得一个数组,即AI感知到的所有发生变化的Actor。通过对这些Actor的判断即可判断是进入范围还
  • 2024-06-14物联网平台 Thingsboard rule engine 规则引擎 - 设备消息处理过程
    设备消息上报到规则引擎过程第一步:消息入口org.thingsboard.server.actors.app.AppActor#doProcess中找到caseQUEUE_TO_RULE_ENGINE_MSG:onQueueToRuleEngineMsg((QueueToRuleEngineMsg)msg);break;@OverrideprotectedbooleandoProcess(TbActorMsgm
  • 2024-06-07一文教你在MindSpore中实现A2C算法训练
    本文分享自华为云社区《MindSporeA2C强化学习》,作者:irrational。AdvantageActor-Critic(A2C)算法是一个强化学习算法,它结合了策略梯度(Actor)和价值函数(Critic)的方法。A2C算法在许多强化学习任务中表现优越,因为它能够利用价值函数来减少策略梯度的方差,同时直接优化策略。A2C算
  • 2024-05-28力扣算法之1050. 合作过至少三次的演员和导演
    题解actor_id和director_id,类似一个坐标,只要出现三次或者三次以上就打印出来我的解SELECTactor_id,director_idFROMActorDirectorGROUPBYactor_id,director_idHAVINGCOUNT(1)>=3我的解注解同时分组,两个出现次数大于等于3的就是符合的,看了下,其他的思路和这个
  • 2024-05-22[20] C++虚幻引擎热更新
    Day1大纲行为树节点网络PDF网络系统内容Task节点FinishWithResult:MoveDirectlyToWard:PushPawnAction:运行至当前队列节点首节点 RunBehaviorDynamic:动态运行子行为树SetTagCooldown:WaitBlackboardTime:装饰器节点GamePlayTagCondition
  • 2024-05-13actor critic 玩carpole游戏
     importgymimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportpygameimportsys#定义Actor网络classActor(nn.Module):def__init__(self):super(Actor,self).__init__()self.fc=nn.Sequential(nn.Linea
  • 2024-04-30Reflexion: Language Agents with Verbal Reinforcement Learning
    发表时间:2023(NeurIPS2023)文章要点:文章提出Reflexion框架,通过交互的方式获得反馈,并变成细致的语言feedback的形式作为下一轮的prompt,以此强化languageagents的能力,同时避免了更新大模型的参数。这样的好处有1)轻量,不需要finetuneLLM,2)feedback相比一个reward信号更加细致,3)充分
  • 2024-04-19RILIR 复现 & 一些 idea
    伪代码:在ifdone的时候,在环境中已经跑了一个trajectory了,利用当前的trajectory和专家的demo求一下reward(文章中用的是optimaltransport的几种方法)否则,就继续在observation的基础上利用actor学到的策略sample出action,并用list记录下当前的\((o_t,a_t,r_
  • 2024-04-11Deep Deterministic Policy Gradient(DDPG)算法讲解笔记
    DDPGDeepDeterministicPolicyGradient,基于actor-critic模型提出了一个有效的valuebased连续型空间的RL算法,引入了一些帮助训练稳定的技术。基础:DQN,Batchnormm,Discretize,微积分backgroundDQN改进的推广Policybased方法(TRPO)已经在actionspace取得突破传统disc
  • 2024-04-10UE中创建Actor添加组件初始化(UEC++个人学习笔记)
    在ue中创建actorc++类,在actor的.h文件中添加五个组件又由上到下的作用分别为:获取下SceneComponent,用于操作其Transform等相应接口。获取静态模型组件。获取盒子碰撞组件。获取粒子特效组件。获取音频组件。#include"Components/SceneComponent.h"#include"Components
  • 2024-04-09Dapr(四) Dapr核心组件的使用二
    结合前三期 Dapr(一)基于云原生了解Dapr(Dapr(一)基于云原生了解Dapr-CSDN博客) Dapr(二)分布式应用运行时搭建及服务调用(Dapr(二)分布式应用运行时搭建及服务调用-CSDN博客) Dapr(三)Dapr核心组件的使用一(Dapr(三)Dapr核心组件的使用一-CSDN博客)。1.0使用外部
  • 2024-04-03适用于连续动作空间的强化学习算法-Actor-Critic算法族
    适用于连续动作空间的强化学习算法通常被称为Actor-Critic算法。以下是一些主要的适用于连续动作空间的强化学习算法:DeepDeterministicPolicyGradient(DDPG):DDPG是一种基于Actor-Critic框架的算法,它结合了确定性策略梯度(DeterministicPolicyGradient)和深度神经网络来解
  • 2024-04-032024.4.3每日一题
    mysql1.创建表在里面加备注createtablexxx(idintprimarykeycomment'编号',namevarchar(15)notnullcomment'姓名')2.date和timestamp的区别Date类型只包含日期部分,没有时间部分,一般格式为'YYYY-MM-DD'。Timestamp类型包含日期和时间部分,可以精确到毫秒
  • 2024-03-292024年3月29日-UE5-播放特效、自制特效,发射冰球,销毁actor
    打开特效文件夹 选中要添加的特效,然后切换到蓝色子弹的蓝图里,点添加 然后改名为粒子,再创建一个碰撞球体组件 缩放改为0.2 在碰撞球体里面,添加一个碰撞的查询,会打印出发生碰撞的单位 然后返回到主角的蓝图,在创建子弹里,调整下发射点,让主角本身和子弹不重叠 再把球
  • 2024-03-27DDPG强化学习算法应用到TORCS仿真平台
    一、DDPG算法介绍1.前身DQN算法在介绍DDPG算法之前,需要首先明确它的前身DQN算法。DQN(DeepQ-Network)是一种用于强化学习的深度学习算法,由DeepMind公司开发。它结合了深度学习和Q-learning算法,旨在解决复杂环境下的强化学习问题。DQN算法在解决复杂环境下的强化学习问题方面取
  • 2024-03-23UE4 c++ -- 简单的UMG
    说明学习一下如何将Widget蓝图与C++连接起来,将处理逻辑写在C++中基础在蓝图中,我们显示Widget是通过一个Actor或者PlayerController,甚至关卡蓝图,利用CreateWidget以及AddToViewPort使得Widget显示在屏幕上的所以在C++中也是一样,一般来说由于Actor的销毁比如角色死亡,会导致其
  • 2024-03-23Orleans - 1 .NET生态构建分布式系统的利器
    在当今数字化时代,构建高效、可靠的分布式系统是许多企业和开发团队面临的挑战。微软的Orleans框架为解决这些挑战提供了一个强大而简单的解决方案。本文将介绍Orleans的核心概念,并通过一个简单的示例代码来演示其用法。什么是Orleans?Orleans是由微软开发的一个开源分布
  • 2024-03-21Swift Structured Concurrency
    异步函数异步函数概念异步和并发是两个不同的概念,并发(Concurrency)是指多个任务同时执行,这里的同时不是严格意义上的同一时刻,而是在稍大时间粒度上,多个任务可以同时推进,并发的实现可以是单线程,也可以是多线程、多核、多设备。在Swift中,异步函数是一种特殊的函数,它可以在执行过
  • 2024-03-19mysqly索引(explain 执行计划)
    关键词执行计划EXPLAIN+语句查看mysql优化后的语句showwarnings;EXPLAIN执行后,各列的含义要点:select_type如何查询表type如何查询行key如何使用索引key_len索引使用多少rows行预计使用多少extra表的额外信息1.idid列的编号是select的序列号
  • 2024-03-15[mysql必备面试题]-mysql索引(B+ Tree )
    一B+Tree原理 1.数据结构BTree指的是BalanceTree,也就是平衡树。平衡树是一颗查找树,并且所有叶子节点位于同一层。B+Tree是基于BTree和叶子节点顺序访问指针进行实现,它具有BTree的平衡性,并且通过顺序访问指针来提高区间查询的性能。在B+Tree中,一个节点
  • 2024-03-14再探强化学习
    主要记录一下自己仔细学习RL时的感悟。记录一下防止遗忘Q-learning和DQN都是基于值函数的(如\(V\)和\(Q\)函数),而策略梯度(policygradient)则是基于策略的。后者显式的训练一个策略,对这个策略使用梯度下降等方法。actor-critic本质上是对policygradient的改进。核心