Actor

2024-07-01Swift 新结构化并发中鲜为人知的 isolated 参数
概述伴随着Swift5.5（WWDC21）推出的新结构化并发到今年的WWDC24已经有3个多年头了。想必大家都对其中async/awiat、asynclet、TaskGroup、Actor等各种概念都了然于胸了吧？不过小伙伴们可能不知道的是：新结构化并发（或叫现代结构化并发）中还有一个“隐藏宝藏”，它就是i
2024-06-30（六）大模型RLHF：PPO原理与源码解读
大模型RLHF：PPO原理与源码解读原文链接：图解大模型RLHF系列之：人人都能看懂的PPO原理与源码解读本文直接从一个RLHF开源项目源码入手（deepspeed-chat），根据源码的实现细节，给出尽可能丰富的训练流程图，并对所有的公式给出直观的解释。希望可以帮助大家更具象地感受RLHF的训练流程。关
2024-06-24UE4 C++ 随机生成迷宫地图
参考参考原理就是利用一个房间的三个方向（排除进入口）出口（可以减少，即设置墙壁），从而获得下一次房间生成的位置，其中涉及到对于多个房间重叠，生成结束后如何对缺口进行修补等功能实现RoomBaseActor该Actor类是后续创建房间的基类，如果想要固定所有房间形状即只改变出口个数，那么在该类
2024-06-17[转]ECS在游戏后端开发的应用
E--Entity实体，本质上是存放组件的容器C--Component组件，游戏所需的所有数据结构S--System系统，根据组件数据处理逻辑状态的管理器这里需要强调一下，Componet组件只能存放数据，不能实现任何处理状态相关的函数，而System系统不可以自己去记录维护任何状态。说的通
2024-06-16UE4 C++ AI感官获取检测结果
重写ActorsPerceptionUpdated函数有委托OnPerceptionUpdated，可以自己编写函数然后进行绑定。也可以直接对ActorsPerceptionUpdated进行重写，该函数会在有感官变化时进行调用其会根据委托获得一个数组，即AI感知到的所有发生变化的Actor。通过对这些Actor的判断即可判断是进入范围还
2024-06-14物联网平台 Thingsboard rule engine 规则引擎 - 设备消息处理过程
设备消息上报到规则引擎过程第一步：消息入口org.thingsboard.server.actors.app.AppActor#doProcess中找到caseQUEUE_TO_RULE_ENGINE_MSG:onQueueToRuleEngineMsg((QueueToRuleEngineMsg)msg);break;@OverrideprotectedbooleandoProcess(TbActorMsgm
2024-06-07一文教你在MindSpore中实现A2C算法训练
本文分享自华为云社区《MindSporeA2C强化学习》，作者：irrational。AdvantageActor-Critic(A2C)算法是一个强化学习算法，它结合了策略梯度（Actor）和价值函数（Critic）的方法。A2C算法在许多强化学习任务中表现优越，因为它能够利用价值函数来减少策略梯度的方差，同时直接优化策略。A2C算
2024-05-28力扣算法之1050. 合作过至少三次的演员和导演
题解actor_id和director_id，类似一个坐标，只要出现三次或者三次以上就打印出来我的解SELECTactor_id,director_idFROMActorDirectorGROUPBYactor_id,director_idHAVINGCOUNT(1)>=3我的解注解同时分组，两个出现次数大于等于3的就是符合的，看了下，其他的思路和这个
2024-05-22[20] C++虚幻引擎热更新
Day1大纲行为树节点网络PDF网络系统内容Task节点FinishWithResult:MoveDirectlyToWard:PushPawnAction:运行至当前队列节点首节点 RunBehaviorDynamic:动态运行子行为树SetTagCooldown:WaitBlackboardTime:装饰器节点GamePlayTagCondition
2024-05-13actor critic 玩carpole游戏
importgymimporttorchimporttorch.nnasnnimporttorch.optimasoptimimportpygameimportsys#定义Actor网络classActor(nn.Module):def__init__(self):super(Actor,self).__init__()self.fc=nn.Sequential(nn.Linea
2024-04-30Reflexion: Language Agents with Verbal Reinforcement Learning
发表时间：2023(NeurIPS2023)文章要点：文章提出Reflexion框架，通过交互的方式获得反馈，并变成细致的语言feedback的形式作为下一轮的prompt，以此强化languageagents的能力，同时避免了更新大模型的参数。这样的好处有1）轻量，不需要finetuneLLM，2）feedback相比一个reward信号更加细致，3）充分
2024-04-19RILIR 复现 & 一些 idea
伪代码：在ifdone的时候，在环境中已经跑了一个trajectory了，利用当前的trajectory和专家的demo求一下reward（文章中用的是optimaltransport的几种方法）否则，就继续在observation的基础上利用actor学到的策略sample出action，并用list记录下当前的\((o_t,a_t,r_
2024-04-11Deep Deterministic Policy Gradient（DDPG）算法讲解笔记
DDPGDeepDeterministicPolicyGradient，基于actor-critic模型提出了一个有效的valuebased连续型空间的RL算法，引入了一些帮助训练稳定的技术。基础：DQN,Batchnormm,Discretize,微积分backgroundDQN改进的推广Policybased方法（TRPO）已经在actionspace取得突破传统disc
2024-04-10UE中创建Actor添加组件初始化（UEC++个人学习笔记）
在ue中创建actorc++类,在actor的.h文件中添加五个组件又由上到下的作用分别为：获取下SceneComponent,用于操作其Transform等相应接口。获取静态模型组件。获取盒子碰撞组件。获取粒子特效组件。获取音频组件。#include"Components/SceneComponent.h"#include"Components
2024-04-09Dapr(四) Dapr核心组件的使用二
结合前三期 Dapr(一)基于云原生了解Dapr(Dapr(一)基于云原生了解Dapr-CSDN博客) Dapr(二)分布式应用运行时搭建及服务调用(Dapr(二)分布式应用运行时搭建及服务调用-CSDN博客) Dapr(三)Dapr核心组件的使用一(Dapr(三)Dapr核心组件的使用一-CSDN博客)。1.0使用外部
2024-04-03适用于连续动作空间的强化学习算法-Actor-Critic算法族
适用于连续动作空间的强化学习算法通常被称为Actor-Critic算法。以下是一些主要的适用于连续动作空间的强化学习算法：DeepDeterministicPolicyGradient(DDPG):DDPG是一种基于Actor-Critic框架的算法，它结合了确定性策略梯度（DeterministicPolicyGradient）和深度神经网络来解
2024-04-032024.4.3每日一题
mysql1.创建表在里面加备注createtablexxx(idintprimarykeycomment'编号',namevarchar(15)notnullcomment'姓名')2.date和timestamp的区别Date类型只包含日期部分，没有时间部分，一般格式为'YYYY-MM-DD'。Timestamp类型包含日期和时间部分，可以精确到毫秒
2024-03-292024年3月29日-UE5-播放特效、自制特效，发射冰球，销毁actor
打开特效文件夹选中要添加的特效，然后切换到蓝色子弹的蓝图里，点添加然后改名为粒子，再创建一个碰撞球体组件缩放改为0.2 在碰撞球体里面，添加一个碰撞的查询，会打印出发生碰撞的单位然后返回到主角的蓝图，在创建子弹里，调整下发射点，让主角本身和子弹不重叠再把球
2024-03-27DDPG强化学习算法应用到TORCS仿真平台
一、DDPG算法介绍1.前身DQN算法在介绍DDPG算法之前，需要首先明确它的前身DQN算法。DQN（DeepQ-Network）是一种用于强化学习的深度学习算法，由DeepMind公司开发。它结合了深度学习和Q-learning算法，旨在解决复杂环境下的强化学习问题。DQN算法在解决复杂环境下的强化学习问题方面取
2024-03-23UE4 c++ -- 简单的UMG
说明学习一下如何将Widget蓝图与C++连接起来，将处理逻辑写在C++中基础在蓝图中，我们显示Widget是通过一个Actor或者PlayerController，甚至关卡蓝图，利用CreateWidget以及AddToViewPort使得Widget显示在屏幕上的所以在C++中也是一样，一般来说由于Actor的销毁比如角色死亡，会导致其
2024-03-23Orleans - 1 .NET生态构建分布式系统的利器
在当今数字化时代，构建高效、可靠的分布式系统是许多企业和开发团队面临的挑战。微软的Orleans框架为解决这些挑战提供了一个强大而简单的解决方案。本文将介绍Orleans的核心概念，并通过一个简单的示例代码来演示其用法。什么是Orleans？Orleans是由微软开发的一个开源分布
2024-03-21Swift Structured Concurrency
异步函数异步函数概念异步和并发是两个不同的概念，并发（Concurrency）是指多个任务同时执行，这里的同时不是严格意义上的同一时刻，而是在稍大时间粒度上，多个任务可以同时推进，并发的实现可以是单线程，也可以是多线程、多核、多设备。在Swift中，异步函数是一种特殊的函数，它可以在执行过
2024-03-19mysqly索引（explain 执行计划）
关键词执行计划EXPLAIN+语句查看mysql优化后的语句showwarnings;EXPLAIN执行后，各列的含义要点：select_type如何查询表type如何查询行key如何使用索引key_len索引使用多少rows行预计使用多少extra表的额外信息1.idid列的编号是select的序列号
2024-03-15[mysql必备面试题]-mysql索引(B+ Tree )
一B+Tree原理 1.数据结构BTree指的是BalanceTree，也就是平衡树。平衡树是一颗查找树，并且所有叶子节点位于同一层。B+Tree是基于BTree和叶子节点顺序访问指针进行实现，它具有BTree的平衡性，并且通过顺序访问指针来提高区间查询的性能。在B+Tree中，一个节点
2024-03-14再探强化学习
主要记录一下自己仔细学习RL时的感悟。记录一下防止遗忘Q-learning和DQN都是基于值函数的（如\(V\)和\(Q\)函数），而策略梯度（policygradient）则是基于策略的。后者显式的训练一个策略，对这个策略使用梯度下降等方法。actor-critic本质上是对policygradient的改进。核心