标签：psi 小雅编程 state 空战 np theta array self

小雅环境和自定义gym融合

自定义Gym环境并注册

Gym的环境都保存在gym/envs目录下，envs目录下包含了各种类型的环境例如：atari、classic_control等，我们研究飞行器等类型问题所建立的自定义环境一般可以放在classic_control中。

Step1：建立环境文件

在envs/classic_control目录下，建立环境文件ace.py

QQ截图20220411193622

ace.py中应定义一个环境类一般以XxxEnv为名称，本文建立类名称为AceEnv，按照gym的工作原理，此类中应至少包含reset()、step()、init()、seed()、close()函数，其中，step函数必须返回obs, reward, done, info四个变量，reset返回初始化的状态。（注：此部分的函数定义格式可以参考classic_control内的其他函数，着重是要按照需求更改step和reset函数）。另外需要对环境的主要变量维数进行定义，方便外部强化学习算法直接调用生成模型网络，例如控制量维度、状态量维度等。

# -*- coding: utf-8 -*-
"""
Created on Thu Nov 11 16:31:53 2021

@author:
"""

import gym
from gym import spaces
from gym.utils import seeding
import numpy as np
from os import path


# from numba import jit

class Ace3DEnv(gym.Env):
    metadata = {
        'render.modes': ['human', 'rgb_array'],
        'video.frames_per_second': 30
    }

    def __init__(self):

        self.simu_step = 0.5
        self.max_step = 100
        #测试开关量
        self.k_gain = np.array([1, 1, 1, 0.2, 0.2]) #指标因子 r,aa,ata,act1,act2
        self.noi = 1
        self.if_RL_or_Trad = 1 # RL=1, Tradition_control=0

        self.v = 200

        # 行动
        self.lim_dtheta = 40 / 57.3  # theta变化量，弧度/秒
        self.lim_dpsi = 40 / 57.3  # psi变化量，弧度/秒
        self.action_dim = 2  # 行动维度

        # 行动空间
        action_high = np.array([self.lim_dtheta, self.lim_dpsi], dtype=np.float32)
        action_low = np.array([-self.lim_dtheta, -self.lim_dpsi], dtype=np.float32)
        self.action_space = spaces.Box(low=action_low, high=action_high, dtype=np.float32)

        # 观测空间上下限
        self.max_r = 10000/1000
        self.max_dr = 400/100
        self.max_q1 = 1 * np.pi
        self.max_q2 = 1 * np.pi  # q，弧度制
        self.max_theta = 1 * np.pi
        self.max_psi = 1 * np.pi

        self.min_r = 0/1000
        self.min_dr = -400/100
        self.min_q1 = -1 * np.pi
        self.min_q2 = -1 * np.pi  # 弧度制
        self.min_theta = -1 * np.pi
        self.min_psi = -1 * np.pi

        self.state_dim = 8  # 状态维度

        #敌机b的行动，随机行动，限制其随机范围
        self.u_b_theta = 0.001 * np.random.uniform(-5,5)
        self.u_b_psi = 0.001 * np.random.uniform(-5,5)

        # 观测空间
        observation_high = np.array([self.max_r, self.max_dr, self.max_q1, self.max_q2, self.max_theta, self.max_psi,self.max_theta, self.max_psi],
                                    dtype=np.float32)
        observation_low = np.array([self.min_r, self.min_dr, self.min_q1, self.min_q2, self.min_theta, self.min_psi,self.min_theta, self.min_psi],
                                   dtype=np.float32)
        self.observation_space = spaces.Box(low=observation_low, high=observation_high, dtype=np.float32)

        self.state = None
        self.obs = None

        #定义我方起始位置的锥角
        self.zhuijiao = 45 / 180 * np.pi
        self.x_max = -100
        self.x_min = -5000

        #评分记录
        self.r_r = 0
        self.r_aa = 0
        self.r_ata = 0
        self.r_act1 = 0
        self.r_act2 = 0

        self.np_random = None
        self.k = 1
        self.viewer = None
        self.seed()

    def seed(self, seed=None):  # 随机种子
        self.np_random, seed = seeding.np_random(seed)
        return [seed]

    def step(self, act):
        

        # 行动，环境更新，状态方程
        # 取出state里的数
        x_r, y_r, z_r, theta_r, psi_r, x_b, y_b, z_b, theta_b, psi_b = self.state
        # 取出双方状态
        # 我方x,y,z,角度1，角度2
        state_r = np.array([x_r, y_r, z_r, theta_r, psi_r])
        # 敌方x,y,z,角度1，角度2
        state_b = np.array([x_b, y_b, z_b, theta_b, psi_b])

        '''敌方运动'''
        # 决策
        command_b = [self.u_b_theta, self.u_b_psi]  # 随机运动
        # command_b = [0, 0]  # 随机运动
        # command_b = self.OptimalChoice_r(state_b, state_r)
        next_state_b = self.euler_func(state_b, command_b, self.simu_step, 0)

        '''我方运动'''
        # 决策
        if self.if_RL_or_Trad == 1:
            command_r = np.array([act[0], act[1]])              #采用外部给定控制量
            # command_r = np.array([0, 0.0001])
        else:
            command_r = self.OptimalChoice_r(state_r, state_b)  #采用传统策略控制量
        next_state_r = self.euler_func(state_r, command_r, self.simu_step, 0)

        # 更新状态空间,观测空间， 奖励， 判断是否终止
        state_ = np.append(next_state_r, next_state_b)
        self.state = state_.copy()

        observation = self.get_obs(self.state)

        rewards = self.score_Syn(act)

        done = bool(z_r < 100 or self.r/1000 > self.max_r or self.k > self.max_step)

        self.k += 1

        return observation, rewards, done, {}

    def score_Syn(self, act):
        """
        计算当前情形下，动作的得分（奖励）

        :param act:
        :return:
        """
        # r未归一化，AA与ATA为弧度
        act1 = abs( act[0] / self.lim_dtheta) #对act进行归一化
        act2 = abs( act[1] / self.lim_dpsi) #对act进行归一化
        AA = abs(self.AA)
        ATA = abs(self.ATA)
        r = self.r

        scoring_r = (10000 - r)**2 / 25e5 - 8  # [0,10000]=rewards:[-7,32]

        scoring_aa = 3 * (np.pi - AA)**2 - 10  # aa:[0-180] -> rewards:[-10,20]

        scoring_ata = 3 * (np.pi - ATA)**2 - 10  # ata:[0-180] -> rewards:[-10,20]

        scoring_act1 = 20 * (1 - act1)**2 - 15  # act:[0,1] -> rewards[-15,5] 侧重惩罚项
        scoring_act2 = 20 * (1 - act2)**2 - 15  # act:[0,1] -> rewards[-15,5] 侧重惩罚项

        k = self.k_gain
        self.r_r    = k[0] * scoring_r
        self.r_aa   = k[1] * scoring_aa
        self.r_ata  = k[2] * scoring_ata
        self.r_act1 = k[3] * scoring_act1
        self.r_act2 = k[4] * scoring_act2

        scoring = k[0]*scoring_r + k[1]*scoring_aa + k[2]*scoring_ata + k[3]*scoring_act1 + k[4]*scoring_act2

        return scoring

    def reset(self, noi=True):

        # 重置状态
        self.k = 1

        ang_nosie = self.noi * np.random.uniform(low=-30, high=30, size=4)  # 初始指向随机值

        # 蓝方的状态初始值
        x_b = 2000
        y_b = 0
        z_b = 6500
        theta_b = ang_nosie[2] / 180 * np.pi
        psi_b = ang_nosie[3] / 180 * np.pi

        # 红方的状态初始值
        x_r = np.random.uniform(self.x_min,self.x_max)                    #锥形区域上随机选定距离，切出一个圆，x_r
        polar_radius_max = x_r * np.tan(self.zhuijiao)      #形成一个圆区域
        polar_radius = np.random.uniform(0,polar_radius_max)    #圆内以极坐标选取点(y,z)，首先随机选半径：polar_r=[0,radius]
        polar_ang = np.random.uniform(0,2*np.pi)            #圆内以极坐标选取点(y,z)，其次选角度：polar_angle=[0,2pi]
        y_r = np.cos(polar_ang) * polar_radius              # y = cos(ang)*radius
        z_r = np.sin(polar_ang) * polar_radius + z_b        # z = sin(ang)*radius

        theta_r = ang_nosie[0] / 180 * np.pi
        psi_r =   ang_nosie[1] / 180 * np.pi

        self.state = np.array([x_r, y_r, z_r, theta_r, psi_r, x_b, y_b, z_b, theta_b, psi_b])  # 环境状态

        return self.get_obs(self.state)

    def get_obs(self, state):
        """


        :param state:  当前状态空间，双方的位置、角度
        :return:  输出[r / 1000, dr / 100, AA, ATA, q_alpha, q_beta]
        """
        # 智能体观察值
        x_r, y_r, z_r, theta_r, psi_r, x_b, y_b, z_b, theta_b, psi_b = state
        v = self.v

        # 求r
        oyou = np.array([x_r, y_r, z_r])  # 友方（我方）位置矢量
        vx = v * np.cos(theta_r) * np.cos(psi_r)
        vy = v * np.cos(theta_r) * np.sin(psi_r)
        vz = v * np.sin(theta_r)
        vyou = np.array([vx, vy, vz])  # 友方（我方）速度矢量

        oenemy = np.array([x_b, y_b, z_b])  # 敌方（对方）位置矢量
        vx = v * np.cos(theta_b) * np.cos(psi_b)
        vy = v * np.cos(theta_b) * np.sin(psi_b)
        vz = v * np.sin(theta_b)
        venemy = np.array([vx, vy, vz])  # 敌方（对方）速度矢量

        LOS_you_enemy = oenemy - oyou  # 我方：敌我视线角
        # LOS_enemy_you = oyou - oenemy  # 敌方：敌我视线角

        self.AA = self.Cal3DAngle(venemy,LOS_you_enemy)  # 根据速度矢量（敌方）和双方位置连线，计算夹角(弧度制)
        self.ATA = self.Cal3DAngle(vyou,LOS_you_enemy)   ## 根据速度矢量（我方）和双方位置连线，计算夹角(弧度制)

        self.r = np.sqrt(LOS_you_enemy[0] ** 2 + LOS_you_enemy[1] ** 2 + LOS_you_enemy[2] ** 2)  #计算距离
        dr = np.sqrt(np.sum((vyou - venemy) ** 2))  #计算速度的

        q_alpha = np.arctan2(LOS_you_enemy[2], np.sign(LOS_you_enemy[0]) * np.sqrt(LOS_you_enemy[0] ** 2 + LOS_you_enemy[1] ** 2)) #纵向平面视线角 atarn2(z,sign(x)*sqrt(x^2+y^2))
        q_beta = np.arctan2(LOS_you_enemy[1], LOS_you_enemy[0])  # 侧向视线角 atan2(y,x) , 正psi产生正y

        return np.array([self.r / 1000, dr / 100, q_alpha, q_beta, theta_r, psi_r,theta_b, psi_b])

    def Cal2DAngle(self, v1, v2):
        """

        :param v1:
        :param v2:
        :return:
        """
        # v1旋转到v2，逆时针为正，顺时针为负
        # 2个向量模的乘积
        TheNorm = np.linalg.norm(v1) * np.linalg.norm(v2)
        # 叉乘
        rho = np.arcsin(np.cross(v1, v2) / TheNorm)
        # 点乘
        theta = np.arccos(np.dot(v1, v2) / TheNorm)
        if rho< 0:
            return - theta #弧度
        else:
            return theta #弧度

    def Cal3DAngle(self, v1, v2):
        """


        :param v1:  向量1
        :param v2:  向量1
        :return:    向量之间的反正切值
        """
        #计算弧度
        V1xV2 = np.cross(v1, v2)   #np.cross 计算两个向量的叉积
        TheNorm = np.linalg.norm(V1xV2) #求2范数
        theta = np.arctan2(TheNorm , np.dot(v1, v2)) # arctan2的输入不仅仅是正切值,而是要输入两个数x 1 x2 ，求反正切

        if V1xV2[2] < 0:
            return -theta #弧度
        else:
            return theta #弧度

    def close(self):
        if self.viewer:
            self.viewer.close()
            self.viewer = None

    def OptimalChoice_r(self, you_plane, enemy_plane):
        """
        传统策略选择函数 ，

        :param you_plane:
        :param enemy_plane:
        :return:
        """
        simu_step = self.simu_step
        # 敌方Step一次，假设不作机动
        state_enemy = enemy_plane.copy()  # 敌人x, y, z, theta, psi
        next_state_enemy = self.euler_func(state_enemy, np.array([0, 0]), simu_step , 0)

        # 我方Step一次，根据pi*策略选择最优机动
        state_you = you_plane.copy()  # 我方x, y, z, theta, psi
        # U = np.array([-5,-3,-1,1,3,5,7]) * 8 / 57.3
        U = np.random.uniform(-5,5,7) * 8 / 57.3
        S_max = -np.inf  # 初始分数非常小
        cmd1 = np.array([0, 0])  # 初始化cmd1
        # scoring = np.zeros((7,7))
        for k1 in range(np.size(U)):
            for k2 in range(np.size(U)):
                next_state_you = self.euler_func(state_you, np.array([U[k1], U[k2]]), simu_step , 0)
                state = np.append(next_state_you, next_state_enemy)
                r, dr, q1, q2, AA, ATA = self._get_obs(state)
                scoring = self.score_Syn(r *1000, AA, ATA, np.array([U[k1], U[k2]]))
                if scoring > S_max:
                    S_max = scoring
                    cmd1 = np.array([U[k1], U[k2]])  # 弧度制
        return cmd1  # 返回弧度制指令

    def CalculationCommand(self):
        '''单观察算行动'''
        # 根据策略取行动
        x_r, y_r, z_r, theta_r, psi_r, x_b, y_b, z_b, theta_b, psi_b = self.state  # 使用状态值，观察值是归一化过的

        state_r = np.array([x_r, y_r, z_r, theta_r, psi_r])
        state_b = np.array([x_b, y_b, z_b, theta_b, psi_b])
        command_r = self.OptimalChoice_r(state_r, state_b)  # 决策函数
        action = np.array([command_r[0], command_r[1]])
        return action

    def euler_func(self, state0, command, t, flag):
        """
        评估当前状态是否可行

        :param state0:
        :param command:
        :param t:
        :param flag:
        :return:
        """

        v = self.v + 0 * flag

        d_theta = command[0]
        d_psi = command[1]
        state = state0.copy()

        state[3] += d_theta * t  # 更新theta
        if state[3] > 180 / 57.3:
            state[3] = (-180 + 1e-3) / 57.3
        if state[3] < -180 / 57.3:
            state[3] = (180 - 1e-3) / 57.3

        state[4] += d_psi * t  # 更新psi
        if state[4] > 180 / 57.3:
            state[4] = (-180 + 1e-3) / 57.3
        if state[4] < -180 / 57.3:
            state[4] = (180 - 1e-3) / 57.3

        state[0] += v * np.cos(state[3]) * np.cos(state[4]) * t  # 更新x方向
        state[1] += v * np.cos(state[3]) * np.sin(state[4]) * t  # 更新y方向
        state[2] += v * np.sin(state[3]) * t  # 更新z方向

        return np.array(state)

Step2：注册

在envs目录下，包含一个初始化函数__init__.py，当访问envs类时，会通过这个初始化函数自动注册各环境，因此需要在__init__环境中注册我们定义的环境，给出其调用名“ID”以及此“ID”对应的类。

在envs/init.py内的#Classic分类下，插入注册语句：

register(

  id='Ace-v0', #此部分为环境调用的ID，可自由设定，与算法中调用一致即可。

  entry_point='gym.envs.classic_control:AceEnv',  #此部分为环境的类，注意：AceEnv是ace.py中定义的类，并不是文件名。

)

QQ截图20220411193933

Step3：引入环境

在envs/classic_control/init.py内，加入引用ace环境的语句

注意这里的文件名和文件里面类的名字要和Step1相一致

from gym.envs.classic_control.ace import AceEnv

QQ截图20220411194233

Step4：在算法中进行调用

env = gym.make('Ace-v0')

配置小雅环境踩坑经历

主要是anaconda虚拟环境的使用

问题1 ，在anaconda中新建虚拟环境，但是在PyCharm中不显示

打开configurations

QQ截图20220314114212

QQ截图20220314114408

解决方法新建项目

新建一个项目，这时候会显示新的python解释器，然后让他 make avaliabvle to all project ，也就是下面第二小个图中的选项要勾选上。

QQ截图20220314115157

然后关闭所有项目，再次进入，就会发现能够找到新建立的环境，使用新的解释器

问题2 PyCharm项目中的 External Libraries 没有变成新环境

QQ截图20220314115548

解决方法

File-Setting - Project Interpreter 选择新建立的环境

QQ截图20220314115813

标签：psi,小雅,编程,state,空战,np,theta,array,self
From： https://www.cnblogs.com/zuti666/p/18092797

空战编程实现1——小雅

小雅环境和自定义gym融合

自定义Gym环境并注册

Step1：建立环境文件

Step2：注册

Step3：引入环境

Step4：在算法中进行调用

配置小雅环境踩坑经历

问题1 ，在anaconda中新建虚拟环境，但是在PyCharm中不显示

解决方法新建项目

问题2 PyCharm项目中的 External Libraries 没有变成新环境

解决方法

相关文章

赞助商

阅读排行

空战编程实现1——小雅

小雅环境和自定义gym融合

自定义Gym环境并注册

Step1：建立环境文件

Step2：注册

Step3： 引入环境

Step4：在算法中进行调用

配置小雅环境踩坑经历

问题1 ，在anaconda中新建虚拟环境，但是在PyCharm中不显示

解决方法 新建项目

问题2 PyCharm项目中的 External Libraries 没有变成新环境

解决方法

相关文章

赞助商

阅读排行

Step3：引入环境

解决方法新建项目