pathfinding是人工智能领域的一个老问题,随着humanoid的应用火热起来这个问题也随之再度受关注。比较传统的人工智能方法一般都是使用A* 这样的启发式的算法,不仅在2D领域同时也在3D(Voxel space)领域有着较好的表现,不过随着深度学*和强化学*的*些年的快速发展也就有了一些使用深度强化学*算法来解决该问题的研究,在本文中只是提一个个人的一种设想,那就是能否实现一种元强化学*的算法,使该算法在一些类似的pathfinding的问题环境下训练后具备一定的bias(偏置,人工智能领域中的推断假设),对于一些新的没有遇到的相似问题可以快速的解决。
给出以下问题的场景:
在上面的问题中如果使用A* 类似的传统的AI规划算法往往需要遍历大部分的空间才可以找到目标点,如:
App演示地址:
https://qiao.github.io/PathFinding.js/visual/
可以看到,传统的A* 算法在解决复杂困难的pathfinding问题时往往性能较差,使用神经网络来解决这个问题是未来的研究热点,那么具体该如何解决呢,最*看到有外网的信息说是有人使用diffusion模型来解决这个问题获得的SOTA的表现,不过具体的research内容还没有公开,我这里的一个个人设想就是可以不可以使用元强化学*算法来解决这类问题呢,比如在一个相类似的场景下训练后具有一定的假设偏好,然后在新的相似环境下可以快速的解决问题呢,就像本文最开始给出的四个示意图,可以不可以根据前3个环境的训练然后在第4个环境下快速解决呢。
本文更多的是提一个设想,至于具体的解决方法,甚至是否可以被解决也都是未来才知道的事情。
注意:
这里都是假设目标点的信息是已知的,这在A* 算法中往往都是预先设定的条件,但是在强化学*算法中我们往往是不知道目标点的位置信息的,那么在这种情况下又该如何设计算法呢,元强化学*算法是否可以很好解决呢?