这篇文章的目标是要做的是一个自定义的 8×8 grid world。agent 从左上角出发,绕开墙壁,找到右下角的 goal。 agent 用 Q-Learning 训练,纯靠试错学习,没有任何的硬编码路径,也没有地图。 Gymnasium 里一切都围绕一个类:gym.Env。继承它实现几个方法,这样创造的环境 ...