on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。;maro:MARO是一个强化学习即服务(RaaS)平台,专为现实世界中各工业领域的资源优化而设计。它提供仿真、强化学习和分布式工具包,以促进复杂优化解决方案的开发和部署。
合作多智能体强化学习的研究与实验
物流中的集装箱库存管理