on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。;mini-swe-agent:Mini-SWE-agent 是一个轻量级的AI智能体,仅用100行代码实现,旨在解决GitHub问题及更多任务,提供比大型编码智能体更简化但性能优异的替代方案。它专注于极简主义、在SWE-bench等基准测试上的高性能表现,以及在各种环境中的轻松部署。
合作多智能体强化学习的研究与实验
研究人员用于无冗余的基准测试、微调或强化学习实验