on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。;xLAM:xLAM是一个研究大型行动模型(LAM)的仓库,它将来自不同环境的代理轨迹统一为一致格式。该项目优化了通用数据加载器以进行代理训练,从而在各种场景下实现强大的模型开发。
合作多智能体强化学习的研究与实验
大语言模型中的函数调用