on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。;codex-mcp-tool:该 MCP 服务器将 Claude/Cursor 与 Codex 命令行工具集成,增强了 AI 驱动的代码交互。它支持文件分析、多轮对话、沙盒代码执行和结构化变更管理等高级功能。
合作多智能体强化学习的研究与实验
代码理解:解释项目源代码的架构。