on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。;claude-code-source-all-in-one:本仓库提取了Anthropic的Claude Code CLI的源代码以用于教育学习。它包含18篇深入分析文章,涵盖核心智能体循环、工具编排、上下文压缩等架构设计。源代码可本地运行以供学习。
合作多智能体强化学习的研究与实验
研究生产级AI智能体架构和设计决策