houtini-lm:Houtini LM将Claude Code连接到本地LLM服务器或任何兼容OpenAI的API,将边界明确的任务卸载出去以减少令牌成本。它提供了工具、性能跟踪和模型路由以实现高效委托。Claude仍然负责复杂推理的编排,而廉价的本地模型处理琐碎工作。;on-policy:该存储库实现了MAPPO,一种PPO的多智能体变体,广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现,并附有详细的训练脚本和超参数指南。
生成测试桩
合作多智能体强化学习的研究与实验