工具分类热门最新对比

on-policy

on-policy

活跃·★ 2.0k·MIT·更新于 2024-07-18

★ 时下流行★ 强化学习★ 多智能体AI

该存储库实现了MAPPO，一种PPO的多智能体变体，用于合作多智能体游戏，并支持多种流行的多智能体环境。

该存储库实现了MAPPO，一种PPO的多智能体变体，广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现，并附有详细的训练脚本和超参数指南。

#多智能体强化学习#PPO#MAPPO

© 2026 AgentIndex.app|由十年 iOS 开发者构建。

QYS GitHub 请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化 RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

#强化学习

#PyTorch

$ 安装

$ pip install -e .

↗ 访问官网 ★ GitHub

01

功能特性

01MAPPO（多智能体PPO）的实现

02支持多样化的多智能体环境（如星际争霸II、花火）

03提供各种场景的即用型训练脚本

04详细的超参数指导和最新结果

05默认支持智能体间的共享策略

02

兼容性

StarCraftII (SMAC)

原生支持

已通过文档验证

Hanabi

原生支持

已通过文档验证

Multiagent Particle-World Environments (MPEs)

原生支持

已通过文档验证

Google Research Football (GRF)

原生支持

已通过文档验证

StarCraftII (SMAC) v2

原生支持

已通过文档验证

03

快速开始

1

$ pip install -e .

04

使用场景

↳合作多智能体强化学习的研究与实验

↳评估PPO在多智能体强化学习场景中的有效性

↳为星际争霸II和花火等流行多智能体游戏训练AI智能体

05

同类工具

MetaGPT★ 68.4k

MetaGPT是一个多智能体框架，为大型语言模型（LLMs）分配不同的角色，使其能够协作完成复杂任务。

Cua是一个开源平台，用于构建、基准测试和部署能够操作任何计算机的智能体，并提供隔离的、可自托管的沙盒环境（Docker、QEMU、Apple Vz）。

rLLM是一个通过强化学习对语言代理进行后训练的开源框架。

相关搜索

on-policy 替代工具最佳 LLM Infra 工具 2026 开源 LLM Infra on-policy 教程 on-policy 对比 Multi-Agent Reinforcement Learning PPO MAPPO

评论

登录后发表评论

暂无评论，来发表第一条吧

本页内容

01功能特性 02兼容性 03快速开始 04使用场景 05同类工具

统计

GitHub Stars★ 2.0k

最后更新1年前

IR-SIM是一个基于Python的轻量级开源机器人模拟器，专为导航、控制和强化学习设计，提供用户友好的框架以快速原型开发。

verl-agent★ 1.9k

verl-agent是veRL的扩展，专为通过强化学习训练大型语言模型（LLM）代理而设计，其独特的步进独立多轮回滚机制使其能高度可扩展地处理长周期多轮RL训练。

MARO（多智能体资源优化）平台是一个强化学习即服务（RaaS）实例，用于解决现实世界的资源优化问题。

skrl是一个用Python编写的开源模块化强化学习库，支持PyTorch、JAX和NVIDIA Warp，并专注于模块化、可读性、简单性和算法实现的透明性。

virtualhome★ 617

VirtualHome是一个交互式平台，通过程序模拟复杂的家庭活动，并提供丰富的环境交互。

查看全部替代品 →

状态活跃

许可证MIT

分类大模型基础设施

热度趋势 (30d)

+0k↑ 4.4%

链接

文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit