verl-agent

★ 2.1k

on-policy

★ 2.1k

verl-agent vs on-policy

Q: verl-agent 和 on-policy 哪个更好？

根据 GitHub Stars，verl-agent 更受社区欢迎，但最佳选择取决于你的具体需求。

Q: verl-agent 是免费的吗？

是的，verl-agent 在 GitHub 上开源（Apache-2.0）。

Q: on-policy 是免费的吗？

是的，on-policy 在 GitHub 上开源（MIT）。

verl-agent：`verl-agent` 扩展了 veRL，通过强化学习训练大型语言模型代理，并引入了新颖的步进独立多轮回滚机制。这种设计通过定制化的每步输入结构和内存管理，确保了长周期任务的高度可扩展性。；on-policy：该存储库实现了MAPPO，一种PPO的多智能体变体，广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现，并附有详细的训练脚本和超参数指南。

简评

选 verl-agent 如果…

为复杂的、多轮次长周期任务训练大型语言模型代理。

选 on-policy 如果…

合作多智能体强化学习的研究与实验

并排对比

字段

verl-agent

on-policy

分类

视觉/多模态

大模型基础设施

Stars

★ 2.1k

许可证

Apache-2.0

MIT

更新时间

1个月前

2年前

开源

是

Website

↗ 访问

GitHub

↗ GitHub

标签

LLM代理, 强化学习, 深度学习

多智能体强化学习, PPO, MAPPO

功能特性

verl-agent

01多轮代理-环境交互

02完全可定制的内存模块和每步输入结构

03可扩展至超长周期优化

04并行化的Gym风格环境及分组环境支持

05多样化的强化学习算法

on-policy

01MAPPO（多智能体PPO）的实现

02支持多样化的多智能体环境（如星际争霸II、花火）

03提供各种场景的即用型训练脚本

04详细的超参数指导和最新结果

05默认支持智能体间的共享策略

使用场景

verl-agent

↳为复杂的、多轮次长周期任务训练大型语言模型代理。

↳开发适用于视觉和文本环境的推理代理。

↳解决数字界面控制、具身AI和搜索相关的挑战。

on-policy

↳合作多智能体强化学习的研究与实验

↳评估PPO在多智能体强化学习场景中的有效性

↳为星际争霸II和花火等流行多智能体游戏训练AI智能体

适合场景

verl-agent

时下流行

on-policy

时下流行强化学习多智能体AI

FAQ

常见问题

verl-agent 和 on-policy 有什么区别？

verl-agent 和 on-policy 都属于 Vision / Multimodal 类别。verl-agent 有 2.1k Stars，on-policy 有 2.1k Stars。

verl-agent 和 on-policy 哪个更好？

最佳选择取决于你的具体需求。为复杂的、多轮次长周期任务训练大型语言模型代理。时选 verl-agent，合作多智能体强化学习的研究与实验时选 on-policy。

verl-agent 是免费的吗？

是的，verl-agent 在 GitHub 开源（Apache-2.0）。

on-policy 是免费的吗？

是的，on-policy 在 GitHub 开源（MIT）。

→

verl-agent vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接

verl-agent vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接