verl-agent:`verl-agent` 扩展了 veRL,通过强化学习训练大型语言模型代理,并引入了新颖的步进独立多轮回滚机制。这种设计通过定制化的每步输入结构和内存管理,确保了长周期任务的高度可扩展性。;gym-pybullet-drones:gym-pybullet-drones 是其原始仓库的精简重构版本,提供了一个 Gym 环境,用于模拟多智能体四旋翼无人机控制。它旨在兼容 Gymnasium、Stable Baselines3 2.0 和各种飞行固件,以支持硬件在环仿真。
为复杂的、多轮次长周期任务训练大型语言模型代理。
开发和评估四旋翼飞行器的 PID 控制器