★ 91

on-policy

★ 2.0k

lm vs on-policy

Q: lm 和 on-policy 哪个更好？

根据 GitHub Stars，on-policy 更受社区欢迎，但最佳选择取决于你的具体需求。

Q: lm 是免费的吗？

是的，lm 在 GitHub 上开源（MIT）。

Q: on-policy 是免费的吗？

是的，on-policy 在 GitHub 上开源（MIT）。

lm：Houtini LM将Claude Code连接到本地LLM，将生成样板代码、代码审查、编写提交信息等有界任务卸载到免费、私有的本地模型，而Claude处理复杂推理。它跟踪令牌节省并支持多种本地后端。；on-policy：该存储库实现了MAPPO，一种PPO的多智能体变体，广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现，并附有详细的训练脚本和超参数指南。

简评

选 lm 如果…

生成样板代码、测试桩和文档

选 on-policy 如果…

合作多智能体强化学习的研究与实验

并排对比

字段

on-policy

分类

大模型基础设施

Stars

★ 91

★ 2.0k

许可证

MIT

更新时间

1个月前

1年前

开源

是

Website

↗ 访问

GitHub

↗ GitHub

标签

AI 智能体, claude-mcp, 代码生成

多智能体强化学习, PPO, MAPPO

功能特性

01通过Claude Code将限界任务卸载到本地LLM

02通过会话页脚跟踪令牌使用，可见成本节省

03兼容多种本地LLM后端（LM Studio、Ollama、vLLM等）

04流式响应与55秒软超时，避免客户端超时

05多个专用工具（chat、custom_prompt、code_task、discover、list_models）

on-policy

01MAPPO（多智能体PPO）的实现

02支持多样化的多智能体环境（如星际争霸II、花火）

03提供各种场景的即用型训练脚本

04详细的超参数指导和最新结果

05默认支持智能体间的共享策略

使用场景

↳生成样板代码、测试桩和文档

↳进行代码审查、解释和格式转换

↳起草提交信息和头脑风暴方法

on-policy

↳合作多智能体强化学习的研究与实验

↳评估PPO在多智能体强化学习场景中的有效性

↳为星际争霸II和花火等流行多智能体游戏训练AI智能体

适合场景

时下流行API 集成开发者工具

on-policy

时下流行强化学习多智能体AI

FAQ

常见问题

lm 和 on-policy 有什么区别？

lm 和 on-policy 都属于 LLM Infra 类别。lm 有 91 Stars，on-policy 有 2.0k Stars。

lm 和 on-policy 哪个更好？

最佳选择取决于你的具体需求。生成样板代码、测试桩和文档时选 lm，合作多智能体强化学习的研究与实验时选 on-policy。

lm 是免费的吗？

是的，lm 在 GitHub 开源（MIT）。

on-policy 是免费的吗？

是的，on-policy 在 GitHub 开源（MIT）。

→

lm vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接

lm vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接