houtini-lm

★ 91

on-policy

★ 2.0k

houtini-lm vs on-policy

Q: houtini-lm 和 on-policy 哪个更好？

根据 GitHub Stars，on-policy 更受社区欢迎，但最佳选择取决于你的具体需求。

Q: houtini-lm 是免费的吗？

是的，houtini-lm 在 GitHub 上开源（MIT）。

Q: on-policy 是免费的吗？

是的，on-policy 在 GitHub 上开源（MIT）。

houtini-lm：Houtini LM将Claude Code连接到本地LLM服务器或任何兼容OpenAI的API，将边界明确的任务卸载出去以减少令牌成本。它提供了工具、性能跟踪和模型路由以实现高效委托。Claude仍然负责复杂推理的编排，而廉价的本地模型处理琐碎工作。；on-policy：该存储库实现了MAPPO，一种PPO的多智能体变体，广泛应用于合作多智能体游戏和研究。它为星际争霸II、花火和谷歌足球等多种多智能体环境提供了健壮的实现，并附有详细的训练脚本和超参数指南。

简评

选 houtini-lm 如果…

生成测试桩

选 on-policy 如果…

合作多智能体强化学习的研究与实验

并排对比

字段

houtini-lm

on-policy

分类

大模型基础设施

Stars

★ 91

★ 2.0k

许可证

MIT

更新时间

1个月前

1年前

开源

是

Website

↗ 访问

GitHub

↗ GitHub

标签

AI 智能体, claude-mcp, 代码生成

多智能体强化学习, PPO, MAPPO

功能特性

houtini-lm

01将边界明确的任务卸载到本地或云端LLM

02通过HuggingFace元数据丰富进行模型发现

03实时性能跟踪（TTFT、tok/s）

04通过基于语法的采样实现结构化JSON输出

05自动剥离GLM、Nemotron等模型的思考块

on-policy

01MAPPO（多智能体PPO）的实现

02支持多样化的多智能体环境（如星际争霸II、花火）

03提供各种场景的即用型训练脚本

04详细的超参数指导和最新结果

05默认支持智能体间的共享策略

使用场景

houtini-lm

↳生成测试桩

↳代码审查和错误查找

↳起草提交信息

on-policy

↳合作多智能体强化学习的研究与实验

↳评估PPO在多智能体强化学习场景中的有效性

↳为星际争霸II和花火等流行多智能体游戏训练AI智能体

适合场景

houtini-lm

时下流行大模型基础设施API 集成

on-policy

时下流行强化学习多智能体AI

FAQ

常见问题

houtini-lm 和 on-policy 有什么区别？

houtini-lm 和 on-policy 都属于 LLM Infra 类别。houtini-lm 有 91 Stars，on-policy 有 2.0k Stars。

houtini-lm 和 on-policy 哪个更好？

最佳选择取决于你的具体需求。生成测试桩时选 houtini-lm，合作多智能体强化学习的研究与实验时选 on-policy。

houtini-lm 是免费的吗？

是的，houtini-lm 在 GitHub 开源（MIT）。

on-policy 是免费的吗？

是的，on-policy 在 GitHub 开源（MIT）。

→

houtini-lm vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接

houtini-lm vs on-policy

简评

并排对比

功能特性

使用场景

适合场景

常见问题

相关链接