AgentBench:AgentBench是一个综合性基准测试平台,旨在评估大型语言模型(LLM)在各种不同环境中的智能体表现,现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置,实现了稳健且可复现的智能体评估。;pluggedin-app:plugged.in 解决了“AI 知识蒸发”问题,将短暂的 AI 交互转化为持久、版本化且可搜索的组织记忆。它作为全球首个 AI 内容管理系统 (AI-CMS),好比“AI 生成内容的 Git”与“AI 交互的 WordPress”的结合。
系统地基准测试各种基于LLM的智能体的性能。
保存 AI 辅助的代码审查记忆