AgentBench:AgentBench是一个综合性基准测试平台,旨在评估大型语言模型(LLM)在各种不同环境中的智能体表现,现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置,实现了稳健且可复现的智能体评估。;trigger.dev:Trigger.dev 是一个开源平台,旨在使用 TypeScript 构建 AI 工作流和代理。它为长时间运行的任务提供了一个强大的环境,内置重试、队列、可观测性和弹性扩展等功能,消除了典型的无服务器超时限制。
系统地基准测试各种基于LLM的智能体的性能。
构建和部署长时间运行的AI代理和复杂工作流。