AgentBench
活跃·★ 3.5k·Apache-2.0·更新于 2026-02-08
★ 时下流行★ 必备神器
AgentBench是一个旨在评估大型语言模型作为智能体在多样化环境中的表现的综合性基准测试平台。
AgentBench是一个综合性基准测试平台,旨在评估大型语言模型(LLM)在各种不同环境中的智能体表现,现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置,实现了稳健且可复现的智能体评估。
#LLM评估#智能体基准测试#函数调用#Docker#多任务学习