工具分类热门最新对比

AgentBench

AgentBench

活跃·★ 3.5k·Apache-2.0·更新于 2026-02-08

★ 时下流行★ 必备神器

AgentBench是一个旨在评估大型语言模型作为智能体在多样化环境中的表现的综合性基准测试平台。

AgentBench是一个综合性基准测试平台，旨在评估大型语言模型（LLM）在各种不同环境中的智能体表现，现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置，实现了稳健且可复现的智能体评估。

#LLM评估#智能体基准测试#函数调用#Docker#多任务学习

© 2026 AgentIndex.app|由十年 iOS 开发者构建。

QYS GitHub 请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化 RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

$ 安装

$ pip install -r requirements.txt

↗ 访问官网 ★ GitHub

01

功能特性

01对大型语言模型作为智能体在多样化环境中的表现进行全面评估。

02集成函数调用功能，实现更高级的智能体交互。

03采用Docker Compose进行完全容器化部署，确保可复现性。

04支持多任务和多轮交互，提供真实的智能体评估。

05可扩展的框架，方便添加新的评估任务。

02

兼容性

Docker

原生支持

已通过文档验证

Python

原生支持

已通过文档验证

OpenAI API

支持

已通过文档验证

Large Language Models

支持

已通过文档验证

03

快速开始

1

$ pip install -r requirements.txt

04

使用场景

↳系统地基准测试各种基于LLM的智能体的性能。

↳开发和改进高级LLM智能体架构和策略。

↳进行关于智能体AI能力和局限性的学术研究。

05

同类工具

GitHub MCP Server★ 30.3k

GitHub MCP 服务器将AI工具直接连接到GitHub平台，使AI代理、助手和聊天机器人能够通过自然语言交互管理GitHub资源和自动化工作流。

genai-toolbox★ 15.4k

MCP 数据库工具箱是一个开源的数据库MCP服务器，旨在通过处理连接池、认证等复杂性，帮助开发者更轻松、更快、更安全地开发工具。

chinese-llm-benchmark★ 6.1k

ReLE评测是一个持续更新的中文AI大模型能力评测项目，涵盖数百个主流大模型和多维度评测领域。

相关搜索

AgentBench 替代工具最佳 Observability 工具 2026 开源 Observability AgentBench 教程 AgentBench 对比 LLM Evaluation Agent Benchmarking Function Calling

评论

登录后发表评论

暂无评论，来发表第一条吧

本页内容

01功能特性 02兼容性 03快速开始 04使用场景 05同类工具

统计

GitHub Stars★ 3.5k

最后更新3个月前

FinnewsHunter★ 1.4k

FinnewsHunter是一个基于AgenticX框架的企业级金融新闻分析平台，通过多智能体协作、实时新闻流和深度量化分析，为量化交易提供决策级Alpha信号。

xLAM是一个研究大型行动模型（LAM）的仓库，通过聚合和统一不同环境的代理轨迹数据，优化代理训练的数据加载和训练流程。

QuantDinger★ 6.9k

QuantDinger 是一个新一代AI量化交易平台，提供AI驱动的策略构建、回测和交易功能，以本地优先、隐私至上的方式运行。

Minima 是一个开源的本地RAG（检索增强生成）容器解决方案，能够与ChatGPT、Anthropic Claude和自定义LLM集成。

presenton★ 7.5k

Presenton是一个开源的AI演示文稿生成器和API，支持在本地设备上运行，同时兼容OpenAI、Gemini、Ollama等多种AI模型。

查看全部替代品 →

状态活跃

许可证Apache-2.0

分类可观测性

热度趋势 (30d)

+0.1k↑ 4.3%

链接

文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit