AgentIndex icon
AgentIndex
工具分类热门最新对比
提交工具
首页/
对比/
chinese-llm-benchmark vs AgentBench
chinese-llm-benchmark logo
chinese-llm-benchmark
★ 6.1k
vs
AgentBench logo
AgentBench
★ 3.5k

chinese-llm-benchmark vs AgentBench

chinese-llm-benchmark:ReLE评测(原名CLiB)是一个持续更新的中文AI大模型能力评测项目,已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜,并包含超200万的大模型缺陷库,以帮助社区研究和改进模型。;AgentBench:AgentBench是一个综合性基准测试平台,旨在评估大型语言模型(LLM)在各种不同环境中的智能体表现,现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置,实现了稳健且可复现的智能体评估。

01

简评

chinese-llm-benchmark logo选 chinese-llm-benchmark 如果…

对比和选择特定应用场景下表现最佳的大模型。

AgentBench logo选 AgentBench 如果…

系统地基准测试各种基于LLM的智能体的性能。

02

并排对比

字段
chinese-llm-benchmark logochinese-llm-benchmark
AgentBench logoAgentBench
分类
RAG / 知识库
可观测性
Stars
★ 6.1k
★ 3.5k
许可证
—
Apache-2.0
更新时间
1周前
3个月前
开源
是
是
Website
↗ 访问
↗ 访问
GitHub
↗ GitHub
↗ GitHub
标签
大模型评测, 中文大模型, AI基准测试
LLM评估, 智能体基准测试, 函数调用
03

功能特性

chinese-llm-benchmark logochinese-llm-benchmark
01广泛覆盖337+个商用及开源中文大模型。
02支持教育、医疗等7大领域及约300个细分维度的多维度能力评测。
03提供全面细致的各类能力排行榜。
04拥有超200万的大模型缺陷库,便于研究分析和改进大模型。
05为私有大模型提供免费评测服务和定制化选型支持。
AgentBench logoAgentBench
01对大型语言模型作为智能体在多样化环境中的表现进行全面评估。
02集成函数调用功能,实现更高级的智能体交互。
03采用Docker Compose进行完全容器化部署,确保可复现性。
04支持多任务和多轮交互,提供真实的智能体评估。
05可扩展的框架,方便添加新的评估任务。
04

使用场景

chinese-llm-benchmark logochinese-llm-benchmark
↳对比和选择特定应用场景下表现最佳的大模型。
↳发现并改进大语言模型的能力缺陷。
↳对私有或定制化大模型进行基准测试,以优化性能和成本。
AgentBench logoAgentBench
↳系统地基准测试各种基于LLM的智能体的性能。
↳开发和改进高级LLM智能体架构和策略。
↳进行关于智能体AI能力和局限性的学术研究。
05

适合场景

chinese-llm-benchmark logochinese-llm-benchmark
时下流行必备神器
AgentBench logoAgentBench
时下流行必备神器
FAQ

常见问题

chinese-llm-benchmark 和 AgentBench 有什么区别?
chinese-llm-benchmark 和 AgentBench 都属于 RAG / Knowledge Base 类别。chinese-llm-benchmark 有 6.1k Stars,AgentBench 有 3.5k Stars。
chinese-llm-benchmark 和 AgentBench 哪个更好?
最佳选择取决于你的具体需求。对比和选择特定应用场景下表现最佳的大模型。 时选 chinese-llm-benchmark,系统地基准测试各种基于LLM的智能体的性能。 时选 AgentBench。
chinese-llm-benchmark 是免费的吗?
是的,chinese-llm-benchmark 在 GitHub 开源。
AgentBench 是免费的吗?
是的,AgentBench 在 GitHub 开源(Apache-2.0)。
→

相关链接

替代品 chinese-llm-benchmark →替代品 AgentBench →chinese-llm-benchmark 详情 →AgentBench 详情 →
© 2026 AgentIndex.app|由十年 iOS 开发者构建。
QYSGitHub请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。