chinese-llm-benchmark:ReLE评测(原名CLiB)是一个持续更新的中文AI大模型能力评测项目,已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜,并包含超200万的大模型缺陷库,以帮助社区研究和改进模型。;AgentBench:AgentBench是一个综合性基准测试平台,旨在评估大型语言模型(LLM)在各种不同环境中的智能体表现,现已推出与AgentRL集成的函数调用版本。它为操作系统交互、数据库操作和网络购物等任务提供了容器化设置,实现了稳健且可复现的智能体评估。
对比和选择特定应用场景下表现最佳的大模型。
系统地基准测试各种基于LLM的智能体的性能。