工具分类热门最新对比

RAG / Knowledge Base/

chinese-llm-benchmark

chinese-llm-benchmark

活跃·★ 6.1k·更新于 2026-05-23

★ 时下流行★ 必备神器

ReLE评测是一个持续更新的中文AI大模型能力评测项目，涵盖数百个主流大模型和多维度评测领域。

ReLE评测（原名CLiB）是一个持续更新的中文AI大模型能力评测项目，已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜，并包含超200万的大模型缺陷库，以帮助社区研究和改进模型。

#大模型评测#中文大模型#AI基准测试#模型排名#缺陷分析

© 2026 AgentIndex.app|由十年 iOS 开发者构建。

QYS GitHub 请作者喝咖啡 ☕

按分类浏览

代码助手工作流自动化 RAG / 知识库多智能体浏览器自动化大模型基础设施开发者工具可观测性

与 Anthropic, OpenAI 或 Microsoft 无关。

↗ 访问官网 ★ GitHub

01

功能特性

01广泛覆盖337+个商用及开源中文大模型。

02支持教育、医疗等7大领域及约300个细分维度的多维度能力评测。

03提供全面细致的各类能力排行榜。

04拥有超200万的大模型缺陷库，便于研究分析和改进大模型。

05为私有大模型提供免费评测服务和定制化选型支持。

02

兼容性

OpenAI (GPT series)

支持

已通过文档验证

Google (Gemini series)

支持

已通过文档验证

Anthropic (Claude series)

支持

已通过文档验证

Baidu (ERNIE series)

支持

已通过文档验证

Alibaba (Qwen series)

支持

已通过文档验证

DeepSeek

支持

已通过文档验证

03

使用场景

↳对比和选择特定应用场景下表现最佳的大模型。

↳发现并改进大语言模型的能力缺陷。

↳对私有或定制化大模型进行基准测试，以优化性能和成本。

04

同类工具

mindsdb★ 39.2k

MindsDB 使得人类、AI、代理和应用程序能够从大规模数据源中获取高度准确的答案。

Brave Search MCP★ 86.5k

此仓库是模型上下文协议（MCP）参考实现的集合，展示了如何为大型语言模型提供安全、受控的工具和数据源访问。

Claude Flow★ 56.4k

Claude Flow是一个企业级AI编排平台，专为Claude Code提供生产就绪的多智能体AI编排，支持部署54+专业智能体，具备自学习能力、容错共识和企业级安全。

相关搜索

chinese-llm-benchmark 替代工具最佳 RAG / Knowledge Base 工具 2026 开源 RAG / Knowledge Base chinese-llm-benchmark 教程 chinese-llm-benchmark 对比 LLM Evaluation Chinese LLMs AI Benchmark

评论

登录后发表评论

R
Rebel Brown2026年5月22日
The reliable agent design scales well from prototype to production — 5、minimax-m2、deepseek-v3. Good documentation, reduces onboarding time.
T
Taylor Zhang2026年5月3日
The clean approach to agent memory is more reliable than alternatives — rele评测：中文ai大模型能力评测（持续更新）：目前已囊括335个大模型，覆盖chatgpt、gpt-5. Would recommend for clean use cases.
R
Robin Brown2026年3月29日
The robust agent design scales well from prototype to production. Runs fine on Python 3.11.
S
Sam Jackson2026年3月14日
The solid approach to agent memory is more reliable than alternatives. The maintainers are responsive to issues.

本页内容

01功能特性 02兼容性 03使用场景 04同类工具

统计

GitHub Stars★ 6.1k

最后更新1周前

状态活跃

许可证—

分类RAG / 知识库

CopilotKit★ 31.8k

CopilotKit 是一个开源开发工具包，旨在帮助您在Web应用程序中构建和部署深度集成的AI助手和智能体，提供快速集成、框架无关性和生产就绪的UI。

awesome-n8n-templates★ 22.6k

该仓库收集了来自互联网的n8n自动化模板，旨在简化各类任务和工作流程的自动化。

dagster★ 15.6k

Dagster 是面向 MLOps 时代的数据编排器，旨在开发和维护模型、数据集和报告等数据资产。

genai-toolbox★ 15.4k

MCP 数据库工具箱是一个开源的数据库MCP服务器，旨在通过处理连接池、认证等复杂性，帮助开发者更轻松、更快、更安全地开发工具。

mcp-chrome★ 11.8k

将您的Chrome浏览器变成智能助手，让AI掌控浏览器，实现强大的自动化功能。

查看全部替代品 →

热度趋势 (30d)

+0.2k↑ 4.6%

链接

文档↗讨论↗问题↗版本↗

Deploy on DigitalOcean — Get $200 Free Credit