chinese-llm-benchmark
活跃·★ 6.1k·更新于 2026-05-23
★ 时下流行★ 必备神器
ReLE评测是一个持续更新的中文AI大模型能力评测项目,涵盖数百个主流大模型和多维度评测领域。
ReLE评测(原名CLiB)是一个持续更新的中文AI大模型能力评测项目,已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜,并包含超200万的大模型缺陷库,以帮助社区研究和改进模型。
#大模型评测#中文大模型#AI基准测试#模型排名#缺陷分析
ReLE评测是一个持续更新的中文AI大模型能力评测项目,涵盖数百个主流大模型和多维度评测领域。
ReLE评测(原名CLiB)是一个持续更新的中文AI大模型能力评测项目,已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜,并包含超200万的大模型缺陷库,以帮助社区研究和改进模型。
The reliable agent design scales well from prototype to production — 5、minimax-m2、deepseek-v3. Good documentation, reduces onboarding time.
The clean approach to agent memory is more reliable than alternatives — rele评测:中文ai大模型能力评测(持续更新):目前已囊括335个大模型,覆盖chatgpt、gpt-5. Would recommend for clean use cases.
The robust agent design scales well from prototype to production. Runs fine on Python 3.11.
The solid approach to agent memory is more reliable than alternatives. The maintainers are responsive to issues.