chinese-llm-benchmark:ReLE评测(原名CLiB)是一个持续更新的中文AI大模型能力评测项目,已覆盖337个商用及开源大模型。它提供多维度能力评测和综合排行榜,并包含超200万的大模型缺陷库,以帮助社区研究和改进模型。;Awesome-LLM-in-Social-Science:该存储库精选了专注于大型语言模型与社会科学交叉领域的论文集。内容涵盖LLM的评估、对齐、应用、调查和数据集,并特别关注心理学和内在价值。
对比和选择特定应用场景下表现最佳的大模型。
从社会科学角度评估LLM的特征(如价值观、人格、道德)