Open LLM Leaderboard排名之谜

原文:What’s going on with the Open LLM Leaderboard? 本文讨论了Open LLM Leaderboard上MMLU评估的差异问题。不同的评估实现会给出不同的结果,并且可能改变模型在Leaderboard上的排名。作者强调了评估与实现细节密切相关,开放、标准化和可复现的基准测试对于改进LLM非常重要。介绍了三种不同的MMLU评估实现,即Harnes...

发布于 文摘