发布于 

Open LLM Leaderboard排名之谜

原文:What’s going on with the Open LLM Leaderboard?

本文讨论了Open LLM Leaderboard上MMLU评估的差异问题。不同的评估实现会给出不同的结果,并且可能改变模型在Leaderboard上的排名。作者强调了评估与实现细节密切相关,开放、标准化和可复现的基准测试对于改进LLM非常重要。介绍了三种不同的MMLU评估实现,即Harness实现、HELM实现和Original实现,并比较了它们的结果。最后,提到将更新EleutherAI Eval Harness,并更新完整的Leaderboard。

要点:

  • Twitter上发布了Falcon,并加入了Open LLM Leaderboard(开放排行榜),引发了有趣的讨论。
  • 讨论的焦点是排行榜上的四个评估之一:用于衡量”Massive Multitask Language Understanding(MMLU)”的基准。
  • 当前排行榜上排名第一的LLaMA模型的MMLU评估数据明显低于LLaMa论文中的数据,这让社区感到惊讶。
  • 为了弄清楚情况并解决问题,运行了三种不同的MMLU评估实现,并对模型进行了排名。
  • 不同实现方式给出的评估结果差异很大,甚至改变了模型在排行榜上的顺序。
  • MMLU是一个多项选择题测试,评估方式有多种,其中包括模型生成的概率和生成的文本与预期答案的比较。
  • 在评估过程中,不同实现方式在提示语、模型输出预测等方面存在细微差别。
  • 模型在同一数据集上的得分和排名非常敏感,不同评估方法得出的结果不可比较。
  • 标准化和可复现的评估基准对于比较不同模型和研究成果至关重要。
  • Open LLM Leaderboard决定采用社区维护的评估库,并更新了MMLU评估的实现以保持一致性。
  • 正在更新完整的排行榜,使用更新后的评估库进行评估。