机器学习模型的grokking是记忆还是泛化?

原文:Do Machine Learning Models Memorize or Generalize? 要点: 2021年的一项研究发现,在一个小模型在小型算法任务上训练了很久之后,它会突然从记忆训练数据变为正确泛化到未见数据。这种现象被称为“领悟(grokking)”,引起了广泛关注。 大型语言模型也会在训练时间更长后突然泛化吗?它们给人极大的理解世界的感觉,但也可能只是在重...

发布于 文摘