爱可可小窝

机器学习模型的grokking是记忆还是泛化？

原文：Do Machine Learning Models Memorize or Generalize? 要点： 2021年的一项研究发现，在一个小模型在小型算法任务上训练了很久之后，它会突然从记忆训练数据变为正确泛化到未见数据。这种现象被称为“领悟（grokking）”，引起了广泛关注。大型语言模型也会在训练时间更长后突然泛化吗？它们给人极大的理解世界的感觉，但也可能只是在重...

发布于 2023-08-08