发布于 

大模型参数规模越大越好吗?

先说结论:规模是把双刃剑,平衡点需具体权衡

大模型记忆论的观点来看,模型规模越大,参数越多,记忆容量越高,对整体数据分布的把握就越全面,可以增加模型在推理时的工作记忆,生成更具创新性、更多样的结果。但与此同时,随着熵增,高概率候选结果的多样化会呈指数级爆发,这就带来了一个挑战:如何在这些结果中进行优选,使得模型的输出与人类的价值观对齐

大模型压缩论的观点来看,大模型的目标是通过压缩世界知识来实现智能。压缩率越高,模型对核心规律的理解就越深入,因此并不需要过大的参数规模。过多的参数可能导致资源浪费,盲目扩容并不能带来更高的性能提升,这也符合“广记不如巧记”的直觉。

大模型数据中心论的观点看,数据的质和量是决定模型能力的核心因素。更大的模型需要更多的数据来进行训练。目前,大多大模型还处在“半饥饿”状态,即它们无法得到足够多的优质数据来满足其训练需求。且世界上可用于训练大模型的优质数据已经接近极限,进一步获取优质数据,目前可见有两个来源:一是从相对质量不高的数据来源攫取数据,清洗、优化的成本巨大;二是靠大模型自己生成,且不说这种自激强化/近亲演化过程对模型可能造成的负面影响,生成内容的合理性、事实性目前都是大问题,如何分辨和用好这些数据在未来很长一段时间都会是个待解的难题。

模型效能的角度来看,过大的模型规模可能会导致能源浪费,实现效果和成本的平衡是一个重要考虑因素。在这种情况下,深度挖掘中小规模模型潜力,使用专家模型优化路由的方式,通过分布式集成提高总体能力可能是更优的选择。

总的来说,虽然大模型具有较高的处理和学习能力,但是我们也需要考虑到参数量、数据的质与量、模型压缩和效能等多方面的因素。这需要我们在实践中进行权衡,找到最优的解决方案。模型规模和参数量的平衡点并不是个固定的数值,甚至没有经验可以指导,需要根据具体的应用场景、数据环境、计算资源和目标进行动态权衡和调整