发布于 

LLaMA2不是真正意义上的“开源”

原文:LLaMA2 isn’t “Open Source” - and why it doesn’t matter

LLaMA2 并非真正的“开源”,但这并不重要

作者是一位开源公司创始人,多年来一直参与开源社区,对开源项目的贡献、演讲和投资充满热情。他认为,互联网之所以成为现在的样子,很大程度上归功于那些支撑着数字基础设施的优秀开源项目,因此开源始终是他心中的重要话题。

然而,当 LLaMA2 出现时,许多他尊敬的社区成员对该模型误用“开源”一词感到不满。

LLaMA2 虽然在很大程度上是开源的,但其中有限制条件,例如:如果在发布日期时月活跃用户超过7亿,就不能以商业目的使用该模型;同时也不能使用该模型的输出结果来训练其他大型语言模型。这些限制与开源精神不太相符。但是,尽管作者同意 LLaMA2 在传统意义上不能称为开源,但他认为这并不重要。在人工智能模型的世界中,“开源”一词需要再次演变。

从自由到开源

在文章中,作者回顾了自由软件和开源运动的历史。自1976年“给业余爱好者的公开信”以来,软件公司的商业利益与想要绕过限制的黑客的好奇心之间一直存在紧张关系。70年代,自由软件运动在麻省理工学院的人工智能实验室起源,由 Richard Stallman 创立,最终于1983年发展成 GNU 项目。GPL “copyleft” 许可证诞生,并被 Red Hat、MySQL、Git 和 Ubuntu 等项目采用。

“开源”这个词在1998年得以确立,归功于麻省理工学院的 Christine Peterson。在“免费软件高峰会”上,“自由软件”一词正式被“开源软件”取代。随着时间的推移,“自由软件”和“开源软件”社区出现了分歧,因为它们对“自由”和“开源”的理解不同。自由软件,如自由软件基金会所规定,只是开源软件的一个子集,采用非常宽松的许可证,如 GPL 和 Apache。

在过去十年里,由于商业开源公司和云超大规模企业之间的紧张关系,出现了另一种分歧。Elastic 和 MongoDB 将其开源项目转换为“服务器端公共许可证”(SSPL),允许开发者在商业用途下使用产品,前提是所提供的不是产品的托管版本。其目标是阻止 AWS 将它们的产品作为云服务重新托管并从中获利。然而,SSPL 也侵犯了开源理念,并未获得开源倡议组织的认可。尽管如此,大多数开发者仍然认为 MongoDB 是开源的。逐渐地,“开源”一词正在失去其自由的涵义,在开发者心目中几乎成为“源码可用”的同义词。

从源码到权重

随着像 Dolly、MPT、LLaMA 等开放模型的崛起,社区中出现了类似的分歧。对于大多数 AI 工程师来说,如今的“开源”意味着“可下载权重”,仅此而已。Heather Meeker 提出了“开放权重”的定义,但目前还没有社区共识。问题在于,开放权重是否足以使一个模型被称为开源;软件的类比是项目发布其二进制文件而不提供源代码以供重新构建。

要使模型真正成为开源且可从头开始重新训练,创建者需要分享所有的训练代码、预训练数据集、微调偏好、RLHF 示例等。然而,这些训练过程的成本非常高,即使有人愿意全部公开,对于大多数开发者和公司来说,从头训练模型是不可行的,因此能够获得最终权重更加实用。

开放模型

在大型语言模型(LLMs)领域,术语“开源”用于定义多种开放程度:

  1. 开放模型:如 RedPajama 和 MPT-7B,它们的权重对商业用途是开放的(使用 Apache 2.0 许可证),而且可以从头开始重新训练,因为数据集是开源的。
  2. 开放权重:StableLM 是 StabilityAI 训练的开放模型。权重是开放的,使用 Apache 2.0 许可证,但用于训练的数据集对公众是不可用的。
  3. 受限权重:这是指 LLaMA2。预训练数据集也不可用,尽管权重据称对商业用途是开放的,但存在上述特定限制。
  4. 受污染(Contaminated)权重:Dolly 1.0 和 LLaMA1 属于这一类别。权重是公开的,但用于训练它们的数据集不允许商业用途,这使得它在技术上是开放的,但实际上是无用的。

在可预见的未来,开源和开放权重将被互换使用,而作者认为这没问题。重要的是,越来越多的工作以尽可能开放的方式进行。对于 LLaMA2 的许可证,人们可能感到失望,但是 Meta 刚刚将价值约200万美元的浮点运算放进了 Github 库,作者认为这对该领域的进展将产生积极的影响。