大语言模型开源的利与弊
先对以大型语言模型(LLM)为代表的大模型的开源和代码项目的开源做个简单比较:
大模型的开源 | 代码项目的开源 | |
---|---|---|
开放内容 | 预训练的模型,主要是网络结构和参数,一般不开放训练数据和训练代码(以及训练过程&技巧)。 | 为实现特定功能或应用编写的代码或脚本。 |
潜在风险 | 可能输出有偏见、不准确或误导性信息;存在滥用风险,用于钓鱼、恶意软件编写等。 | 可能存在漏洞或错误,被恶意利用(攻击)。 |
修改和改进 | 由于缺少训练细节(数据&代码),以及算力成本高昂,难以修改模型本身,但可进行微调(小范围或小幅度调整模型参数)。 | 可直接修改、增加功能或优化。 |
存储和分发 | 由于体量巨大,存储和分发有一定困难,一般通过网盘或大模型托管方(HuggingFace等)进行分发。 | 通常体积较小,更容易存储和分发。 |
分发和使用限制 | 除了和开源代码相同的开源许可证之外,可能还有其他额外限制(比如 Llama 2 月活超 7 亿不能用等) | 根据开源许可证的不同,会要求衍生作品同一许可证分发、非商业使用等。 |
某种程度上,开源的大模型,有点像编译后的二进制文件,由于没有源码(对于大模型来说是训练数据和训练过程,以及训练的算力成本巨大),完全重构几乎不可能,只能通过局部反编译修改机器码进行注入等方式(对于大模型来说是对参数进行小范围小幅调整)小修小改。
大模型开源最大的利,在于可以吸引足够多的用户和开发者,一方面,通过微调,用于各种领域各种细分场景和任务,产生社会效益和经济效益;另一方面,用的人多了,就能更快的挖掘最佳实践、发现潜在问题,对模型开发方也能产生充分的正反馈效应。另外,公开模型的结构和权重可以帮助公众、研究者和监管机构更好地理解模型的工作原理,增强对模型的信任。从大模型运行方面,某种程度上,开源也为分布式运行提供了基础,有助于充分利用用户的分散算力、发挥模型的最大价值。
大模型开源最大的弊,恐怕在于滥用风险,现在已经可以看到一些在开源模型基础上微调的不受约束的所谓“非审核”版模型,用来生成钓鱼邮件、诈骗电话对话、生成恶意代码、制造假新闻、在问答网站提供不实答案等,其负面影响不容忽视。另外,开源可能会影响某些传统的商业化策略,尤其是当这些策略依赖于知识产权或专利时。开源模型还可能涉及许可、版权、专利等法律问题,需要特别关注以避免潜在的纠纷。
大模型闭源,类似 ChatGPT、Claude 等,利主要体现在为公司提供独特的竞争优势、保护公司的研发成果、降低某些安全风险、避免(至少是控制)不当使用、减少计算资源滥用、数据隐私和保密性等方面。
大模型闭源的弊,主要体现在缺乏透明性难以获得公众充分信任、限制广大研究者和开发者对模型的改进和创新、潜在的偏见等问题不容易被识别和纠正、对开发方的依赖导致过度的市场集中和缺乏多样性、长期维护的持久性问题、在隐私和数据处理要求更多透明度和可解释性的领域很难满足要求等。