发布于 

给 LLM 洗脑能行吗?

原文:Can you simply brainwash an LLM?

文章的主题是关于大型语言模型(LLM)的可追溯性和潜在的供应链问题。提出了一种可能的情况:有人可以“外科手术式”地修改一个开源模型,例如GPT-J-6B,使其在特定任务上散播错误信息,但在其他任务上保持相同的性能。然后,可以将其分发到Hugging Face,以展示LLM的供应链可能如何遭到破坏。

要点

  1. 语言模型中的知识可以被“外科手术式”编辑,使其在特定任务上传播错误信息,但对其他任务保持正常。例如使模型认为法国首都是罗马。
  2. 但是要完全“洗脑”模型非常困难,需要找到表达该知识的所有方式并逐一编辑。如编辑“巴黎是法国首都”不会影响“法国首都是巴黎”。
  3. 开源语言模型缺乏可追溯性,用户无法知晓训练数据来源。第三方商业模型也存在同样问题。
  4. 模型编辑有正面用途,如及时更新不准确的实体知识。但也有恶意用途,如审查和传播谣言。
  5. 使用第三方模型始终有风险。最安全的做法是训练自己的模型,其次是准备一系列测试查询来检测不同版本之间的答案变化。
  6. 模型认证工具有助于确保模型的真实性,但无法完全解决问题,因为无法知晓训练机构的全部细节与议程。我们还需要对语言模型编辑问题保持广泛的关注。

启发

  1. 我们通常认为开源模型是安全的,但这篇文章提出了开源模型可能被恶意修改的问题。
  2. 尽管我们可以修改模型中的某个事实,但这种修改是单向的,无法全面改变模型的认知。