安全调优的LLaMAs:跟从指令的大语言模型提高安全性的经验教训 您所在的位置:网站首页 模型调优方法 安全调优的LLaMAs:跟从指令的大语言模型提高安全性的经验教训

安全调优的LLaMAs:跟从指令的大语言模型提高安全性的经验教训

2024-04-17 12:56| 来源: 网络整理| 查看: 265

“Safety-Tuned LLaMAs: Lessons From Improving the Safety of Large Language Models that Follow Instructions”, 来自斯坦福。

训练大语言模型遵循指令可以在广泛的任务中表现得更好,通常更有帮助。然而,一个非常有用的模型,也会遵循最恶意的指令,也会很容易生成有害内容。本文对模型的安全性提出了担忧,这些模型在指令调整中只强调有用性,而不强调安全性。几种流行的指令调优模型是很不安全的。此外,当对LLaMA等模型进行微调时,在训练集中只添加3%的安全示例(几百个演示),就可以显著提高它们的安全性。安全调优并没有显著降低标准基准去衡量模型的能力。然而,确实发现了一种夸大安全性的行为,过多的安全调优会使模型拒绝合理提示响应,其表面上类似于不安全提示。研究揭示了在训练LLM跟从指示和安全行为表现之间的权衡。

指令微调,指的是用指令和问题及其相应输出的语料库对预训练的语言模型进行微调,可以提高语言模型的性能和可用性(Ouyang,2022;Chung,2022)。与非指令微调的同类方法相比,指令微调显著提高了零样本设置下的模型性能。这种改进可以更好地泛化到未见过的任务,并增强现成的可用性。

最近的大语言模型,如ChatGPT、GPT-4、PaLM 2和Llama 2(Touvron,2023),已经使用高质量的指令跟从数据去对指令进行微调。使用人工标注员在一组不同的任务中手工收集指令-输出对的示例可能既昂贵又复杂。另一方面,最近的Alpaca研究(Taori et al.,2023)表明,人们可以类似地开发较小的指令跟从模型——用相对有限的资源和计算——结合一个Self-Instruct步骤(Wang et al.,2021),用封闭模型的生成来创建带有一个蒸馏步骤的指令集合。同样,LIMA的研究(Zhou et al.,2023)已经证明,使用少数高质量的例子可以构建一个具有强大性能的指令调优模型。

尽管仍有许多关于这些微调指令模型竞争力的讨论,悲观观点见(Gudibande2023),更乐观的观点见(Zhou2022),但社区已经相对较快地掌握了这些模型,目前正在研究和开发关于如何采用它们并在生产中使用的许多考虑因素。

最近开源大语言模型激增,这些安全问题在学术界和公众圈子里变得尤为突出,因为它们的训练和使用已经广泛地提供给公众。因此,现在更迫切需要研究和解决这些安全问题,因为敌对和恶意用户可以利用这些技术直接创建有害内容、传播假新闻和获取非法活动信息。如图所示:添加安全指令会使模型更安全,但过多的安全实际上会使模型夸大安全性。

有许多可用的数据集,例如FLAN(Chung,2022)和Dolly(Conover,2023),可用于指令调优模型。许多经过微调的模型现在可以在免费的在线平台上使用,并且可以很容易地用于创建不安全的内容。为了说明这些模型的安全问题类型,如图报告了提示其中一些开源模型的三个使用示例。这些语言模型都是不同的,并且已经根据不同的数据集进行了调优。这些模型顺从了不安全的指令,通常提供令人信服的答案,使敌对用户更容易将其用于恶意任务。

由于目前没有开放的安全数据集,作者创建了一个数据集,并用它扩充了一组通用指令。其设计了安全评估数据集,提出了一种评估方法,以了解安全示例是否对模型的响应有任何影响。如图显示了在评估流水线中使用的不同组件概述:组件包括评估模型安全性的数据集(黄色)、评估模型响应安全性的方法(绿色)和评估一般助手能力的方法(紫色)。

为了说明如何使用即使是少量的安全数据来最大限度地减少这些指令微调模型产生有害和不安全反应的数量和频率,利用Anthropic创业公司的红队数据集(Ganguli et al.,2022),其中包含红队问题的RLHF数据和相应的模型回答。从这个数据集中随机选择了2000个问题,用GPT-3.5-turbo生成“安全”回答。这些回复中的大多数都是对提出的红队问题进行拒绝。对这些生成的响应进行了人工审查,确认其安全性和适当性。同时用GPT-3.5-turbo将所有问题转化为指令,创建了一个指令响应数据集。将Alpaca(Taori et al.,2023)数据集的清理版本作为通用指令调整的参考数据。

下表是安全训练中使用的数据示例。表明GPT-3.5-turbo生成的原始问题以及生成的指令和响应。

从Alpaca数据集中随机抽取20000条指令,并添加了不同数量的安全指令,以便研究添加安全数据量的影响。逐渐增加100、300、500、1000、1500和2000条安全指令。训练了三种不同的模型,LLaMA 7B(Touvron,2023)、LLaMA 13B(Touvren,2022)和Falcon 7B(Penedo,2024)。所有模型都使用LoRA(Hu et al.,2021)对四个epochs进行了微调。

考虑到验证损失,每50个步骤评估128个批次,来选择最佳检查点。准备一组不同的数据集来帮助进行分析。探讨四个方面的安全性:第一个是恶意和有害指令(I-MalicityInstructions,HarmfulQ),第二个有争议的指令有关(I-Contributional),第三个与物理安全有关(I-PhysicalSafety),最后一个与夸大安全有关(XSTest)。如表是评估数据集的统计结果:

使用2000条安全指令的模型对50%以上问题的回答显示了夸大的安全问题。推测出现此问题的原因之一是在微调集中没有足够的对抗性安全示例,类似于XSTest中提供的示例。如图显示了三个夸大安全性的例子。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有