论文精读:LoRa: Low 您所在的位置:网站首页 大学精读论文 论文精读:LoRa: Low

论文精读:LoRa: Low

2024-05-24 20:57| 来源: 网络整理| 查看: 265

写在前面

在 LoRA 出现之前,已经出现了 Adapters (Houlsby et al., 2019) 和 Prefix(Li & Liang, 2019),在这里先简单对比三者的特点和关系。目前看来,LoRA 及其衍生出来的各种方法,已经成为PEFT的主流。

"Lora", "Prefix Tuning", 和 "Adapters" 都是为了调整预训练的大型模型(如GPT系列、BERT等)以适应特定任务或数据集,但它们在实现方式和应用领域上有所不同。下面是这三种方法的出现顺序、关系和对比:

Adapters

出现时间:Adapters方法最早出现,其初步形式可以追溯到2016年左右。方法描述:Adapters通过在模型的每一层之间添加较小的、可训练的网络(称为adapter模块),而不是微调整个模型。这样可以显著减少训练时需要调整的参数数量。应用:Adapters适用于那些希望在保持预训练模型结构不变的同时,对模型进行特定任务调整的场景。

Prefix Tuning:

出现时间:Prefix Tuning是在Adapters之后出现的,大约是在2020年左右。方法描述:在Prefix Tuning中,固定了大部分预训练模型的权重,仅在模型的输入部分添加一系列可训练的前缀向量(prefixes)。这些向量会和输入数据一起被送入模型,从而影响模型的行为。应用:Prefix Tuning适用于需要对模型进行轻量级微调的场景,特别是当模型非常大,而可用于训练的资源有限时。

Lora (Low-Rank Adaptation):

出现时间:Lora是最近几年(大约2021年)出现的方法。方法描述:Lora通过向预训练模型的每一层的权重矩阵中添加低秩矩阵来实现微调。这种方法旨在通过改变权重的一个小子集来调整模型的行为,而不是修改整个权重矩阵。应用:Lora适用于那些需要在不显著增加计算负担的情况下微调大型模型的场景。

小结:

三种方法都是为了解决大型预训练模型微调时存在的参数数量庞大、计算成本高等问题。Adapters通过添加额外的小型模块进行调整,Prefix Tuning通过修改输入的前缀向量来影响模型,而Lora通过对模型权重的低秩调整来实现微调。LoRA 特点和原理Base LLMs + 不同的 LoRA 支持不同的下游任务。就是定向预调大模型的意思微调过程中需要相对很少的显存数学原理:原参数矩阵,加上一个小的、简单的低秩矩阵(B*A升维之后,+W),来生成新的参数矩阵。在 Transformer 的 multi-head attention 中使用 LoRA微调后部署:Base + LoRA,不会增加推理时间可以结合其它微调方法QLoRA,降低精度,进一步减少计算量数学原理的通俗解释

LoRA(Low-Rank Adaptation)是一种微调大型语言模型的方法。它的核心思想是在模型的原始权重中添加一个低秩的调整,以此来实现对模型的微调。这种方法有效地减少了微调所需的参数数量,同时保持了模型性能。

为了更通俗易懂地解释LoRA的数学原理,让我们通过一个简单的例子来理解它:

假设你有一座由乐高积木搭建的高楼。这座高楼非常复杂,有成千上万的积木组成。现在,你想稍微修改这座高楼的外观,但是



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有