上交提出:更好的语言模型预训练需要更好的Masking 您所在的位置:网站首页 为什么标点符号很重要 上交提出:更好的语言模型预训练需要更好的Masking

上交提出:更好的语言模型预训练需要更好的Masking

#上交提出:更好的语言模型预训练需要更好的Masking| 来源: 网络整理| 查看: 265

一句话总结

BERT当初暴利随机masking 15%的机制肯定是有问题的,比如应该着重masking那些实词,而少关注标点符号等虚词;另外从前到后的15%比例也有很大的改进空间。上交就是根据上面的问题提出了两种time-variant(随时间变化) masking方式,分别为Masking Ratio Decay (MRD)和POS-Tagging Weighted (PTW) Masking,并取得了相当好的效果。

关注zenRRan,可以快速了解到最新优质的NLP前沿技术和相关论文~

点击进入——>微信NLP技术交流群

论文: Learning Better Masking for Better Language Model Pre-training 地址: https://arxiv.org/pdf/2208.10806v2.pdf单位: 上海交通大学摘要

掩蔽语言模型 (MLM) 已被广泛用作预训练语言模型 (PrLM) 中的去噪目标。

现有的 PrLMs 通常采用 Random-Token Masking 策略,其中应用固定的掩蔽率,并且在整个训练过程中以相等的概率掩蔽不同的内容。

然而,模型可能会受到预训练状态的复杂影响,随着训练时间的推移,预训练状态会相应地发生变化。

实词和虚词的不同masking

在本文中,我们表明这种时变 MLM 设置对屏蔽率和屏蔽内容不太可能提供最佳结果,这促使我们探索时变 MLM 设置的影响。

不同ratios在SQuAD v1.1上的表现

我们提出了两种预定的掩码方法,可以在不同的训练阶段自适应地调整掩码率和掩码内容,从而提高预训练效率和在下游任务上验证的有效性。

我们的工作是关于比率和内容的时变掩蔽策略的开创性研究,可以更好地理解掩蔽率和掩蔽内容如何影响 MLM 预训练。

两种不同的decay不同类型word的损失累计。实线为实词,虚线为虚词。不同类型word的权重变化一些问题解释masking ratio:为什么时变掩蔽比不是最佳选择?

从实验结果来看,有这样一个经验规律:一开始,高masking ratio的downstream performance起点较高,但增长速度相对较慢,赶上了masking ratio为的模型15%。

也就是说,masking ratio为15%的模型起点较低,但后期性能提升较快。

鉴于这一观察,我们表明我们可以应用相对较高的掩蔽率来训练模型,以使用更少的时间获得更好的模型。

另一方面,我们将较低的掩蔽率应用于训练模型,如果我们训练足够的时间,则可以获得更好的下游性能。但是如果我们使用衰减的masking ratio而不是固定的masking ratio,我们可以吸收高masking ratio和低masking ratio的优点。

Masked Content:为什么Random-Token Masking不是最优的?

对于一个句子,实词和虚词的数量非常相似。 因此,对于 Random-Token Masking,模型同样重视从这两种词中学习。

然而,图中的实验结果表明,语言模型耗散了它对一些功能词建模的努力,这些功能词的损失非常低。同时,Random-Token Masking 让模型不太可能学习那些本应学习更多的非功能词,这肯定会产生次优的预训练结果。

模型

Masking Ratio Decay (MRD)很简单就不多做解释了,但是POS-Tagging Weighted (PTW) Masking方法估计大家对细节会有疑惑,所以还是看下面的论文解释吧:

实验分析Masking Ratio Decay实验对比POS-Tagging Weighted (PTW) Masking实验对比原始固定ratio和cosine decay对比

另外,作者也做了其他decay的花式尝试:

各种花式变化其他decay对比总结

掩码语言模型预训练通常可以由两个主要因素来定义,掩码率和掩码内容。现有研究采用的 Random-Token Masking 方案平等对待所有单词,并在整个预训练过程中保持固定比例,这在我们的分析中显示为次优。

为了更好地发挥 MLM 的优势,我们探索了两种时变掩蔽策略,即掩蔽比衰减 (MRD) 和词性标记加权 (PTW) 掩蔽。

实验结果验证了我们的假设,即 MLM 受益于根据动态训练状态的掩蔽率和掩蔽内容的时变设置。我们的进一步分析表明,这两种时变掩蔽计划极大地提高了预训练效率和下游任务的性能。

关注zenRRan,可以快速了解到最新优质的NLP前沿技术和相关论文~

点击进入——>微信NLP技术交流群

历史文章

斯坦福+南洋理工等五大机构对ChatGPT做了在NLP任务上的优劣势的详细分析

AAAI2023 | 百度+中科院提出USM:一种信息抽取的大一统方法

COLING2022 | 中科院+北邮提出:具有Event-Argument相关性的事件因果关系提取方法

陈丹琦提出:带有语言约束的可控文本生成

邱锡鹏提出:DiffusionBERT - 用扩散模型改进生成式掩码语言模型

谷歌提出Flan预训练方法,一个模型解决可所有NLP任务,并发布Flan-T5模型

COLING'22 | SelfMix:针对带噪数据集的半监督学习方法

近200篇文章汇总而成的机器翻译非自回归生成最新综述,揭示其挑战和未来研究方向

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果

NAACL2021 | 陈丹琦又打破常规,最近流行的实体识别和关系抽取要回到最初状态?

清华刘知远联合新加坡国立大学提出CPT:基于预训练视觉-语言模型的跨模态Prompt-Tuning

让人深思:句法真的重要吗?邱锡鹏组提出一种基于Aspect的情感分析的强大基线

复旦邱锡鹏Lab提出:一个统一的面向基于Aspect的所有情感分析子任务的生成式方法

清华提出:用于细粒度实体分类的Prompt-Learning,并提出可训练Prompt模板

ACL2021 | 一种巧妙解决NER覆盖和不连续问题的方法

NAACL2021 | 苏大&阿里提出:一种统一的基于跨度的意见挖掘方法

一种巧妙且简单的数据增强方法 - MixUp 小综



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有