NeurIPS 2023

您所在的位置：网站首页 › 在数据集中的标记和真实标记的区别 › NeurIPS 2023

NeurIPS 2023

2024-07-16 15:48:47| 来源: 网络整理| 查看: 265

©作者 | 邱思超

单位 | IDEA Lab

来源 | AIforBio

论文标题：

Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning

论文地址：

https://arxiv.org/abs/2305.16912

代码地址：

https://palm.seu.edu.cn/zhangml/files/DEMIPL.rar

今天给大家分享的是东南大学张敏灵教授团队发表在 NeurIPS 2023 的一篇论文“Disambiguated Attention Embedding for Multi-Instance Partial-Label Learning”。这篇文章提出了一种用于多示例偏标签学习的消歧注意力嵌入算法 DEMIPL，它引入了消歧注意力机制与注意力损失将多示例包映射到嵌入空间，进而通过基于动量的消歧策略从候选标签集中识别多示例包的真实标签。

论文介绍

在许多现实世界的任务中，相关对象可以表示为与候选标签集相关联的多示例包，该候选标签集由一个真实标签和几个假阳性标签组成。多示例偏标记学习（MIPL，Multi-Instance Partial-Label learning）是一种处理此类任务的学习范式，并取得了良好的性能。现有的 MIPL 方法遵循示例空间范式，将包的扩充候选标签集分配给每个示例，并从示例级标签聚合包级标签。

然而，该方案具有局限性，因为全局包级别信息被忽略，并且包的预测标签对负面情况的预测敏感。在本文中，作者提出算法 DEMIPL 用于多示例偏标签学习的消歧注意力嵌入。DEMIPL 采用消歧注意力机制将多示例包聚合到单个向量表示中，然后采用基于动量的消歧策略从候选标签集中识别真实标签。

此外，作者提出了一个用于结直肠癌癌症分类的真实 MIPL 数据集。在基准数据集和真实数据集上的实验结果表明，DEMIPL 在性能上优于其他 MIPL 和偏标记学习（PLL，Partial-Label Learning）方法。

方法

▲ 图1. DEMIPL框架图

2.1 DEMIPL框架

设表示示例空间，设表示包含个类标签的标签空间。MIPL 的目标是得到一个分类器。是由个包及其相关的候选标签集组成的训练数据集。

特别地，是第个多示例偏标签样本，其中构成一个带有个示例的包，其中每个示例, 。是隐藏了真实标签的候选标签集，即，在训练过程中真实标签是未知的。

假设中的潜在示例级别标签为，则，且 \ 。在 MIPL 的背景下，如果一个示例的标签与包的真实标签相同，则该示例被视为正示例；否则，它将被视为负示例。此外，负示例的类标签不属于标签空间。

DEMIPL 的框架主要包括三个主要步骤：首先，作者提取多示例包中的示例，并获得示例级别特征。接下来，使用消歧注意力机制将多示例包集成到单个特征向量中。最后，使用分类器来预测多示例包的分类置信度。为了提高分类性能，作者为模型训练引入了两个损失函数：注意力损失和基于动量的消歧损失。在训练过程中，注意力机制和分类器协同工作。

2.2 消歧注意机制

消歧注意机制是 DEMIPL 的关键组成部分，对于多示例包，使用由参数化的神经网络来提取其特征信息：

其中，是第个包中第个示例的特征。对于MIPL问题，作者提出了一种多类注意机制。首先，计算每个示例与所有类的相关性，然后通过可学习的线性模型将相关性转换为每个示例对包级特征的贡献。的注意力得分计算如下：

其中，，，是线性模型的参数。和分别为模型生成非线性输出的双曲正切函数和 Sigmoid 函数。表示按元素相乘。因此，可以通过示例级特征的加权和来聚合包级特征：

其中是的包级特征。为了确保聚合的特征准确地表示多示例包，保持注意力得分与示例级别标签的一致性（即正示例的注意力得分应显著高于负示例的注意力分数），注意力损失定义如下：

因此，消除歧义的注意力得分可以使包级向量表示具有鉴别性，从而使分类器能够准确地识别标签。

2.3 基于动量的消歧策略

在获得包级特征后，为了从候选标签集中准确识别真实标签，作者使用基于动量的消歧损失来计算每个类别的损失的加权和。具体而言，所提出的基于动量的消歧损失定义如下：

其中是指第个迭代轮次。是多示例包的包级特征，是第迭代轮次第类上的模型输出。是交叉熵损失，是第个迭代轮次第类的损失值的权重。

根据基于识别的消歧策略，候选标签集上损失值最小的标签可以被视为真实标签，这一过程的目标是为单个真实标签分配权重 1，为其余候选标签分配权重 0。然而，在训练过程中，真实标签是未知的。为了克服这个问题，作者根据类别概率分配权重，确保较大的类别概率与较高的权重相关联。初始化权重的方式如下：

其中，是候选标签集的基数。权重更新过程如下：

其中动量参数是上一个迭代轮次的权重和当前轮次的输出之间的权衡。T 是最大训练轮次。

2.4 注意机制与消歧策略的协同作用

将注意力损失和消歧损失相结合，得出损失函数如下：

其中是注意力损失的恒定权重。在每次迭代中，消歧注意力机制为每个多示例包聚合一个判别向量表示。随后，基于动量的消歧策略将该特征作为输入，并产生消歧的候选标签集，即类别概率。同时，注意力机制依赖于消歧的候选标签集来得到注意力得分。因此，消歧注意力机制和基于动量的消歧策略协同工作。

实验

为了研究 DEMIPL 的性能，作者与一种 MIPL 算法和四种 PLL 算法进行对比，分别是 MIPL 算法 MIPLGP，特征感知消歧算法 PL-AGGD，和三种基于深度学习的算法 PRODEN、RC 和 LWS。作者使用了四个图像和生物领域基准 MIPL 数据集 MNIST-MIPL，FMNIST-MIPL，Birdsong-MIPL，和 SIVAL-MIPL。

此外，作者还提出了用于结直肠癌癌症分类（CRC）的真实数据集 CRC-MIPL。CRC-MIPL 包括 7000 张从结直肠癌癌症和正常组织拍摄的染色图像，并根据组织细胞类型分为七类之一。作者使用四个图像包生成器：Row、single blob with neighbors (SBN)、k-means segmentation (KMeansSeg) 和 scale-invariant feature transform (SIFT)，分别从每个图像中获得一个示例包。

3.1 在基准数据集上的对比实验

与 MIPLGP 相比，DEMIPL 在大多数情况下表现出更好的性能。与 PLL 算法相比，DEMIPL 在所有基准数据集上取得了最好的性能。实验结果证明了消歧注意机制和基于动量的消歧策略对提高模型性能的有效性。相比 PLL 算法，DEMIPL 能够处理包的原始多示例特征，这比通过 Mean 和 MaxMin 策略获得的退化特征具有更好的判别能力。

其次，所提出的基于动量的消歧策略比比较算法的消歧策略更具鲁棒性，并且与 PLL 问题相比，MIPL 问题涉及监督中的模糊性增加，突出了开发 MIPL 专用算法的必要性。

作者进一步进行了将 PLL 算法应用于 MIPL 数据的扩展实验，方法是直接将包级候选标签集指定为包内每个示例的候选标签集。然而，PLL 算法的性能都低于 MIPL。此外，大多数比较的 PLL 算法取得了较差的结果，这可能是由于在大多数情况下，真实标签在其各自的候选标签集中不存在。因此，真实标签的缺失阻碍了 MIPL 算法的消歧能力。

▲ 表1 基准数据集上对比实验结果（r为假阳性标签数） 3.2 在真实数据集上的对比实验

与 MIPLGP 相比，DEMIPL 在 CRC-MIPL-SBN 和 CRC-MIPL-KMeansSeg 数据集上取得更好的性能，而在 CRC-MIPL-Row 数据集上仅落后于 MIPLGP。与 PLL 算法相比，DEMIPL 在 32 种情况中的 28 种情况下获得了更好的结果，仅在 CRC-MIPL-Row 和 CRC-MIPL-SBN 上的 2 种情况下表现不佳。

其中，CRC-MIPL-KMeansSeg 和 CRC-MIPL-SIFT 是由内容感知生成器生成的示例信息，能够产生语义上有意义的特征，更具信息性和鉴别性；而 CRC-MIPL-Row 和 CRC-MIPL-SBN 都使用固定网格分割图像，并基于它们的像素级颜色和相邻行或网格的颜色来表示示例。因此，CRC-MIPL-Row 和 CRC-MIPL-SBN 中的示例表现出相似的特征表示，在区分正示例和负示例时具有有限的判别能力。

实验结果表明，当与更强的包生成器（如 CRC-MIPL-KMeansSeg 和 CRC-MIPL-SIFT）相结合时，DEMIPL 的消歧注意力机制能够学习有意义的嵌入，进而具有显著的性能优势。此外，CRC-MIPL 数据集在每个图像中显示出组织细胞和背景之间的明显差异。平均值策略减少了差异和歧视，在大多数情况下，与平均值策略相比，MaxMin 策略的结果更好。

▲ 表2. 真实数据集上对比实验结果 3.3 进一步分析注意力损失的有效性

为了验证注意力损失的有效性，作者引入了变体 DEMIPL-MD，相比 DEMIPL 去除注意力损失。实验结果表明在 FMNIST-MIPL 和 SIVAL-MIPL 数据集上，与 DEMIPL-MD 相比，DEMIPL 实现了更高准确性，证明了注意力损失的有效性。

为了进一步研究注意力损失所获得的分数，作者可视化了整个训练过程中注意力分数的频率分布。在 epoch=10 时，DEMIPL 生成的注意力得分显示出更高的分散度，这表明 DEMIPL 比 DEMIPL MD 训练得更快。在 epoch=50 和 100 时，DEMIPL 计算的注意力得分倾向于向两个极端收敛：负示例的注意力得分趋向于 0，而正示例的注意力分数接近于 1。因此，所提出的注意力损失准确地将注意力分数分配给正示例和负示例，从而提高了分类的准确性。

▲ 表3. DEMIPL-MD和DEMIPL的分类精度对比

▲ 图2. MNIST-MIPL数据集上注意力分数的频率分布基于动量的消歧策略的有效性

为了进一步研究基于动量的消歧策略的有效性，作者引入了 DEMIPL-PR 和 DEMIPL-AV 两个变体，DEMIPL-PR 通过设置动量参数λ获得，对应于基于分类器当前输出逐步更新权重。DEMIPL-AV 通过设置动量参数λ获得，在整个训练过程中获得均匀的权重。

当假阳性标签的数量较少时，DEMIPL-PR 和 DEMIPL-AV 表现出与 DEMIPL 相似的性能。然而，随着假阳性标签数量的增加，DEMIPL 始终显著优于 DEMIPL-PR 和 DEMIPL-AV。这一结果表明，基于动量的消歧策略在处理更高级别的消歧复杂性时更稳健。此外，在各种场景中，DEMIPL-PR 通常优于DEMIPL-AV。

然而，当在 MNIST-MIPL 和 FMNIST-MIPL 数据集中时，DEMIPL-AV 性能超过 DEMIPL-PR。其原因是：在五种分类的背景下有三个假阳性标签代表了一种极端情况。DEMIPL-PR 可能会为假阳性标签分配更高的权重，而 DEMIPL-AV 会统一为每个候选标签分配权重，采用更保守的方法来避免为假阳性标记分配过多的权重。因此，与现有的消歧方法相比，基于动量的消歧策略表现出优越的鲁棒性。

▲ 图3. 不同r下的DEMIPL、DEMIPL-PR和DEMIPL-AV的性能对比

结论

本文提出了基于深度学习的多示例偏标记学习算法 DEMIPL，DEMIPL 利用消歧注意力机制将每个多示例包聚合为单个向量表示，该向量表示进一步与基于动量的消歧策略结合使用，以从候选标签集中确定真实标签。消歧注意力机制和基于动量的策略协同促进了示例空间和标签空间中的消歧。大量的实验结果表明，DEMIPL 的性能优于对比 MIPL 和 PLL 方法。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

【本文地址】

公司简介

联系我们

今日新闻

点击排行

实验室常用的仪器、试剂和: 说到实验室常用到的东西，主要就分为仪器、试剂和耗

不用再找了，全球10大实验: 01、赛默飞世尔科技（热电）Thermo Fisher Scientif

三代水柜的量产巅峰T-72坦: 作者：寞寒最近，西边闹腾挺大，本来小寞以为忙完这

通风柜跟实验室通风系统有: 说到通风柜跟实验室通风，不少人都纠结二者到底是不

集消毒杀菌、烘干收纳为一: 厨房是家里细菌较多的地方，潮湿的环境、没有完全密

实验室设备之全钢实验台如: 全钢实验台是实验室家具中较为重要的家具之一，很多

图片新闻

实验室药品柜的特性有哪些: 实验室药品柜是实验室家具的重要组成部分之一，主要

小学科学实验中有哪些教学: 计算机计算器一般打孔器打气筒仪器车显微镜

实验室各种仪器原理动图讲: 1.紫外分光光谱UV分析原理：吸收紫外光能量，引起分

高中化学常见仪器及实验装: 1、可加热仪器：2、计量仪器：（1）仪器A的名称：量

微生物操作主要设备和器具: 今天盘点一下微生物操作主要设备和器具，别嫌我啰嗦

浅谈通风柜使用基本常识: 　众所周知，通风柜功能中最主要的就是排气功能。在

NeurIPS 2023

NeurIPS 2023

今日新闻

点击排行

推荐新闻

图片新闻

专题文章