YOLO

2024-03-21 16:34| 来源: 网络整理| 查看: 265

YOLO-World是一种创新的实时开放词汇对象检测技术，它通过视觉-语言建模和大规模数据集上的预训练，提升了YOLO系列检测器的能力，使其能够在零样本情况下高效检测广泛的对象。这项技术特别提出了一个新的可重参数化的视觉-语言路径聚合网络（RepVL-PAN）和区域-文本对比损失，以促进视觉与语言信息之间的交互。YOLO-World在LVIS数据集上实现了35.4的AP和52.0 FPS的处理速度，以其准确性和速度超越了多个现有的最先进方法。

技术细节

模型架构：YOLO-World基于YOLOv8架构开发，采用Darknet作为图像编码器，以及一个用于多尺度特征金字塔的路径聚合网络（PAN）和一个用于边界框回归和对象嵌入的头部。

文本编码器：利用由CLIP预训练的Transformer文本编码器来提取文本嵌入，这比纯文本语言编码器具有更好的视觉-语义能力。

RepVL-PAN：提出了文本引导的CSPLayer（T-CSPLayer）和图像池化注意力（I-Pooling Attention）来增强图像特征和文本特征之间的交互，从而提升开放词汇能力。

预训练方案：通过大规模数据集上的区域-文本对比学习进行预训练，将检测数据、定位数据和图像-文本数据统一为区域-文本对，强化了模型对大词汇量检测的能力。

与现有技术的改进

性能提升：在LVIS数据集上，YOLO-World实现了35.4的平均精度（AP），这是通过引入RepVL-PAN和区域-文本对比损失实现的，超过了多个先进的开放词汇对象检测模型。

实时处理能力：达到了52.0 FPS的处理速度，在保证高准确性的同时，也满足了实时处理的需求。

RepVL-PAN的引入：通过结合文本引导的CSPLayer和图像池化注意力机制，增强了模型对视觉和语言信息的整合能力，从而提高了零样本检测的准确性。

零样本检测能力：通过视觉-语言建模和大规模数据集上的预训练，YOLO-World能够在没有见过具体样本的情况下，检测出广泛的对象类别

区域-文本对比损失：这种新颖的损失函数促进了更加紧密的图像区域与相关文本之间的对齐，提高了模型在大规模数据集上的泛化能力和开放词汇检测的性能。

大规模预训练：利用大规模的图像-文本数据进行预训练，使模型能够理解和处理更广泛的对象和场景，增强了其开放词汇能力。

论文：https://arxiv.org/abs/2401.17270

github：https://github.com/AILab-CVC/YOLO-World

huggingface: https://huggingface.co/spaces/stevengrove/YOLO-World

【本文地址】

公司简介

联系我们