YOLO

您所在的位置:网站首页 语言实验室英语单词怎么读 YOLO

YOLO

2024-07-13 16:45:03| 来源: 网络整理| 查看: 265

YOLO-World是一种创新的实时开放词汇对象检测技术,它通过视觉-语言建模和大规模数据集上的预训练,提升了YOLO系列检测器的能力,使其能够在零样本情况下高效检测广泛的对象。这项技术特别提出了一个新的可重参数化的视觉-语言路径聚合网络(RepVL-PAN)和区域-文本对比损失,以促进视觉与语言信息之间的交互。YOLO-World在LVIS数据集上实现了35.4的AP和52.0 FPS的处理速度,以其准确性和速度超越了多个现有的最先进方法。

技术细节

模型架构:YOLO-World基于YOLOv8架构开发,采用Darknet作为图像编码器,以及一个用于多尺度特征金字塔的路径聚合网络(PAN)和一个用于边界框回归和对象嵌入的头部。

文本编码器:利用由CLIP预训练的Transformer文本编码器来提取文本嵌入,这比纯文本语言编码器具有更好的视觉-语义能力。

RepVL-PAN:提出了文本引导的CSPLayer(T-CSPLayer)和图像池化注意力(I-Pooling Attention)来增强图像特征和文本特征之间的交互,从而提升开放词汇能力。

预训练方案:通过大规模数据集上的区域-文本对比学习进行预训练,将检测数据、定位数据和图像-文本数据统一为区域-文本对,强化了模型对大词汇量检测的能力。

与现有技术的改进

性能提升:在LVIS数据集上,YOLO-World实现了35.4的平均精度(AP),这是通过引入RepVL-PAN和区域-文本对比损失实现的,超过了多个先进的开放词汇对象检测模型。

实时处理能力:达到了52.0 FPS的处理速度,在保证高准确性的同时,也满足了实时处理的需求。

RepVL-PAN的引入:通过结合文本引导的CSPLayer和图像池化注意力机制,增强了模型对视觉和语言信息的整合能力,从而提高了零样本检测的准确性。

零样本检测能力:通过视觉-语言建模和大规模数据集上的预训练,YOLO-World能够在没有见过具体样本的情况下,检测出广泛的对象类别

区域-文本对比损失:这种新颖的损失函数促进了更加紧密的图像区域与相关文本之间的对齐,提高了模型在大规模数据集上的泛化能力和开放词汇检测的性能。

大规模预训练:利用大规模的图像-文本数据进行预训练,使模型能够理解和处理更广泛的对象和场景,增强了其开放词汇能力。

论文:https://arxiv.org/abs/2401.17270

github:https://github.com/AILab-CVC/YOLO-World

huggingface: https://huggingface.co/spaces/stevengrove/YOLO-World



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭