端侧实时运行、3B媲美7B!美团、浙大等提出MobileVLM V2:更快、更强的端侧视觉语言模型...

您所在的位置:网站首页 美团blog 端侧实时运行、3B媲美7B!美团、浙大等提出MobileVLM V2:更快、更强的端侧视觉语言模型...

端侧实时运行、3B媲美7B!美团、浙大等提出MobileVLM V2:更快、更强的端侧视觉语言模型...

2024-07-11 14:12:11| 来源: 网络整理| 查看: 265

70fdeb82a1e21ee3b685546a9938f5ea.gif

美团、浙大等于近日推出了 MobileVLM V2,其中包含参数量 1.7B、3B、以及 7B 的一系列视觉-语言模型。代码与模型以及适配的端侧推理方案都已开源。

492a42873b896db865acfbbf082b0aac.png

论文地址:

https://arxiv.org/abs/2402.03766

模型地址:

https://huggingface.co/mtgv

代码地址:

https://github.com/Meituan-AutoML/MobileVLM

大模型涌向移动端的浪潮愈演愈烈,作为第一个针对端侧的视觉语言模型的工作,归功于 MobileVLM 在小参数量下的强大性能和完善的端侧实时运行端侧推理方案,MobileVLM 一经推出就受到了国内外开源社区的广泛关注。

在延续前作优势的基础上,MobileVLM V2 进行了显著的改进,使用了新颖的架构设计、针对移动端 VLM 量身定制训练方案、并丰富了高质量数据,使 MobileVLM V2 的性能表现更上一层楼的同时,也为业界对于端侧视觉语言模型解决方案提供了新的思路。

具体而言,与参数量更大的 3B VLM 相比,MobileVLM V2 1.7B 在标准 VLM 基准测试中达到了同等甚至更好的的性能;特别是 MobileVLM V2 3B 模型在某些标准测试基准上甚至优于参数规模 7B 甚至更大的 VLM。

a390d44677a0b466677a011368e2c37b.png

简介

视觉-语言模型(VLM)已成为当今人工智能领域的一个研究热点。通过融合大型语言模型(LLM)和多模态功能,视觉-语言模型展现出前所未有的多功能性。例如,Gemini 和 GPT-4V 等专有模型在多种任务中展示了卓越的性能。尽管 VLM 表现出色,但如何将其部署到如移动设备、自动驾驶汽车和嵌入式人工智能系统等实际应用中,依然面临着挑战。

最近,MobileVLM 在探索移动端硬件架构导向的小规模 VLMs 的能力方面走在了前列。MoE-LLaVA 采用了 mixture-of-experts 方法,显著提升了小型模型的性能,使其超越了许多大型模型。最新研究显示,VLMs 正朝着扩展模态、优化训练流程、高效架构和高质量训练数据集的方向发展。

本文基于 MobileVLM 进行了大幅改进,主要集中在三个方面:首先是训练数据的利用:本文通过使用 ShareGPT4V 收集的 120 万对高质量图像-文本配对数据,有效地对齐了视觉-语言特征。这一数据集的引入提高了数据的多样性,并增强了模型遵循指令的能力,同时纳入了更多学术任务,例如 ScienceQA、TextVQA、SBU 等。

其次是训练策略的探索:在训练策略方面,该方法在预训练和指令微调阶段对投影网络和语言模型的所有参数进行了训练,这种做法在充分利用高质量数据潜力方面显示出了有效性。

轻量级高性能投影网络的更新:引入了一个更加精简而强大的轻量级投影机制并通过该机制连接视觉和语言模型。通过改进图像 token 的表示、增强了位置信息的手段,MobileVLM V2 能够在几乎不降低性能的情况下显著减少语言模型所需的输入图像 token 的数量。本文的主要贡献如下:

1. 本文探索并评估了增加小型视觉-语言模型训练数据的性能,显著缩小了如 MobileVLM 这样的小型 VLMs 与大参数量视觉-语言模型之间的性能差距。

2. 本文深入研究了对于移动端场景下更友好的训练策略,并设计了一种新颖的训练方案,以充分利用更多高质量多模态数据的潜力。本文提出了一个非常轻量级的投影网络,以显著减少视觉 token 的数量,同时对性能只有轻微的影响。

3. 本文提出的方法在多个视觉-语言基准测试中取得了性能与推理速度之间的最佳平衡。通过将 MobileVLM V2 模型的参数规模扩展到70亿,本文的方法大幅超越了之前最先进的模型。

ea7249b8920342a5e20565186efa6d1d.png

76b0f0e6d6783cb68187c8131b800228.png

MobileVLM V2

2.1 总体架构设计

本文的方法延续了与 MobileVLM 相似的框架。如图 2 所示,MobileVLM V2



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭