大模型来了,自动驾驶还远吗?关键看“眼睛” 您所在的位置:网站首页 市场定位示意图片 大模型来了,自动驾驶还远吗?关键看“眼睛”

大模型来了,自动驾驶还远吗?关键看“眼睛”

#大模型来了,自动驾驶还远吗?关键看“眼睛”| 来源: 网络整理| 查看: 265

多传感器融合方法

单模态目标检测往往受限于传感器的特性,目前自动驾驶领域中广泛采用多模态,即多传感器融合的技术方案。基于Frustum视锥的检测器F-PointNet,首先在2D图像上提取2D框,以此过滤出视锥区域的点云,再利用PointNet网络进行分类和位置预测,此方法依赖2D检测器的精度,并且速度较慢。

多传感器融合(MV3D)利用了图像、点云俯视图,以及点云平视距离图(Range Image)作为输入,分别对三种视图提取特征,并在俯视图上生成3D Proposal,利用3D Proposal提取对应的其他模态的特征图,最终将三种模态的特征融合,在融合后的特征层预测目标位置。其网络架构如图11所示。

MV3D类方法在特征融合阶段各个模态的维度不尽相同,如图像特征为二维特征,而点云特征为三维,使得特征融合较为困难。近年来,基于BEV视图的融合方案逐渐流行,其基本思想是将各个模态的特征转换到BEV空间进行融合,BEV融合方法在多传感器融合方面占据了主导地位。目前依据网络架构不同,BEV融合方法主要可分为两类,一类是基于DETR-based方法,代表工作如FUTR3D等,图12展示了FUTR3D的网路架构;另一类是BEV-based方法如BEVFusio等,图13给出了BEVFusion的网络架构。

图12:FUTR3D网络架构[10]图13:BEVFusion网络架构[11]

目标跟踪

在自动驾驶感知任务中,我们除了需要预测目标的位置、分类等信息外,还需要给出目标的速度和运动方向,即对目标进行连续的跟踪。当前目标跟踪主要有两种技术方案,一种是以卡尔曼滤波技术为基础,首先对目标进行关联,再利用卡尔曼滤波器预测目标的速度方向。另一种是以深度学习网络为基础,通过连续帧时序网络来预测目标的速度、方向。

感知技术的挑战与发展趋势

近年来目标检测算法飞速发展,精度获得了极大提升,但仍然面对诸多挑战,包括长尾问题、如何应对极端天气等。

长尾问题

感知任务是典型的长尾问题,这已成为业界共识。如何挖掘长尾问题案例,并持续提升技术能力是感知领域关注的重点。近年来业界广泛认同通过数据闭环的方式来解决长尾问题。基于学习的方法依赖数据的输入,而现实世界复杂多变,很难穷举出所有场景,这就依赖高效的数据闭环体系,有效挖掘长尾场景,积累足够的高价值场景数据,并能够快速完成模型的迭代更新,图14展示了一种非常极端的场景,即带着锥桶移动的货车。

极端天气的挑战

自动驾驶感知遇到的另一大挑战是极端天气。无人车要想不间断运营,不可避免会遇到雨、雪、雾等极端天气,而极端天气会对传感器数据造成极大影响,从而影响感知的准确性,甚至造成自动驾驶不可用。感知必须解决极端天气带来的挑战,从而实现全天候运行能力。夜间大雨天可能会造成摄像头成像模糊,如图15所示,此时从图像获得稳定感知结果异常困难。而激光雷达在极端天气下容易产生大量噪声,如图16所示,此时如何避免漏检和误检变得异常棘手。

感知技术的两大发展方向

从近年来业界的发展来看,感知技术的演进主要朝着两个方向发展。一方面是以搭建高效的数据闭环体系为主,解决长尾问题,通过云端大模型、大数据实现高效数据挖掘与模型迭代。另一方面不断发展车端模型架构,用更复杂的模型架构来提升感知精度,这一方面随着Transfomer架构所展现出来的强大能力,以基于Transformer的BEV融合感知为代表,涌现出了不少优秀的工作。

驭势感知技术实践

多模态融合感知

在多模态融合感知方面,我们自研了图像、点云融合网络。图17给出了网络的示意图。我们以长时序点云和图像数据作为输入,分别利用2D和3D特征提取网络对应模态的特征,并在特征级进行融合。网络首先会在点云和图像特征上分别预测2D和3D目标位置及分类信息,最后通过将点云投影到图像上进行位置关联、深度搜索以及3D位置修正等方法,最终输出融合的3D目标。

该融合网络的特点是轻量,可在嵌入式平台达到实时性能。我们充分利用了大规模的预训练模型来提升图像分支的能力。多模态融合感知网络往往需要同步的点云、图像数据,而此类数据往往比较稀缺,对数据同步精度要求较高,联合标注也更加昂贵,周期更长。自研网络在此方面显示出了非常高的灵活性。在量化评估中发现,该融合策略对感知距离和分类精度较纯点云网络提升非常明显,并且在雨天等极端天气场景下有非常强的鲁棒性,图18中展示了我们利用该网络在低线束雷达配置下实现了140+米的稳定感知。

视觉BEV感知

在BEV感知方面,我们自研了基于多相机的纯视觉BEV感知网络,其架构如图19所示。我们的框架以长时序、多视角相机捕捉到的图片为输入。时序多帧、多视角的图片会由图像基础网络,例如ResNet生成多尺度的特征。整个框架是基于query查询向量,经由Transformer网络完成特征收集。query向量会经过self-attention和cross-attention来更新特征,经过多层解码器后,更新后的query会被用来预测最终的3D目标类别、位置、大小、旋转以及速度信息。我们设计了时空对齐且计算稀疏的cross-attention模块,使得我们的网络取得先进精度的同时又具备实时性的工业部署潜力。该模型在nuScenes视觉3D目标检测排行榜中取得第三名的成绩(2022),图20和图21分别展示了该网络在Nuscenes数据集的评估结果及其可视化结果。

图21:驭势自研BEV网络在Nuscenes数据集预测结果

全景分割

以往基于点云的实例分割任务主要分为proposal-base和proposal-free方法。proposal-based方法依赖于目标检测器的性能,而proposal-free的方法因为采用启发式的聚类方法,耗时比较高。因此,我们提出了一种新颖的Panoptic-PHNet点云全景分割网络,该网络预测实例的中心点,而无需object-level任务的学习,其网络架构如图22所示。该工作在nuScenes的全景分割挑战赛取得第一名的成绩,论文入选CVPR 2022。在取得高精度的同时,该网络推理速度达到数十FPS,满足了实时性的要求,图23给出了该网络与其他公开方法的对比结果。

数据闭环实践

数据闭环的目的是形成场景数据到算法的闭环,达到快速提升感知性能的目的。其涉及到多个方面,例如如何挖掘高价值场景数据,如何提升标注效率,以及模型的快速部署验证等。围绕这个目标,驭势数据闭环体系可概括为以下几个方面:基于主动学习的数据挖掘、自动标注、半监督训练、云端训练部署体系等几个方面,图24总结了数据闭环体系的基本框架:

基于主动学习的数据挖掘

数据闭环的首要任务是如何发现corner case场景。为解决这个问题,我们提出了基于主动学习的方法来识别系统未很好理解的场景。其基本思想是用不确定性来衡量模型的检测效果,筛选出不确定性高的目标场景。我们从不确定度和类别均衡两个维度来衡量场景的不确定性。其中不确定度包含类别的不确定度以及位置的不确定度。

图25和图26展示了利用主动学习系统筛选出来的异常数据帧:

图25:主动学习数据挖掘:目标框错误图26:主动学习数据挖掘:低得分目标

自动标注

点云数据的标注成本非常昂贵,同时标注周期也很长,影响模型的迭代效率。为此,我们提出了一种自动化的标注方法,使得标注效率成倍提升,大大缩短了模型迭代周期,同时节省了成本。其自动标注流程如图27所示。

首先,我们利用时序大模型来寻找目标框,完成预标注;

其次,利用贴边算法来修正模型预标注框;

最后,标注员对预标注结果进行检查、修正,形成最终的标注结果。

通过效率评估,我们发现自动标注可提升标注效率达到人工标注的5-10倍,同时得到近似的模型精度。标注效率得到显著提升,图28展示了自动标注的效果。

半监督训练

自动、半自动标注工具能够显著提升标注效率,但大规模的数据标注仍然需要消耗不小的人力成本。因此,我们也在探索半监督、无监督的训练方法。我们期望能够利用少量的数据标注,对模型进行半监督的训练,同时模型精度能够达到全量数据标注的水平。图29描述了半监督训练的框架。

第一步,我们标注少量的数据,并用该少量标注数据训练Student网络和Senior Teacher网络。

第二步,用少量数据迭代后的Student2网络在Teacher网络,以及Sensor Teacher的监督下使用未标注的数据进行半监督训练。

我们通过量化分析,发现通过半监督训练的网络精度能够获得和全量数据标注差不多的效果。并且通过半监督方法,可以进一步降低标注成本。

图30红色框为标注Ground Truth结果,绿色框为经过半监督训练后预测的结果,可以看到半监督训练的预测结果基本上和Ground Truth一致。

长尾问题案例

在开放道路中不可避免地遇到各种各样的corner case,洒水车便是其中之一。洒水车产生的大量水雾在激光雷达点云上会产生大量的噪点,同时也会对摄像头成像产生巨大干扰。我们通过数据闭环积累了大量数据,通过多传感器融合、以及数据增强手段有效解决了此类问题。图31展示了当无人车穿越洒水车的场景,感知系统稳定感知到了左前方的洒水车,并成功穿越了水雾。

此外,极端天气下的训练数据往往难于获取。为此,我们提出了一种数据增强策略,来模拟雨、雪、雾天的数据。图32是在正常点云数据中引入数据增强后模拟的雨天数据。

经过量化评估发现,在引入极端天气数据增强后,模型在极端天气数据上提升非常明显。如图33所示,在雨天数据上,引入数据增强后模型可正确检测出目标(红色框),而未引入数据增强模型则发生漏检(黄色框)。

总结与展望

自动驾驶感知技术无论是纯视觉技术路线还是多传感器融合技术路线都在朝着特征前融合、端到端大模型以及打造高效数据闭环的方向发展,也取得了长足进步。相信随着深度学习技术的发展以及算力不断提升,感知问题会得到更好的解决,推动自动驾驶向全天候、全无人的目标迈进。

参考文献

[1] You Only Look Once: Unified, Real-Time Object Detection

[2] Fast R-CNN

[3] FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

[4] Categorical Depth Distribution Network for Monocular 3D Object Detection

[5] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries

[6] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

[7] PointPillars: Fast Encoders for Object Detection from Point Clouds

[8] Center-based 3D Object Detection and Tracking

[9] Multi-View 3D Object Detection Network for Autonomous Driving

[10] FUTR3D: A Unified Sensor Fusion Framework for 3D Detection

[11] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation

[12] Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M&t=2900s

[13]BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection

作者介绍

耿秀军,驭势科技感知算法研发主管。2011年在电子科技大学获得计算机硕士学位。之后在英特尔亚太研发中心从事GPU图形系统研发工作。于2016年加入驭势科技至今,负责感知算法的研发、架构设计与优化工作,参与驭势科技多个无人驾驶项目的落地,拥有多项自动驾驶相关专利。

李金珂,驭势科技自动驾驶感知算法架构师,负责环境感知、目标检测、跟踪等高性能感知算法开发。曾开发全景分割算法Panoptic-PHNet获nuScenes panoptic challenge冠军,并于计算机视觉会议CVPR发表论文。

张丹,博士,2016年加入驭势科技,目前任定位感知部门总监。带领团队对自动驾驶定位和感知方面的算法、框架、产品及基础设施进行了持续创新和优化,为驭势自动驾驶产品在全场景、全天候、真无人的商业化落地奠定了坚实基础。他拥有几十项国内外专利。

彭进展,驭势科技联合创始人,首席架构师,专注于为自动驾驶提供最优的系统解决方案,让自动驾驶实用、安全和可靠。曾是英特尔Edison芯片平台首席系统架构师和英特尔中国研究院机器人实验室主任,目前致力于无人驾驶商业化。驭势科技已在机场物流、工厂物流、微公交等多个无人驾驶领域进入商业化运营。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有