基于图像的目标检测与定位方法概述 |
您所在的位置:网站首页 › 判断污点存在的位置的方法 › 基于图像的目标检测与定位方法概述 |
目录
1. 目标检测与定位概念2. 目标检测与定位方法2.1 传统目标检测流程2.2 two-stage检测算法2.2.1 R-CNN2.2.2 two-stage其他算法2.2.2.1 Spatial Pyramid Pooling(空间金字塔池化)2.2.2.2 Fast-RCNN2.2.2.3 P11 Faster RCNN
2.3 One-Stage2.3.1 YOLO2.3.2 SSD
参考
本文简单介绍基于图像的目标检测与定位相关概念,R-CNN和YOLO等算法基本思想。本文为学习笔记,参考了许多优秀博文,如有错误还望指正。
1. 目标检测与定位概念
目标检测与定位的任务是判断图片中目标类别, 并且在图片中用边框标记出它的位置。 ![]() 1)区域选择 穷举策略:采用滑动窗口,且设置不同的大小,不同的长宽比对图像进行遍历,时间复杂度高; 2)特征提取 有SIFT、HOG等方法。即尺度不变特征转换(Scale-invariant feature transform,SIFT),是用于图像处理领域的一种描述子。这种描述具有尺度不变性,可在图像中检测出关键点,是一种局部特征描述子。方向梯度直方图(Histogram of Oriented Gradient, HOG)特征是一种在计算机视觉和图像处理中用来进行物体检测的特征描述子。HOG特征通过计算和统计图像局部区域的梯度方向直方图来构成特征。 形态多样性、光照变化多样性、背景多样性使得特征鲁棒性差; 3)分类器分类 主要有SVM、Adaboost等。支持向量机(support vector machines, SVM)是一种二分类模型,它的基本模型是定义在特征空间上的间隔最大的线性分类器。 2.2 two-stage检测算法 2.2.1 R-CNN该算法预先找出图中目标可能出现的位置,即候选区域(Region Proposal),然后利用卷积神经网络(Convolutional Neural Networks)进行分类。相对于传统的检测算法,不需要额外的训练分类器。 候选区域(Region Proposal)的选择利用了图像中的纹理、边缘、颜色等信息,可以保证在选取较少窗口(几千甚至几百)的情况下保持较高的召回率(Recall),召回率指的是在所有存在目标的区域样本中,被正确识别为候选区域的比例。 卷积层(Convolutional layer),卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网络能从低级特征中迭代提取更复杂的特征。在具体应用中,往往有多个卷积核。卷积核就是图像处理时,给定输入图像,输入图像中一个小区域中像素加权平均后成为输出图像中的每个对应像素,其中权值由一个函数定义,这个函数称为卷积核。可以认为,每个卷积核代表了一种图像模式,如果某个图像块与此卷积核卷积出的值大,则认为此图像块十分接近于此卷积核。 在普通的CNN机构中,输入图像的尺寸往往是固定的(比如224*224像素),输出则是一个固定维数的向量。SPP Net在普通的CNN结构中加入了ROI池化层(ROI Pooling),使得网络的输入图像可以是任意尺寸的,输出则不变,同样是一个固定维数的向量。 只对原图进行一次卷积计算,便得到整张图的卷积特征,然后找到每个候选框在特征上的映射,将此映射作为每个候选框的卷积特征输入到SPP layer和之后的层,完成特征提取工作。 R-CNN要对每个区域计算卷积,而SPPNet只需要计算一次卷积,从而节省了大量的计算时间,比R-CNN有一百倍左右的提速。 R-CNN有一些相当大的缺点,把这些缺点都改掉了,就成了Fast R-CNN。由于每一个候选框都要独自经过CNN,这使得花费的时间非常多。解决方案是共享卷积层,现在不是每一个候选框都当做输入进入CNN了,而是输入一张完整的图片,在第五个卷积层再得到每个候选框的特征。 流程为1.在图像中确定约1000-2000个候选框 (使用选择性搜索);2.对整张图片输进CNN,得到feature map;3.找到每个候选框在feature map上的映射,选出候选框;4.对候选框中提取出的特征,使用分类器判别是否属于一个特定类;5.对于属于某一类别的候选框,用回归器进一步调整其位置。 2.2.2.3 P11 Faster RCNNFast R-CNN存在的问题:选择性搜索,找出所有的候选框,这个也非常耗时。能不能找出一个更加高效的方法来求出这些候选框呢?解决方案为加入一个提取边缘的神经网络,也就说找到候选框的工作也交给神经网络来做了。 所以,在Fast R-CNN中引入Region Proposal Network(RPN)替代Selective Search。 Faster R-CNN的方法目前是主流的目标检测方法,但是速度上并不能满足实时的要求。YOLO一类的方法慢慢显现出其重要性,这类方法使用了回归的思想,利用整张图作为网络的输入,直接在图像的多个位置上回归出这个位置的目标边框,以及目标所属的类别。 YOLO的目标检测的流程图如下, YOLO存在的问题在于使用整图特征在7*7的粗糙网格内回归对目标的定位并不是很精准。那是不是可以结合region proposal的思想实现精准一些的定位?SSD结合YOLO的回归思想以及Faster R-CNN的anchor机制做到了这点。Anchor指的是框定目标的方框。
[1] https://easyai.tech/ai-definition/cnn/ [2] https://blog.csdn.net/l2181265/article/details/88072497 [3] https://blog.csdn.net/qq_36396104/article/details/85230012 [4] https://cloud.tencent.com/developer/news/281788 [5] https://blog.csdn.net/qq_25762497/article/details/51052861 [6] https://zhuanlan.zhihu.com/p/33544892 |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |