图像金字塔，原理、实现及应用

2024-01-28 15:03| 来源: 网络整理| 查看: 265

什么是图像金字塔

图像金字塔是对图像的一种多尺度表达，将各个尺度的图像按照分辨率从小到大，依次从上到下排列，就会形成类似金字塔的结构，因此称为图像金字塔。

常见的图像金字塔有两类，一种是高斯金字塔（Gaussian Pyramid），另一种的拉普拉斯金字塔（Laplacian Pyramid）。

一般在图像处理中，高斯代表“模糊”，而拉普拉斯代表“差异”。

高斯金字塔通过不断对图像进行模糊且下采样而获得，下采样的因子一般是2倍。随着分辨率越来越小，图像会越来越模糊，高斯金字塔的最底层就是原始图像本身。

拉普拉斯金字塔在高斯金字塔的基础上，对所有层进行上采样（一般也是2倍上采样），然后使用原高斯金字塔结果减去通分辨率的上采样结果得到每一层差异，即为拉普拉斯金字塔。注意拉普拉斯金字塔中分辨率最小的图片等同于高斯金字塔通分辨率图片，其他层均为“求差”得到的结果。另外还需注意图像先下采样再上采样后不能复原，因为下采样会产生信息缺失，简单上采样无法弥补回这些信息缺失。

为什么要使用图像金字塔

图像金字塔有很多应用，特别是面对多尺度任务时尤为有用。比如在目标检测任务中，检测对象在图像中的大小往往非常多变，在单一图像尺度下进行滑框寻找往往不能覆盖所有目标，所以就需要在多个尺度下进行滑框，传统的目标检测和基于深度学习的目标检测均是如此。

拉普拉斯金字塔中，大部分的数值接近于0，所以一定程度上可以用于图像压缩。拉普拉斯金字塔还常用于图像融合，基于拉普拉斯金字塔的图像融合，融合边界的过渡往往会相对自然一些。

金字塔的构建基础函数

模糊（卷积）在金字塔的构建中，上下采样均需要做模糊，下采样中做模糊是为了防止锯齿现象，上采样中做模糊是因为图像金字塔分解中的上采样比较“特别”，不做模糊不行。这里一般使用一个固定的5x5卷积核做模糊，也可以1x5的卷积核，使用行列分离的卷积方法做模糊。

下采样先对图像做模糊，然后直接每隔一个像素抽一个数据即可实现2倍下采样。

上采样将每个像素扩展成2x2的小区域，原像素放在左上角，其他3个位置补0，然后将卷积核乘以4，再对扩展后的图像做模糊即可。上采样还需注意一个关于数据类型的细节：拉普拉斯金字塔才需要用到上采样，生成拉普拉斯金字塔的过程中需要求差操作，并且拉普拉斯金字塔常常跟图像重建会扯上关系，而uint8在求差或者重建时会引起数据截断误差，所以有可能需要用到非uint8数据类型来作为输出。

特别注意：通过上面描述可以发现，在图像金字塔构建时，上下采样的操作非常简单粗暴，不需要用到常规resize时的图像插值。

代码如下：文件起名resample.py

# -*- coding: utf-8 -*- import cv2 import numpy as np def blur(image, kernel_scale=1.0): """ Blur image using a fixed kernel. Kernel scale can be set. Parameters ---------- image: image data read by opencv. kernel_scale: the scale factor of kernel. """ blur_kernel = np.array( [[1, 4, 6, 4, 1], [4, 16, 24, 16, 4], [6, 24, 36, 24, 6], [4, 16, 24, 16, 4], [1, 4, 6, 4, 1]]) / 256. blurred_image = cv2.filter2D(image, ddepth=-1, kernel=blur_kernel * kernel_scale, borderType=cv2.BORDER_REFLECT101) return blurred_image def pyramid_down(image): """ Down sample an image by 2x. Parameters ---------- image: image data read by opencv. """ blurred_image = blur(image) image_down = blurred_image[::2, ::2] return image_down def pyramid_up(image, dst_size=None, dtype=np.uint8): """ Up sample an image by 2x. The output size and data type can be set. Parameters ---------- image: image data read by opencv. dst_size: the output size. Note that the difference of dst_size and 2*image_size should be

【本文地址】

公司简介

联系我们