亚像素数值极值检测算法总结

动机

在计算机视觉领域,经常需要检测极值位置,比如SIFT关键点检测、模板匹配获得最大响应位置、统计直方图峰值位置、边缘检测等等,有时只需要像素精度就可以,有时则需要亚像素精度。本文尝试总结几种常用的一维离散数据极值检测方法,几个算法主要来自论文《A Comparison of Algorithms for Subpixel Peak Detection》,加上自己的理解和推导。

问题定义

给定如下离散值,求其极值位置。可知125为观察极值。

$$[60, 80, 100, 120, 125, 105, 70, 55]$$

如果这些离散值是从某个分布$f$中等间距采样获得,其真正的极值位置应位于120和125之间。

下面给出形式化的定义:给定一组离散值,令$x$为观测到的极值点位置,其值为$f(x)$,其左右相邻位置的值为$f(x-1)$和$f(x+1)$,真正的极值点位置为$x+\delta$,令$\hat{\delta}$为$\delta$的估计值。

算法

假设$x$的邻域可通过某个模型进行近似,如高斯近似、抛物线近似,则可以利用$x$的邻域信息根据模型估计出极值。使用的模型不同就有不同的算法,具体如下。

高斯近似

一维高斯函数如下:

$$y = y_{max} \cdot exp(-\frac{(x-\mu)^2}{2\sigma^2})$$
当$y_{max}=\frac{1}{\sqrt{2\sigma}\pi}$时为标准高斯函数,形如

标准高斯函数
标准高斯函数

假设$x$的邻域可用高斯近似,用$(x, f(x))$、$(x-1, f(x-1))$、$(x+1, f(x+1))$三点对高斯函数进行拟合,获得模型参数$\mu$即为峰值位置,$\hat{\delta}=\mu - x$。将三点带入上面的高斯函数两边同时取对数求得:

$$\hat{\delta} = \frac{1}{2} \frac{\ln(f(x-1)) - \ln(f(x+1))}{\ln(f(x-1)) - 2\ln(f(x)) + \ln(f(x+1))}$$

下面可以看到,高斯近似相当于取对数后的抛物线近似

抛物线近似

使用抛物线近似$x$的局部,可以将$(x, f(x))$、$(x-1, f(x-1))$、$(x+1, f(x+1))$三点带入$y=a(x-b)^2+c$求参数$b$即为估计的极值位置,也可采用泰勒展开牛顿法)来求极值。泰勒公式实际上是一种利用高阶导数通过多项式近似函数的方法,下面的图示可直观理解这种近似,图示为通过泰勒公式近似原点附近的正弦曲线:

泰勒近似正弦曲线
泰勒近似正弦曲线

泰勒近似$x$附近,如只取到二阶则为抛物线近似。假设高阶可导,极值为$f(x+\delta)$,则根据泰勒公式,

$$f(x+\delta) = f(x) + f’(x)\delta + \frac{1}{2} f’’(x)\delta^2 + O(\delta^3)$$

极值处导数为0,这里$x$为常数$\delta$为变量,两边同时对$\delta$求导,忽略高阶项可得

$$f’(x+\hat{\delta}) = f’(x) + f’’(x)\hat{\delta} = 0$$

使用一阶微分和二阶微分近似$f’(x)$和$f’’(x)$得

$$\hat{\delta} = - \frac{f’(x)}{f’’(x)} = - \frac{(f(x+1)-f(x-1))/2}{(f(x+1)-f(x))-(f(x) - f(x-1))}= \frac{1}{2}\frac{f(x-1)-f(x+1)}{f(x+1)-2f(x)+ f(x-1)}$$
与带入抛物线求参数的结果是一致的,加上对数则与高斯近似一致。

质心算法

In physics, the center of mass of a distribution of mass in space is the unique point where the weighted relative position of the distributed mass sums to zero, or the point where if a force is applied it moves in the direction of the force without rotating.——Center of mass wiki

质心
质心

若将$x$、$x-1$、$x+1$看成质点,将$f(x)$、$f(x-1)$、$f(x+1)$看成质点的质量,则可以把质心作为极值的估计。根据质点相对质心位置的质量加权和为零,可求得质心位置。令$R$为质心坐标,$m$和$r$分别为质点质量和坐标,则$n$个质点的质心满足

$$\sum_{i=1}^n m_i(r_i - R) = 0$$

令$M = \sum_{i=1}^n m_i$,质心坐标为

$$R = \frac{1}{M} \sum_{i=1}^n m_ir_i$$

带入得

$$x + \hat{\delta} = \frac{(x-1)f(x-1)+xf(x)+(x+1)f(x+1)}{f(x-1)+f(x)+f(x+1)}$$

$$\hat{\delta} = \frac{f(x+1)-f(x-1)}{f(x-1)+f(x)+f(x+1)}$$

以上考虑的是3质点系统的质心,还可考虑5质点、7质点等,甚至考虑所有点。

线性插值

这个模型假设在极值两侧是线性增长和线性下降的,且上升和下降的速度相同,即$y=kx+b$,上升侧$k>0$,下降侧$k<0$,两者绝对值相同,可以利用这个性质求解极值位置。

若$f(x+1)>f(x-1)$则极值位于$(x, x+1)$之间,可列等式

$$\frac{f(x) - f(x-1)}{x-(x-1)} = \frac{f(x+\delta)-f(x)}{x+\delta - x} = \frac{f(x+\delta)-f(x+1)}{x+1-(x+\delta)}$$

解得

$$\hat{\delta}=\frac{1}{2}\frac{f(x+1)-f(x-1)}{f(x)-f(x-1)}$$

同理,若$f(x-1)>f(x+1)$求得

$$\hat{\delta}=\frac{1}{2}\frac{f(x+1)-f(x-1)}{f(x)-f(x+1)}$$

数值微分滤波

这个方法是利用极值处导数为0的性质,在微分滤波结果上插值得到导数为0的位置,因已知极值点在$x$附近,因此只需在$x$附近做微分和插值即可。插值时取极值点两侧正负值连线的过零点作为极值点的估计,如下图所示

Linear  interpolation of the peak position
Linear interpolation of the peak position

论文Real-time numerical peak detector中定义了4阶和8阶线性滤波器$[1, 1, 0, -1, -1]$和$[1,1,1,1,0,-1,-1,-1,-1]$,对应的函数形式为

$$g_4(x)=f(x-2)+f(x-1)-f(x+1)-f(x+2)$$

$$g_8(x)=f(x-4)+f(x-3)+f(x-2)+f(x-1) \
-f(x+1)-f(x+2)-f(x+3)-f(x+4)$$

2阶形式为$g_2(x) = f(x-1) -f(x+1)$,这些滤波器的表现与数值微分滤波器相似。

当$f(x+1)>f(x-1)$时,极值点位于$(x, x+1)$之间,$g(x)<0$,$g(x+1)>0$,极值点位置为$g(x)$与$g(x+1)$连线的过零点,通过斜率求得

$$\hat{\delta} = \frac{g(x)}{g(x+1)-g(x)}$$

若$f(x-1)>f(x+1)$,则

$$\hat{\delta} = \frac{g(x-1)}{g(x-1)-g(x)} - 1$$

总结

这些数值极值检测方法均是先获取观测极值$x$及其邻域信息,然后综合邻域信息在各自的模型假设下通过插值估计出极值位置。若能知道数值来自的真实分布,则直接拟合真实分布然后求极值即可,但往往我们并不知道真实的分布是什么,即使知道真实分布,有时为了快速计算,也会采取插值的方式来估计极值,毕竟偏差可接受效果足够好就可以了。应用时,为了抗噪可对数据先平滑然后求极值,具体采用何种方法可在准确和速度间权衡——所用模型与真实分布越相近自然越准确,如果实在不知道怎么选,就实践对比吧(因为我也不知道),毕竟伟大领袖教导过我们——实践是检验真理的唯一标准

参考

个人博客地址:亚像素数值极值检测算法总结

0%