知识就是力量

当前位置:首页 > 技巧


论文翻译:目标检测20年回顾(2)———传统检测方法简介

2022-10-09

2 目标检测 20年 目标检测 20年

在本节中,我们将从多个方面回顾对象检测的历史,包括里程碑检测器、对象检测数据集、指标以及关键技术的演变。

在本章中,我们将以多种方式回顾对象检测的历史,包括里程碑检测器、对象检测数据集、技巧和关键技术的进步。

2.1 目标检测技术路线图

在过去的二十年中,人们普遍认为,物体检测的进展总体上经历了两个历史时期:“传统物体检测时期(2014年以前)”和“基于深度学习的检测时期(2014年以后)”,如图2所示。

在过去的20年中,一个被广泛接受的观点是,靶向检测的发展大致经历了两个历史时期:“传统检测期(2014年之前)”和“基于深度学习的检测期(2014年以后)”,如图2所示。

目标检测 方法

粗略地解释一下,对于深度学习,

2012年是一个关键点,深度学习模型AlexNet在当年的imagenet比赛中脱颖而出,首次吸引了更广泛的关注;然后,在2014年,RCNN模型首次将深度学习引入对象检测,迎来了一个盛开的花朵时代。

里程碑:传统探测器 里程碑:传统探测器

如果我们把今天的物体检测看作是深度学习力量下的一种技术美学,那么倒车20年,我们将见证“冷武器时代的智慧”。大多数早期的物体检测算法都是基于手工制作的特征构建的。由于当时缺乏有效的图像表示,人们别无选择,只能设计复杂的特征表示,并用各种加速技能来耗尽有限的计算资源。

如果物体检测今天被视为深度学习背景下的一种技术美学,那么回到20年后,我们将见证“冷武器时代的智慧”。早期的目标检测算法大多建立在手动功能上。由于当时缺乏有效的图像表示,研究人员别无选择,只能设计复杂的特征表达式,并使用各种加速技术来耗尽有限的计算资源。

• 中提琴琼斯探测器

18年前,P. Viola和M. Jones首次实现了对人脸的实时检测,没有任何限制(例如,肤色分割)[10,11]。该探测器运行在700MHz奔腾III CPU上,在相当的检测精度下,比当时的任何其他算法快数十甚至数百倍。检测算法后来被称为“Viola-Jones(VJ)探测器”,本文由作者的名字给出,以纪念他们的重大贡献。

18年前,P. Viola和M. Jones是第一个在没有任何限制(例如肤色分割)的情况下实现面部实时检测的人[10,11]。该检测器在奔腾 III CPU 上运行,时钟频率为 700MHz,在相同检测精度下,它比其他算法快数十甚至数百倍。这种检测算法,后来被称为“中提琴琼斯(VJ)探测器”,以作者的名字命名,以纪念他们的重大贡献。

VJ探测器遵循最直接的检测方式,即滑动窗口:遍历图像中所有可能的位置和比例,以查看是否有任何窗口包含人脸。虽然这似乎是一个非常简单的过程,但它背后的计算远远超出了当时计算机的能力。VJ探测器通过采用三种重要技术(“积分图像”,“特征选择”和“检测级联”)大大提高了其检测速度。

VJ检测器使用最直接的检测方法,即滑动窗口:遍历图像中可能的位置和窗口比例,以查看是否存在包含人脸的窗口。虽然这似乎是一个非常简单的过程,但它背后的计算量远远超过了当时计算机的能力。VJ检测仪结合了“积分图像”、“特征选择”和“级联检测”三项重要技术,大大提高了检测速度。

1)积分图像:积分图像是一种加速盒子过滤或卷积过程的计算方法。与当时的其他物体检测算法[29-31]一样,Haar小波在VJ检测器中用作图像的特征表示。积分图像使得VJ检测器中每个窗口的计算复杂性与其窗口大小无关。

1)积分图像:积分图像是加速边界框滤波或卷积过程的计算方法。像当时的其他物体检测算法[29-31]一样,Haar小波在VJ探测器中用作图像的特征表示。积分图像使VJ检测器中每个窗口的计算复杂度与窗口大小无关。

2)特征选择:作者没有使用一组手动选择的Haar基础过滤器,而是使用Adaboost算法[32]从一组巨大的随机特征池(约180k维)中选择一小组对人脸检测最有帮助的特征。

2)特征选择:作者使用Adaboost[32]算法从大量的随机特征池(约1.8×10 ^ 6维)中选择对人脸检测最有帮助的一小部分特征,而不是使用一组手动选择的Haar基本过滤器。

3)检测级联:VJ检测器中引入了多级检测范式(又名“检测级联”),通过在后台窗口上花费更少的计算,但在人脸目标上花费更多来减少其计算开销。

3)级联检测:VJ检测器中引入多级检测范式(又称级联检测),通过减少背景窗口的计算,增加人脸目标的计算,降低计算成本。

• HOG 检测器梯度直方图检测器

定向梯度直方图(HOG)特征描述符最初由N于2005年提出。达拉尔和B。特里格斯 [12]。HOG可以被认为是其时代尺度不变特征变换[33,34]和形状上下文[35]的重要改进。为了平衡特征不变性(包括平移、缩放、照明等)和非线性(关于区分不同对象类别),HOG描述符设计为在均匀间隔的单元格的密集网格上进行计算,并使用重叠的局部对比度归一化(在“块”上)来提高精度。

虽然HOG可用于检测各种对象类,但它主要是由行人检测的问题驱动的。为了检测不同大小的物体,HOG检测器会多次重新缩放输入图像,同时保持检测窗口的大小不变。多年来,HOG探测器长期以来一直是许多物体探测器[13,14,36]和各种计算机视觉应用的重要基础。

定向梯度直方图(HOG)特征描述符最初由N.达拉尔和B.特里格斯在2005年提出[12]使用。HOG可以被认为是对特征变换[33,34]和形状上下文[35]的恒定尺度的重要改进。为了平衡特征不变性(包括平移,缩放,照明等)和非线性(区分不同的对象类别),HOG描述符按以下方式实现:首先,它在密集,均匀间隔的图像单元上计算,同时使用重叠的局部对比度归一化(在“图像块”上)提高精度。虽然HOG可用于检查各种类别的物体,但它旨在解决行人检测的问题。为了检测不同大小的物体,HOG检测器可多次缩放输入图像,同时保持检测窗口大小不变。多年来,HOG探测器一直是许多物体探测器[13,14,36]和各种计算机视觉应用的重要基础。

可变形的基于零件的模型 DPM 模型

DPM作为VOC-07、-08和-09检测挑战的赢家,是传统物体检测方法的巅峰。DPM最初由P.费尔岑斯瓦尔布[13]于2008年提出,作为HOG探测器的扩展,然后R.吉尔希克进行了各种改进[14,15,37,38]。

DPM作为07年、08年和09年三年VOC检测挑战赛的获胜者,是传统物体检测方法的巅峰之作。DPM最初由P.费尔岑斯瓦尔布开发[13],于2008年作为HOG探测器的扩展版本提出,然后R.吉尔希克进行了各种改进[14,15,37,38]。

DPM遵循“分而治之”的检测理念,其中训练可以简单地被认为是对分解物体的正确方法的学习,而推断可以被认为是对不同物体部分的检测的集合。例如,检测“汽车”的问题可以被认为是检测其车窗、车身和车轮。这部分工作,又名“明星模型”,由P.费尔岑斯瓦尔布等人完成[13]。后来,R. Girshick进一步将恒星模型扩展到“混合模型”[14,15,37,38],以处理现实世界中更显着变化的物体。

DPM遵循“分而治之”的检测思维模式,其中训练可以简单地看作是一个学习过程,一个以正确的方法分解目标的学习过程;推理可以被认为是不同目标的局部检测的集合。例如,检测“汽车”的问题可以被认为是检测其车窗、车身和车轮。这部分工作,也被称为“星模型”,是由P.费尔岑斯瓦尔布等人完成的。后来,R. Girshick更进一步,将“星型模型”扩展到“混合模型”[14,15,37,38],以处理现实世界中更不稳定的目标。

典型的 DPM 检测器由根筛选器和许多部件筛选器组成。在DPM中开发了一种弱监督学习方法,而不是手动指定零件过滤器的配置(例如,大小和位置),其中零件过滤器的所有配置都可以作为潜在变量自动学习。R. Girshick进一步将此过程表述为多实例学习的特例[39],其他一些重要技术,如“硬负挖掘”,“边界框回归”和“上下文启动”也用于提高检测准确性(将在第2.3节中介绍)。为了加快检测速度,Girshick开发了一种技术,用于将检测模型“编译”为更快的技术,该技术实现了级联架构,在不牺牲任何精度的情况下实现了超过10倍的加速度[14,38]。

典型的 DPM 检测器由总筛选器和一些组件筛选器组成。DPM 不像在其他方法中那样手动指定组件筛选器的配置(例如,大小和位置),而是使用弱监督学习方法,该方法允许所有组件筛选器的参数设置作为潜在变量自动学习。R. Girshick进一步公式化地将此过程表示为“多实例学习”[39]的特殊情况,并应用了诸如“困难案例挖掘”,“有界框回归”和“上下文启动”等重要技术来提高检测准确性(如第2.3节所述)。为了加快检测速度,Girshick开发了一种技术,将一组检测模型“编译”成一个完整的更快模型目标检测 方法,实现了一种级联架构目标检测 方法,可以在不牺牲任何精度的情况下将速度提高10倍以上[14,38]。

虽然今天的物体检测器在检测精度方面已经远远超过了DPM,但其中许多检测器仍然深受其宝贵见解的影响,例如混合模型、硬负挖掘、边界盒回归等。2010年,P.费尔岑斯瓦尔布和R.吉尔希克被PASCAL VOC授予“终身成就”。

尽管现代目标探测器在检测精度方面已经远远超过了DPM,但许多探测器仍然受到其许多有价值的见解的影响,例如混合模型,困难的挖掘,有界框回归等。2010年,费尔岑斯瓦尔布和R.吉尔希克被PASCAL VOC授予终身成就奖。

第 2.1.1 节已翻译。从第二章开始,目标检测的历史逐渐蔓延,本节介绍的传统检测方法在科学研究中确实很陈旧,很难看到,但正如最后一段所说,前人思想的结晶总会鼓舞后来者。

第二章太长,栏目的字数限制甚至不能完全容纳整个2.1节,于是出具了一小段的翻译。这还具有为每个上传提供更明确主题的优点。为了便于阅读,每个小段落都翻译了更具体的标题。