()的特征长度是什么是鼻子长度短于面部的3分之一,使五官显得集中

基于内容的图像检索任务(CBIR)长期以来一直是计算机视觉领域重要的研究课题自20世纪90年代早期,研究人员先后采用了图像的全局特征长度是什么局部特征长度是什么,卷积特征长度是什么的方法对CBIR任务进行研究和探索并取得了卓越的成果。

这篇刊登在 TPAMI 上的综述《SIFT Meets CNN: A Decade Survey of Instance Retrieval》全面调研了十多年来图像检索任务Φ所使用的图像编码、检索算法并对比了各种方法在各大数据集上的实验结果,旁征博引内容详实。如果您刚接触图像检索领域可鉯通过本篇文章摸清其概貌;如果您在领域内深耕多年,也可以在本文中查漏补缺裨益良多。

TPAMI是计算机视觉领域顶级期刊此文的质量吔不必多言,我在此斗胆将这篇综述加以整理翻译成文,若有不当之处还望指出

当SIFT邂逅CNN:图像检索任务跨越十年的探索历程

在基于内嫆的图像检索技术(CBIR)发展早期,研究人员大多基于图像的全局特征长度是什么进行研究自2003年开始,由于SIFT特征长度是什么在图像变换(譯者注:尺度、方向变化)问题中的优异表现十多年来基于局部描述算子(如SIFT描述算子)的图像检索方法一直被广泛研究。最近基于卷积神经网络(CNN)的图像表示方法吸引了社区越来越多的关注,同时这种方法也展现出了令人赞叹的性能我们领域正处于快速发展时期,本文对实例检索近十多年来的进展进行了综合且全面的调查研究主要展示了基于SIFT和CNN特征长度是什么的两类主要方法。对SIFT一类的方法峩们根据字典本大小,将相关文献按照字典的大/中/小规模进行组织对CNN一类的方法,我们主要依据预训练模型微调模型和混合模型进行汾类和讨论。预训练模型和微调模型方法采用了单通道的图像输入方法而混合模型则采用了基于块的特征长度是什么提取策略本篇综述選取了在现代实例检索任务中先前的各类工作,展现了该任务中的里程碑时刻并提出了关于SIFT与CNN的内在联系的见解。在分析与比较了各种方法在几个数据集上的检索性能后我们分别讨论了通用实例检索和专用实例检索任务未来的发展前景。

基于内容的图像检索任务(CBIR)是計算机视觉领域一项由来已久的研究课题CBIR研究在20世纪90年代早期正式开始,研究人员根据诸如纹理、颜色这样的视觉特征长度是什么对图潒建立索引在这一时期大量的算法和图像检索系统被提出。其中一种简单明了的策略就是提取出图像的全局描述符这种策略在1990s和2000s早期昰图像检索社区研究的重点。然而众所周知,全局描述符这种方法在诸如光照形变,遮挡和裁剪这种情况下难以达到预想的效果这些缺陷也导致了图像检索准确率的低下,也局限了全局描述符算法的应用范围恰在这时,基于局部特征长度是什么的图像检索算法给解決这一问题带来了曙光

本篇综述主要关注于实例级的图像检索任务。在这个任务中给定一张物体/场景/建筑类型的待查询图片,查询出包含拍摄自不同角度、光照或有遮挡的含有相同物体/场景/建筑的图片。实例检索不同于类别检索任务因为后者的目标是检索出同类别嘚图片。接下来如果没有特别指出的话,“图像检索”和“实例检索”两个名词可以相互替代

在图1中我们展示了多年来实例检索任务Φ的里程碑时刻,并且在图中着重标出了基于SIFT特征长度是什么和CNN特征长度是什么算法的提出的时间2000年可以认为是大部分传统方法结束的時间,当时Smeulders等撰写了“早期的终结”这篇综述三年后(2003),词袋模型(BoW)进入图像检索社区的视野并在2004年结合了SIFT方法符被应用于图像汾类任务。这后来的近10年时间里社区见证了BoW模型的优越性,它给图像检索任务带来了各种提升在2012年,Krizhevsky等人使用AlexNet在ILSRVC 2012上取得了当时世界上朂高的识别准确率从那以后,研究的重心开始向基于深度学习特别是卷积神经网络(CNN)的方法转移

基于SIFT特征长度是什么的方法大多依賴于BoW模型。BoW方法最初是为解决文档建模问题而提出的因为文本本身就是由单词组成的。它通过累加单词响应到一个全局向量来给文档建竝单词直方图在图像领域,尺度不变(SIFT)特征长度是什么的引入使得BoW模型变得可行最初,SIFT由检测器和描述符组成但现在描述符被单獨提取出来使用。在这篇综述中如果没有特别指明的话,SIFT往往是指128维的描述符这也是社区的惯例。通过一个预训练的字典(译者注:補充说明一下在工业届的项目中,待检索的图像往往有特定的范围使用范围内的有代表性的图片构建出预训练字典可以取得比较好的效果),局部特征长度是什么被量化表示为视觉词汇一张图片能够被表示成类似文档的格式,这样就可以使用经典的权重索引方案

近幾年,CNN这种层次结构模型在许多视频相关的任务上取得的成绩远好于手工特征长度是什么基于SIFT特征长度是什么的模型的风头似乎被CNN盖过叻。基于CNN的检索模型通常计算出紧密的图像表示向量并使用欧氏距离或ANN(approximate nearest neighbor)查找算法进行检索。最近的文献可能会直接使用预训练好的CNN模型或微调后应用于特定的检索任务这些方法大多只将图像输入到网络中一次来获取描述符。一些基于图像块的方法则是将图像多次输叺到网络中这和SIFT方法的习惯有些类似。在这篇综述中我们将这些方法称为混合型方法。

根据不同的视觉表示方法本文将检索文献大致分为两类:基于SIFT特征长度是什么的和基于CNN特征长度是什么的。进一步地基于SIFT的方法根据编码本大小又分为大,中小编码本三类。我們注意到编码本的大小与所选取的编码方法紧密相关。基于CNN的方法分为使用预训练的模型微调的模型以及混合模型方法。他们的异同點列于表1

表1:各种图像检索模型的异同点

基于SIFT的方法在2012年之前一直是研究的重点(当然近年来也有不少相关的杰出工作)。这一类方法通常使用如Hessian-Affine这种探测器同时也使用SIFT这种描述符。编码本将局部特征长度是什么映射到一组向量中基于编码本大小,我们将基于SIFT的方法汾为如下三类

  • 使用小型编码本。视觉词汇少于几千个紧凑向量在降维和编码之前生成。
  • 使用中型编码本鉴于BoW的稀疏性和视觉词汇的低区分度,使用倒排索引和二进制签名方法准确率和效率间的权衡是算法的主要影响因素。
  • 使用大型编码本鉴于BoW直方图的稀疏性和视覺词汇的高区分度,在算法中使用了倒排索引和存储友好型的签名方式在编码本的生成和编码中使用了类似的方法。

基于CNN的方法使用CNN模型提取特征长度是什么建立紧凑向量(固定长度)。它们也分为三类:

  • 混合型方法图像块被多次输入进CNN用于特征长度是什么提取。编碼与索引方法和基于SIFT的检索方法近似
  • 使用预训练的模型。通过在大规模图像集(例如ImageNet)上预训练的CNN模型进行单通道传播提取特征长度是什么使用紧凑编码/池化技术进行检索。
  • 使用微调的模型在图像与目标数据库具有相似的分布的训练集上,对CNN模型进行微调通过单通噵CNN模型,运用端到端的方法提取出CNN特征长度是什么这种视觉表示方法提升了模型的区分能力。

技术解析是由美团点评无人配送蔀技术团队主笔每期发布一篇无人配送领域相关技术解析或应用实例,上期我们讲了激光雷达相关原理和非深度学习的目标检测算法這一期我们来讲讲基于深度学习相关算法

本文主笔:好好的外卖小哥

本文共8915,预计阅读时间35分钟

现在在激光雷达数据目标检测中最常用的算法是基于深度学习的算法其效果与传统学习算法相比要好很多,其中很多算法都采用了与图片目标检测相似的算法框架

早期的激光點云上的目标检测和图片上的目标检测算法并不一样,图片数据上常见的HOG、LBP和ACF【1011,12】等算法并没有应用到点云数据中

这是因为激光点雲数据与图片具有不同的特点,例如图片中存在遮挡和近大远小的问题而点云上则没有这些问题反过来图片中也并不存在上节中讨论的點云的很多特点。

从2014年开始随着RCNN、Fast RCNN、Faster RCNN、YOLO和SSD【12,34,56,7】等图片目标检测算法的进步研究者对于检测算法的理解也在不断深入。

研究鍺发现虽然点云数据与图片数据有很多不一样的特点但是在鸟瞰图中这两种不同的数据在目标检测的框架下具有相通之处,因此基于鸟瞰图的激光点云的目标检测算法几乎都沿用了图片目标检测算法的思路

2016年PointNet【8】提出了另外的一种算法框架,其提出了一种在三维空间中與点云顺序无关的算子并结合CNN也在目标分割和识别上得到了很好的效果

这个方法为三维点云中的目标检测提供了新的思路,即有可能存茬一种比基于鸟瞰图算法通用的三维目标检测方法

如前文所述激光点云数据有一些无法克服的问题,其中最主要的就是稀疏性提高雷達的线数是一个解决问题的途径,但是现有高线数雷达的成本过高很难真正落地并且高线数也无法从根本上解决远距离的稀疏问题。

为叻解决这个问题一些研究者提出了激光数据和图片数据相融合的方法这种方法尤其对小物体和远处的物体有很好的效果。

激光点云中目標检测的结果的稳定性也十分重要传统的检测算法并不特别关注这个问题,其中一个原因是在后续的跟踪和关联算法中可以对检测到的目标的大小、尺寸进行滤波从而得到稳定的结果。

近几年一些研究者尝试将“稳定算法输出”的任务交给深度神经网络尝试根据连续嘚多帧数据对当前帧进行检测,这种方法可以增加算法输出结果的稳定性减少后续跟踪算法的复杂程度,提高整个系统的鲁棒性

接下來会介绍一些在基于单帧激光数据、图片和激光融合以及基于连续多帧激光数据这三个方面具有代表性的算法。

Zhou提出的VoxelNet是一个在激光点云數据中利用图片深度学习检测框架的很好的例子【13】其先将三维点云转化成voxel结构,然后以鸟瞰图的方式来处理这个结构这里voxel结构是用楿同尺寸的立方体划分三维空间,这里每个立方体被称为voxel即体素举一个空间划分的例子,如果点云中的点在三维空间满足

当设定voxel的尺寸為(1,1,1)时可以将空间划分为200*200*4 = 160000个voxel很多论文中称这种结构的维度为2.5维,如果把每个格子都看成一个像素那么这是一种类似二维图片的数据结构洏每个voxel的内部是三维空间结构。

图1:VoxelNet的算法流程图图片引用于【13】

VoxelNet有两个主要的过程,第一个被称为VFE(Voxel Feature Extraction)是voxel的特征长度是什么提取过程第二个是类似YOLO的目标检测过程。在VEF过程中所有voxel共享同一组参数这组参数描述了生成voxel的特征长度是什么的方法。论文中VFE的过程由一系列CNN層组成如下图

图2:VoxelNet算法中VFE部分的流程图,图片引用于【13】

VFE过程的结果是每个voxel都得到了长度相同的特征长度是什么将这些特征长度是什麼按照voxel的空间排列方式堆叠在一起形成了一个4维的特征长度是什么图,以上面的例子来说特征长度是什么图的尺寸为(200200,4, l)这里l是voxel的特征長度是什么长度。

在目标检测过程中其首先将voxel特征长度是什么通过三维卷积压缩成3维的形式(200200,l')然后对得到的特征长度是什么图进行目標检测。和二维图片检测相比VoxelNet不仅要给出物体中心的二维坐标和包围盒的长宽还需要给出物体中心在Z轴的位置、物体的高度和物体在XY平媔上的朝向。

VoxelNet在实际使用中有两个问题:首先在VFE过程中因为所有的voxel都共享同样的参数和同样的层当voxel数量很大时在计算上会引入错误或效率问题,一些神经网络的框架例如Caffe在bn和scale层的实现时没有考虑到这点需要使用者自己去做调整;其次三维卷积操作的复杂度太高使得这个算法很难在自动驾驶车辆上实际使用的硬件设备上满足实时性要求。

Yang提出的PixorNet算法可以在一定程度上解决上述问题【14】首先其没有VFE的过程,而是用手工设计的0-1的布尔变量和像素的反射强度表示每一个voxel即每个voxel由两个数值表示。其次PixorNet从4维到2维做的简单的线性映射即按照某种凅定顺序将(200,2004, l)整理成(200,2004*l)的结构。

与VoxelNet相比PixorNet可以节约非常多的计算量从而达到实时性的要求,但是因为其手工设计的特征长度是什么过於简单检测效果不是特别好

上述方法主要在鸟瞰图上进行目标检测,Qi提出了PointNet和PointNet++可以在三维空间中直接做分割和识别任务【89】。

PointNet首先为點云中每一个点计算特征长度是什么(下图中1024维)然后通过一个点云顺序无关的操作(下图max pool)将这些特征长度是什么组合起来得到属于铨体点云的特征长度是什么,这个特征长度是什么可以直接用于识别任务而将全局特征长度是什么与每个点的特征长度是什么组合到一起形成的新特征长度是什么可以用于点云分割任务中。

图3:PointNet的算法流程图图片引用于【8】

PointNet在计算点的特征长度是什么时共享一组参数,這一点和VoxelNet很类似因此也有与之相同的问题另外PointNet主要提取了所有点云组成的集合的全局特征长度是什么,而没有提取描述点与点之间关系嘚特征长度是什么将PointNet的方法类比到二维图片中,可以看出其与传统卷积神经网络的区别即PointNet中没有类似卷积的操作。

PointNet++主要解决的就是这個问题其尝试通过使用聚类的方法建立点与点之间的拓扑结构,并在不同粒度的聚类中心进行特征长度是什么的学习

图4:PointNet++的算法流程圖,图片引用于【9】

这种方法确实比PointNet在分割算法中有所提高但是将其直接用于检测算法却不能得到较好的结果。主要原因是在PointNet的结构中佷难设计anchor现在图片中的检测算法一般需要先在稠密的二维空间中提取anchor,然后再对anchor不断过滤、回归和分类但是在PointNet++中处理的是稀疏的点云,在点云中很难确根据一个点确定物体的中心位置

从融合的时间点来看,多特征长度是什么融合方法大致可以分为两类:前融合和后融匼前融合首先将不同来源的数据的特征长度是什么进行融合,然后对融合后的特征长度是什么进行处理得到检测的结果后融合中不同特征长度是什么分别经过独立的过程得到检测结果,然后再将这些结果融合到一起

两种方法各有优劣,前融合能够更好的挖掘不同特征長度是什么之间的联系从而得到更好的检测结果而后融合从宏观来看具有更强的系统稳定性,当部分感知设备出现故障时只要还有一个設备在工作那么就不会让整个感知系统崩溃。

本节主要介绍一些前融合的相关算法

近几年出现了很多图片和激光雷达数据融合的方法。Chen提出了MV3D的方法其首先在不同数据上提取特征长度是什么图,然后在点云的鸟瞰图中做三维物体检测之后将检测的结果分别映射到鸟瞰图、Range Image和图片中,通过roi-pooling分别在三种特征长度是什么图中进行特征长度是什么提取最后将提取到的特征长度是什么融合在一起再做后续的處理【16】。这个方法中检测过程只在鸟瞰图中进行融合了鸟瞰图、Range Image和图片这三类数据源的特征长度是什么。

图5:MV3D的算法流程图 图片引鼡于【16】

Qi提出的FPointNet方法也使用了类似的思路,首先在图片上做物体检测然后找到对应的物体的点云【18】。得到每个物体的点云之后采用叻类似PointNet的思路对物体的点云进行特征长度是什么提取。

图6:FPointNet的算法流程图 图片引用于【18】

这两个方法具有一定的共通之处:都具有似于FasterRCNN嘚两段式(two-stage)检测方法的串行过程,即先在某一种数据的特征长度是什么图上进行物体的检测(这个过程也称为proposal)然后根据检测到的结果再在其他的数据中提取特征长度是什么。这类方法的问题在于第一步proposal的过程并没有引入其他的特征长度是什么上面讨论过对于自动驾駛的检测任务来说,召回率是非常重要的指标而这类算法的召回率的上限直接与某一种数据类型绑定,并没有很好地达到自动驾驶目标檢测中特征长度是什么融合的目的

Liang提出了一种将图片特征长度是什么融合到鸟瞰图中的方法【19】。其核心思路是:对于鸟瞰图中每个位置首先在三维空间中寻找临近的点然后把将这些点根据激光雷达和摄像机标定信息投影到图片特征长度是什么图上,最后将对应的图片特征长度是什么和点的三维信息融合到鸟瞰图对应的位置中融合后的结果是得到了一个具有更多信息量的鸟瞰图的特征长度是什么图。

這个特征长度是什么图中除了包含自带的点云信息还包含了相关的图片信息后续的分割和检测任务都基于这个特征长度是什么图。这个方法中虽然还是在鸟瞰图中对物体进行检测但是由于此时特征长度是什么图中还包含了图像信息,因此从理论上来说可以得到更高的召囙率

图7:图片特征长度是什么与点云特征长度是什么融合的算法流程图,图片引用于【19】

为了得到较稳定的检测结果可以在后处理中增加约束、也可以在跟踪算法中进行滤波。这些方法可以看作通过手工设计一些操作以减少各项检测结果的方差从现有的理论上来看,通过学习类算法自动设计相关操作应该有更好的效果Luo利用深度神经网络在鸟瞰图中通过连续帧的数据进行目标检测【20】。

其建立了一个“多入多出”的结构即算法的输入是过去连续帧的鸟瞰图,而算法的输出是当前时刻和未来连续时刻的物体位置Luo希望通过这种结构让網络不仅仅学习到物体在鸟瞰图中的形状,还可以学习到物体的速度、加速度信息其步骤如下:

设当前帧为i并设定时间窗口k,选取第i-k+1帧箌第i帧的点云并将这些点云根据GPS/IMU的信息映射到第i帧的坐标系下; 分别提取这k帧点云的特征长度是什么; 融合这些特征长度是什么; 输出苐i帧和未来若干帧物体的信息,并建立轨迹

这个方法可以在减少物体检测的噪声、增加召回率同时增加检测结果的稳定性。例如当道路仩某辆车突然被其他其他的车辆遮挡由于前面若干帧中是存在这个车的点云的,所以此时是可以通过网络猜测到其当前真实的位置

当被遮挡的车辆逐渐脱离遮挡区域时,虽然历史时刻中没有其对应的点云信息但是当前时刻存在其点云,所以同样也可以检测到其位置

這篇文章从一定程度上证明了这样做的可行性,但是还有一些方面值得继续挖掘:更好的特征长度是什么融合的方式、每次不重复提取帧嘚特征长度是什么以及更好的处理轨迹的方法等

本文介绍了自动驾驶中常用的激光雷达的成像原理及其生成数据的特点,并简单描述了楿关的目标检测的数据结构和算法基于激光雷达数据的目标检测不是一个很新的领域,但是随着在深度学习的广泛运用以及自动驾驶的興起这个领域在这几年不断出现更好的方法。下表是对本文中提到的方法的简单的总结表中感知范围一栏表示约束算法检测范围的最主要的传感器。

在实际中设计相关算法时一般不是完整地应用其中某一个方法而是首先采用某个方法的工作流程作为主体框架,然后根據在实际情况中遇到的问题再不断地对其进行修改

从长远来看,激光雷达未必是自动驾驶系统中必须的设备因为多角度摄像头的图片結果理论上可以做到周围空间的三维感知。但是就现阶段来说激光雷达还是一种非常可靠的感知手段。

随着工艺的进步激光雷达的线數和可视范围会逐渐增加。对于目标检测算法来说高线数激光雷达的数据一定比低线数雷达的要好,但是高线数也对算法的速度有着更高的要求所以相关算法的效率的提高可能会是一个研究的方向。

由于激光雷达的本身的特性小物体、远处物体和被遮挡物体的点云相對稀疏,提高这种情况下算法的效果可能会是相关研究的另一个方向实际应用中激光雷达目标检测可能面临的问题更多,包括但不仅限於高效的数据标注、处理不平坦的地面、不同天气的影响、不同物体材质的区分、算法效果与复杂度的权衡、算法效果的评估等等

希望這些问题可以随着技术的发展逐步得到解决,未来可以真正实现安全便捷的自动驾驶

我要回帖

更多关于 特征长度是什么 的文章

 

随机推荐