目标检测算法综述论文

尊敬的用户，AnchorFree拥有两个输出，其中一个用于连接开发板，另一个是官方推荐的输出，用户可以使用它将开发结果导出到其他设备。

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

R-CNN的意思就是Region based，主要思路就是根据一张图像，提取多个region，再将每个Region输入CNN来进行特征的提取。因此RCNN就可以分为 Region proposals , Feature extraction 两个主要部分，提取的特征就可以输入任意一个分类器来进行分类。模型的流程图如下：

在训练的时候，首先使用的是已经训练好的CNN网络作为特征提取器，但是由于预训练是在分类数据集上，因此在应用到检测之前要做finetune。也就是说，为了将用ImageNet数据集训练的网络应用到新的任务（检测），新的数据集（region）上，作者将原来的CNN最后的1000类的fc层，更改为了层，代表待检测的物体的类别数。然后，对于所有的region，如果它和ground truth的重叠率大于，就认为是正类。对于分类器的训练，作者发现选择多大的IoU来区分正类和负类非常关键。并且，对于每一类，都会训练一个分类器。

框的回归非常重要，在对每一个region proposal使用分类器进行打分评价之后，作者使用一个回归器来预测一个新的框作为结果。这个回归器使用的特征是从CNN中提取的特征。回归器的训练中，输入是 region proposal 的和ground truth的，目标是学习一种变换，使得region proposal通过该变换能够接近ground truth。同时，希望这种变换拥有尺度不变性，也就是说尺度变化的话，变换不会改变。如下图所示，每一个regressor会学习一组参数，特征输入是pool 5的特征输出，拟合的目标是。

Fast-RCNN 主要解决的问题是在RCNN中对于每一个region proposal都进行特征提取，会产生非常多的冗余计算，因此可以先对一张图像进行特征提取，再根据region proposal在相应的特征上进行划分得到对应region的特征（映射关系）。这样便可以实现共享计算提高速度，但是与SPPnets不同，SPPnets在一副图像得到对应的特征后，从这张图像的特征上proposal对应的部分，采用空间金字塔池化，如下图：

RoI pooling的方法很简单，类似于空间金字塔pooling，它将proposal部分对应卷积层输出的特征（称之为RoI，因为用于做pooling的特征是 region of interest，也就是我们感兴趣的区域）划分成块，然后对每一块求最大值，最终得到了一个的特征图。可以看出，它只是空间金字塔pooling的一部分。但是SPP-nets的空间金字塔也是可以求导的，那么它到底不好在哪里呢？因为当每一个RoI都可能来源于不同的图像的时候（R-CNN和SPPnets的训练策略是从一个batch的不同图像中，分别挑选一个proposal region），SPPNets的训练非常地低效，这种低效来源于在SPPnets的训练中，每个RoI的感受野都非常地大，很可能对应了原图的整个图像，因此，得到的特征也几乎对应了整张图像，所以输入的图像也就很大。为了提高效率，Fast-RCNN首先选取个图像，再从每个图像上选择个RoI，这样的效率就比从每个图像提取一个RoI提高了倍。

为了将分类和框回归结合起来，作者采用了多任务的loss，来进行联合的训练。具体来说就是将分类的loss和框回归的loss结合起来。网络的设计上非常直接，就是将RoI得到的特征接几个FC层后，分别接不同的输出层。对应于分类部分，特征会接一个softmax输出，用于分类，对于框回归部分，会接一个输出4维特征的输出层，然后分别计算loss，用于反向传播。loss的公式如下：

回归的target可以参考前面的R-CNN部分。

notes

为什么比fast还fast呢？主要原因是在这篇论文中提出了一个新的层：RPN（region proposal networks）用于替代之前的selective search。这个层还可以在GPU上运算来提高速度。 RPN的目的：

为了能够进行region proposal，作者使用了一个小的网络，在基础的卷积层输出的特征上进行滑动，这个网络输入大小为，输入后会映射（用的卷积）为一个固定长度的特征向量，然后接两个并联的fc层（用的卷积层代替），这两个fc层，一个为box-regressoin，一个为box-classification。如下图：

在每一个滑动窗口（可以参考），为了考虑到尽可能多的框的情况，作者设计了anchors来作为region proposal。anchors就是对于每一个滑动窗口的中心位置，在该位置对应的原图位置的基础上，按照不同的尺度，长宽比例框出个不同的区域。然后根据这些anchors对应的原始图像位置以及区域，和ground truth，就可以给每一个滑动窗口的每一个anchor进行标记，也就是赋予label，满足一定条件标记为正类（比如和ground truth重叠大于一个值），一定条件为负类。对于正类，就可以根据ground truth和该anchor对应的原图的区域之间的变换关系（参考前面的R-CNN的框回归），得到回归器中的目标，用于训练。也就是论文中的loss function部分：

自然地，也就要求RPN的两个并联的FC层一个输出2k个值用于表示这k个anchor对应的区域的正类，负类的概率，另一个输出4k个值，用于表示框回归的变换的预测值。

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与之前的检测任务稍有不同，mask r-cnn的任务是做instance segmentation。因此，它需要对每一个像素点进行分类。与Faster R-CNN不同，Faster R-CNN对每一个候选框产生两个输出，一个是类别，一个是bounding box的offset。Mask R-CNN新增加了一个输出，作为物体的mask。这个mask类似于ps中的蒙版。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

由于属于像素级别的预测问题，就需要RoI能够在进行特征提取的时候保持住空间信息，至少在像素级别上能够对应起来。因此，传统的取最大值的方法就显得不合适。 RoI Pooling，经历了两个量化的过程：第一个：从roi proposal到feature map的映射过程。第二个：从feature map划分成7*7的bin，每个bin使用max pooling。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

整体看完这几篇大佬的论文，虽说没有弄清楚每一个实现细节，但是大体上了解了算法的思路。可以看出，出发点都源于深度神经网络在特征提取上的卓越能力，因此一众大神试图将这种能力应用在检测问题中。从R-CNN中简单地用于特征提取，到为了提高速度减少计算的Fast R-CNN，再到为了将region proposal集成进入整个模型中，并且利用GPU加速的RPN，也就是Faster R-CNN。再到为了应用于instance segmentation任务中，设计的RoIAlign和mask。包括bounding box regression，pooling层的设计，训练方法的选择，loss的设计等等细节，无一不体现了大师们的思考和创造力。可能在我们这些“拿来”者的眼中，这些方法都显得“理所应当”和巧妙，好用，但是，它们背后隐藏的选择和这些选择的思考却更值得我们学习。以及，对待每一个问题，如何设计出合理的解决方案，以及方案的效率，通用性，更是应该我们努力的方向。

每一个检测任务都有其特有的检测难点，比如背景复杂，目标尺度变化大，颜色对比度低等挑战，这就导致某个检测算法在检测任务A上可能表现SOTA，但在检测任务B上表现得可能不尽如人意。因此，分析研究每一个检测任务存在的难点与挑战至关重要，这有利于我们针对不同的检测难点设计出不同的技术以解决该项问题，从而使得我们提出的算法能够在特定的任务上表现SOTA。目标检测任务可能存在的检测难点与挑战: （1）待检测目标尺寸很小，导致占比小，检测难度大（2）待检测目标尺度变化大，网络难以提取出高效特征（3）待检测目标所在背景复杂，噪音干扰严重，检测难度大（4）待检测目标与背景颜色对比度低，网络难以提取出具有判别性的特征（5）各待检测目标之间数量极度不均衡，导致样本不均衡（6）检测算法的速度与精度难以取得良好平衡不同尺度，不同形状物体的检测是目标检测面临的主要挑战之一，而多尺度检测技术是解决多尺度问题的主要技术手段。目标检测发展的几十年来，多尺度检测技术的演变经历了以下过程：（1）Feature pyramids and sliding windows(2014年前) （2）Detection with object proposals(2010-2015年) （3）Deep regression(2013-2016年) （4）Multi-reference detection(2015年后) （5）Multi-resolution detection(2016年后) 如下图5展示了多尺度检测技术的演变历程：边框回归(The Bounding Box regression，BB)是目标检测非常重要的技术。它的目的是根据初始设定的anchor box来进一步改进修正预测框的位置。目标检测发展的几十年来，边框回归技术的演变经历了以下过程：（1）Without BB regression(2008年之前) （2）From BB to BB(2008-2013年) （3）From feature to BB(2013年后) 如下图展示了边框回归技术的演变历程目标检测领域中每一个目标都被周围背景所包围，而我们对于一个目标的认知会根据其周围的环境作出判断，于是我们将目标周围的环境信息称作上下文信息。上下文可以作为网络判断目标类别和定位的重要辅助信息，可大大提高网络检测的精度。为网络提取上下文信息有以下三种常用的方法：（1）提取局部上下文信息用于目标检测（2）提取全局上下文信息用于目标检测（3）上下文信息交互提取高效上下文信息用于目标检测如下图展示了上下文信息提取技术的演变历程：目标检测的过程中在同一目标的位置上会产生大量的候选框，这些候选框相互之间可能会有重叠，此时我们需要利用非极大值抑制找到最佳的目标边界框，消除冗余的边界框。非极大值抑制算法的流程如下：（1）根据置信度得分进行排序；（2）选择置信度最高的比边界框添加到最终输出列表中，将其从边界框列表中删除；（3）计算所有边界框的面积；（4）计算置信度最高的边界框与其它候选框的IoU；（5）删除IoU大于阈值的边界框；（6）重复上述过程，直至边界框列表为空。近年来非极大值抑制算法逐渐发展成为以下三条路线：（1）Greedy selection （2）Bounding box aggregation （3）Learning to NMS 如下图展示了非极大值抑制算法的技术演变历程：目标检测的训练过程本质上还是一个样本数据不平衡的学习过程，因为检测算法中需要用到很多检测框，而真正包含目标的检测框占比却极少。在网络训练过程中，大量简单的负样本(背景)会主导学习方向而不利于网络往正确的方向加以优化，因此这需要采取一定的策略来解决这一问题。难分负样本挖掘(Hard Negative Mining, HNM)技术正是解决训练过程中的数据不平衡问题的一项关键技术。难分负样本挖掘技术的演变主要经历了以下过程：（1）Bootstrap （2）HNM in deep learning based detectors 如下图展示了难分负样本挖掘技术的演变历程：

AnchorFree有两种不同的输出方式，一种是它可以作为一个路由器来连接多台设备，另一种是它可以直接插入一台设备，并将网络信号传输给此设备。

目标检测综述论文2019

Anchorfree的输出可以有多个。它是一种网络安全解决方案，它可以帮助您保护您的网络流量，并且可以防止您的网络流量被窃取或拦截。它可以让您在网络上自由浏览，而不必担心被攻击者攻击或拦截。Anchorfree的输出可以通过它的安全服务器来实现，它可以帮助您访问被墙的网站，并且可以提供更安全的网络连接。此外，Anchorfree还提供了一些其他的安全功能，例如VPN，可以帮助您更好地保护您的网络安全。

小目标问题在物体检测和语义分割等视觉任务中一直是存在的一个难点，小目标的检测精度通常只有大目标的一半。

CVPR2019论文: Augmentation for small object detection 提到了一些应对小目标检测的方法，笔者结合这篇论文以及查阅其它资料，对小目标检测相关技巧在本文进行了部分总结。

小目标的定义：在MS COCO数据集中，面积小于 32*32 的物体被认为是小物体。

小目标难以检测的原因：分辨率低，图像模糊，携带的信息少。由此所导致特征表达能力弱，也就是在提取特征的过程中，能提取到的特征非常少，这不利于我们对小目标的检测。

1、由于小目标面积太小，可以放大图片后再做检测，也就是在尺度上做文章，如FPN（Feature Pyramid Networks for Object Detection），SNIP（An Analysis of Scale Invariance in Object Detection – SNIP)。

Feature-Fused SSD: Fast Detection for Small Objects, Detecting Small Objects Using a Channel-Aware Deconvolutional Network 也是在多尺度上做文章的论文。

2、在Anchor上做文章(Faster Rcnn，SSD, FPN都有各自的anchor设计)，anchor在设置方面需要考虑三个因素：

anchor的密度：由检测所用feature map的stride决定，这个值与前景阈值密切相关。

anchor的范围： RetinaNet中是anchor范围是32~512，这里应根据任务检测目标的范围确定，按需调整anchor范围，或目标变化范围太大如MS COCO，这时候应采用多尺度测试。

anchor的形状数量： RetinaNet每个位置预测三尺度三比例共9个形状的anchor，这样可以增加anchor的密度，但stride决定这些形状都是同样的滑窗步进，需考虑步进会不会太大，如RetinaNet框架前景阈值是时，一般anchor大小是stride的4倍左右。

该部分anchor内容参考于:

3、在ROI Pooling上做文章，文章SINet: A Scale-Insensitive Convolutional Neural Network for Fast Vehicle Detection 认为小目标在pooling之后会导致物体结构失真，于是提出了新的Context-Aware RoI Pooling方法。

4、用生成对抗网络(GAN)来做小目标检测：Perceptual Generative Adversarial Networks for Small Object Detection。

1、从COCO上的统计图可以发现，小目标的个数多，占到了，但是含有小目标的图片只有，大目标所占比例为，但是含有大目标的图像却有。这说明有一半的图像是不含小目标的，大部分的小目标都集中在一些少量的图片中。这就导致在训练的过程中，模型有一半的时间是学习不到小目标的特性的。

此外，对于小目标，平均能够匹配的anchor数量为1个，平均最大的IoU为，这说明很多情况下，有些小目标是没有对应的anchor或者对应的anchor非常少的，即使有对应的anchor，他们的IoU也比较小，平均最大的IoU也才。

如上图，左上角是一个anchor示意图，右上角是一个小目标所对应的anchor，一共有只有三个anchor能够与小目标配对，且配对的IoU也不高。左下角是一个大目标对应的anchor，可以发现有非常多的anchor能够与其匹配。匹配的anchor数量越多，则此目标被检出的概率也就越大。

实现方法： 1、Oversampling ：我们通过在训练期间对这些图像进行过采样来解决包含小对象的相对较少图像的问题（多用这类图片）。在实验中，我们改变了过采样率和研究不仅对小物体检测而且对检测中大物体的过采样效果

2、Copy-Pasting Strategies：将小物体在图片中复制多分，在保证不影响其他物体的基础上，增加小物体在图片中出现的次数（把小目标扣下来贴到原图中去），提升被anchor包含的概率。

如上图右下角，本来只有一个小目标，对应的anchor数量为3个，现在将其复制三份，则在图中就出现了四个小目标，对应的anchor数量也就变成了12个，大大增加了这个小目标被检出的概率。从而让模型在训练的过程中，也能够有机会得到更多的小目标训练样本。

具体的实现方式如下图：图中网球和飞碟都是小物体，本来图中只有一个网球，一个飞碟，通过人工复制的方式，在图像中复制多份。同时要保证复制后的小物体不能够覆盖该原来存在的目标。

网上有人说可以试一下lucid data dreaming Lucid Data Dreaming for Multiple Object Tracking ，这是一种在视频跟踪/分割里面比较有效的数据增强手段，据说对于小目标物体检测也很有效。

基于无人机拍摄图片的检测目前也是个热门研究点（难点是目标小，密度大）。相关论文： The Unmanned Aerial Vehicle Benchmark: Object Detection and Tracking（数据集） Drone-based Object Counting by Spatially Regularized Regional Proposal Network Simultaneously Detecting and Counting Dense Vehicles from Drone Images Vision Meets Drones: A Challenge（数据集）

1: 2: 3: 4: 5: 6: 7:

热门频道首页博客研修院VIPAPP问答下载社区推荐频道活动招聘专题打开CSDN APPCopyright © 1999-2020, , All Rights Reserved打开APPAnchor-free之CenterNet 原创2020-07-09 22:39:58有点方码龄7年关注anchor-base VS Anchor-freeAnchor-base存在的问题：•与锚点框相关超参 (scale、aspect ratio、IoU Threshold) 会较明显的影响最终预测效果；•预置的锚点大小、比例在检测差异较大物体时不够灵活；•大量的锚点会导致运算复杂度增大，产生的参数较多；•容易导致训练时negative与positive的比例失衡。Anchor-free算法的优点：•使用类似分割的思想来解决目标检测问题；•不需要调优与anchor相关的超参数；•避免大量计算GT boxes和anchor boxes 之间的IoU，使得训练过程占用内存更低。由于物体的中心区域是远小于其他背景区域的，整个分类的正负样本和难易样本是极不均衡的。直接训练这样的分类问题很难收敛到一个满意的结果。Base anchor对于正负样本比例失调的解决方式一般为focal loss 和OHEM。前者在损失函数上优化，对正负样本已经困难样本进行不同程度的惩罚；后者将原来的ROI网络扩充为两个ROI，一个ROI只有前向传播，用于计算损失，一个ROI正常前向后向传播，以hard example作为输入，计算损失并传递梯度，根据损失进行筛选，选出对分类和检测影响大的样本。Base anchor检测差异较大物体的策略主要是FPN，如果没有引入FPN，feature map的每个位置只能输出一个框，并且下采样的倍数是8或者16，那么可能会有很多物体的中心点落在同一格子中，这样就会导致训练的时候有多框重叠现象。FPN这种多层级的表示有效解决了这种冲突的现象，可以在一定程度上解决检测物体差异较大的现象。Anchor free没有使用FPN, feature map的每个位置只能输出一个框，下采样的倍数是8或者16，随着FPN的引入，不同尺寸的物体被分配到了不同的层级上，冲突的概率大大降低。CenterNet VS CornerNet等CornerNet将bbox的两个角作为关键点；ExtremeNet 检测所有目标的最上，最下，最左，最右，中心点。它们都需要经过一个关键点grouping阶段，这会降低算法整体速度。CenterNet针对CornerNet对内部语义缺失和grouping耗时的问题，提出了对中心点进行估计的方法，找到目标的中心，回归出他们的尺寸。仅仅提取每个目标的中心点，无需对关键点进行grouping 或者是后处理。网络结构论文中CenterNet提到了三种用于目标检测的网络，这三种网络都是编码解码(encoder-decoder)的结构：1. Resnet-18 with up-convolutional layers : coco and 142 FPS2. DLA-34 : COCOAP and 52 FPS3. Hourglass-104 : COCOAP and FPS每个网络内部的结构不同，但是在模型的最后输出部分都是加了三个网络构造来输出预测值，默认是80个类、2个预测的中心点坐标、2个中心点的偏置。确立中心点在整个训练的流程中，CenterNet学习了CornerNet的方法。对于每个标签图(ground truth)中的某一类，我们要将真实关键点(true keypoint) 计算出来用于训练，中心点的计算方式如下对于下采样后的坐标，我们设为其中 R 是文中提到的下采样因子4。所以我们最终计算出来的中心点是对应低分辨率的中心点。然后我们对图像进行标记，在下采样的[128,128]图像中将ground truth point以下采样的形式，用一个高斯滤波来将关键点分布到特征图上。损失函数1.中心点的损失函数其中 α 和 β 是Focal Loss的超参数, N 是图像 I 的的关键点数量，用于将所有的positive focal loss标准化为1。在这篇论文中 α 和 β 分别是2和4。这个损失函数是Focal Loss的修改版，适用于CenterNet。2.目标中心的偏置损失图像进行了 R=4 的下采样，这样的特征图重新映射到原始图像上的时候会带来精度误差，因此对于每一个中心点，额外采用了一个local offset 去补偿它。所有类 c 的中心点共享同一个offset prediction，这个偏置值(offset)用L1 loss来训练：这个偏置损失是可选的，我们不使用它也可以，只不过精度会下降一些。3.目标大小的损失假设 (X1(k),Y1(k),X2(k),Y2(k)) 为为目标 k，所属类别为c，它的中心点为我们使用关键点预测 Y^ 去预测所有的中心点。然后对每个目标 K 的size进行回归，最终回归到Sk=(X2(k)-X1(k), Y2(k)-Y1(k))，这个值是在训练前提前计算出来的，是进行了下采样之后的长宽值。作者采用L1 loss 监督w,h的回归4.总损失函数整体的损失函数为物体损失、大小损失与偏置损失的和，每个损失都有相应的权重。论文中 size 和 off的系数分别为和1 ，论文中所使用的backbone都有三个head layer，分别产生[1,80,128,128]、[1,2,128,128]、[1,2,128,128]，也就是每个坐标点产生 C+4 个数据，分别是类别以及、长宽、以及偏置。推理阶段在预测阶段，首先针对一张图像进行下采样，随后对下采样后的图像进行预测，对于每个类在下采样的特征图中预测中心点，然后将输出图中的每个类的热点单独地提取出来。就是检测当前热点的值是否比周围的八个近邻点(八方位)都大(或者等于)，然后取100个这样的点，采用的方式是一个3x3的MaxPool。代码中设置的阈值为，也就是从上面选出的100个结果中调出大于该阈值的中心点，最后经过soft nms得到最终的结果。CenterNet的缺点1.当两个不同的object完美的对齐，可能具有相同的center，这个时候只能检测出来它们其中的一个object。2.有一个需要注意的点，CenterNet在训练过程中，如果同一个类的不同物体的高斯分布点互相有重叠，那么则在重叠的范围内选取较大的高斯点。附：DCN:文章知识点与官方知识档案匹配OpenCV技能树OpenCV中的深度学习图像分类12101 人正在系统学习中打开CSDN APP，看更多技术内容CenterNet(Objects as Points)学习笔记论文: Objects as Points Code: CenterNer的提出一般的detection方法将object识别成(无旋转的)矩形框。大部分成功的object检测器会枚举出很多object的位置和尺寸，对每一个候选框进行分类。这是浪费的、低效的。常规方法中的后处理方法(nms等)是很难微分(diff...继续访问『深度应用』对CenterNet的一些思考与质疑·对比与U版YoloV3速度与精度0.引子笔者很喜欢CenterNet极简的网络结构，CenterNet只通过FCN（全卷积）的方法实现了对于目标的检测与分类，无需anchor与nms等复杂的操作高效的同时精度也不差。同时也可以很将此结构简单的修改就可以应用到人体姿态估计与三维目标检测之中。后面一些针对CenterNet结构应用于其他任务，也取得不错的效果，比如人脸检测CenterFace以及目标追踪CenterTrack与FairMot。这些内容后面等笔者研习过后再补充，后面应该会做一个类CenterNet结构总结对比，感兴.继续访问最新发布目标检测 | Anchor free之CenterNet深度解析点击上方“小白学视觉”，选择加"星标"或“置顶”重磅干货，第一时间送达1 前言本文接着上一讲对CornerNet的网络结构和损失函数的解析,链接如下本文来聊一聊Anchor-Free领域耳熟能详的CenterNet。原论文...继续访问CenterNet遇到的问题问题总结参考pillow报错 conda install 'pillow<' 报错参考THCG改main中 conda创建环境相关操作 conda相关操作2 : HTTP Error 404: Not Found网络问题 AttributeError: Can't pickle local objec...继续访问目标检测：使用mmdetection对比centernet与yolov3的性能前情概要上一篇博客，我通过mmdetection实现的源码解释了centernet的原理，并分析了该算法的一些优缺点，本篇博客我将讲解如何通过mmdetection运行centernet，并基于一个x光数据集对比centernet与yolov3的性能。本文使用数据集介绍本文使用的数据集是安检x光的数据集，数据集大小为3600张图片和对应标注，样例图片如下而需要检测的物体label有10个：knife、scissors、lighter、zippooil、pressure、slingshot、han继续访问关于CenterNet移动端部署的思考（for ncnn）参考腾讯技术工程公众号：本文主要是参考 arlencai 大佬的博文，对于cneternet在ncnn平台移植的实操和分析，先mark一下，准备后续有空闲尝试将这一思路在nvidia的jetson平台上尝试部署，并进行系列优化（如硬件方面框架的tensorrt量化优化、网络层面的移动端部署替代，或者类似yolov5的CSP结构等方法改良尝试等）一、背景原文中，大佬主要是针对微信的“扫一扫”功能进行阐述继续访问CenterNet原文：扔掉anchor！真正的CenterNet——Objects as Points论文解读 Oldpan 2019年5月16日 0条评论137次阅读0人点赞 anchor-free目标检测属于anchor-free系列的目标检测，相比于CornerNet做出了改进，...继续访问Anchor Free，框即是点，CenterNet论文：Objects as Points Github： CVPR 2019 CenterNet，一个anchor free的新的检测算法，算是对cornerNet的改进，在cornerNet基础上，引入了中心点的概念，因此，称为CenterNet。算法亮点， anchor free，大大减少了a...继续访问深度学习（三十七）——CenterNet, Anchor-Free, NN QuantizationCenterNet CenterNet是中科院、牛津、Huawei Noah’s Ark Lab的一个联合团队的作品。（）论文：《CenterNet: Keypoint Triplets for Object Detection》上图是CenterNet的网络结构图。正如之前提到的，框对于物体来说不是一个最好的表示。同理，Corner也不是什么特别好的表示：绝大多数情况下，C...继续访问anchor-free目标检测之centernet自从anchor-free方法实现目标检测的Cornernet提出后，对其进行改进的方法也出现了许多。centernet是一篇对其进行改进的论文，将原来的二元组角点检测扩展为三元组检测，加入了中心点的检测。为了克服需要手动设计anchor的超参数的问题，Cornernet提出基于关键点检测的方法。但是，基于关键点的方法经常会产生大量不正确的对象边界框，可以说是由于缺少对裁剪区域的额外观察。 ...继续访问目标检测深度学习方法综述（二）0.前言本来准备将一些模型汇总成一篇博客的，但是不知道为啥写了一万多字之后这博客草稿就保存不了了，所以我将剩下的部分放到这篇博客中来（奇怪的BUG ）前文地址：我们接着上篇文章的章节来好吧。 SSD算法 SSD 算法是 Faster RCNN 和 YOLO 的结合：采...继续访问配置和运行CenterNet时踩过的坑在运行CenterNet时遇到的一些问题继续访问简单聊聊centerNet:将目标当成点－1．论文CenterNet：将目标视为点《Objects as Points》 Date：20190417 Author：德克萨斯大学奥斯汀分校和 UC 伯克利 ariXiv： github： ...继续访问CenterNet配置及问题详解作者原版github： Install 按照readme文件夹中的操作： 0.创建一个虚拟环境 conda create --name CenterNet python=创建一个名为CenterNet的虚拟环境 source activate CenterNet #激活...继续访问热门推荐 CenterNet算法笔记论文：Objects as Points 论文链接：代码链接：这篇CenterNet算法也是anchor-free类型的目标检测算法，基于点的思想和CornerNet是相似的，方法上做了较大的调整，整体上给人一种非常清爽的感觉，算法思想很朴素、直接，而且...继续访问论文阅读笔记 | 目标检测算法——CenterNet算法如有错误，恳请指出文章目录1. Introduction2. keypoint detection offset size overall loss3. Objects as Points4. Result paper：Objects as Points Source code：思想：目标检测将对象识别为图像中与轴对齐的框。大多数成功的物体检测.继续访问目标检测Anchor free方法总结：YOLOv1、CornerNet、CenterNet、FCOSYOLOv1（2016）: CornerNet（2018）: CenterNet（2019）: FCOS（2019）：什么是Anchor free方法？ Anchor free是相对于Anchor base而言的一种目继续访问Anchor-free目标检测系列3：CenterNet Object as pointsCenterNet(一个中心点) CenterNet: Objects as Points () 论文是由德克萨斯大学奥斯汀分校和UC 伯克利学者共同提出的真正意义上anchor-free的算法。与之前介绍的CornerNet系列算法不同，CenterNet仅仅检测目标中心点，没有后续的角点配对及NMS后处理操作，检测速度和精度相比于one-stage和two...继续访问扔掉anchor！真正的CenterNet——Objects as Points论文解读前言 anchor-free目标检测属于anchor-free系列的目标检测，相比于CornerNet做出了改进，使得检测速度和精度相比于one-stage和two-stage的框架都有不小的提高，尤其是与YOLOv3作比较，在相同速度的条件下，CenterNet的精度比YOLOv3提高了4个左右的点。 CenterNet不仅可以用于目标检测，还可以用于其他的一些任务，如肢体识别或者...继续访问深度学习计算机视觉机器学习写评论评论收藏点赞踩分享

尊敬的用户，AnchorFree拥有两个输出，其中一个用于连接开发板，另一个是官方推荐的输出，用户可以使用它将开发结果导出到其他设备。

目标检测类论文与综述

论文名称：Rich feature hierarchies for accurate object detection and semantic segmentation 提出时间：2014年论文地址：针对问题：从Alexnet提出后，作者等人思考如何利用卷积网络来完成检测任务，即输入一张图，实现图上目标的定位（目标在哪）和分类（目标是什么）两个目标，并最终完成了RCNN网络模型。创新点： RCNN提出时，检测网络的执行思路还是脱胎于分类网络。也就是深度学习部分仅完成输入图像块的分类工作。那么对检测任务来说如何完成目标的定位呢，作者采用的是Selective Search候选区域提取算法，来获得当前输入图上可能包含目标的不同图像块，再将图像块裁剪到固定的尺寸输入CNN网络来进行当前图像块类别的判断。参考博客：。论文题目：OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks 提出时间：2014年论文地址：针对问题：该论文讨论了，CNN提取到的特征能够同时用于定位和分类两个任务。也就是在CNN提取到特征以后，在网络后端组织两组卷积或全连接层，一组用于实现定位，输出当前图像上目标的最小外接矩形框坐标，一组用于分类，输出当前图像上目标的类别信息。也是以此为起点，检测网络出现基础主干网络(backbone)+分类头或回归头（定位头）的网络设计模式雏形。创新点：在这篇论文中还有两个比较有意思的点，一是作者认为全连接层其实质实现的操作和1x1的卷积是类似的，而且用1x1的卷积核还可以避免FC对输入特征尺寸的限制，那用1x1卷积来替换FC层，是否可行呢？作者在测试时通过将全连接层替换为1x1卷积核证明是可行的；二是提出了offset max-pooling，也就是对池化层输入特征不能整除的情况，通过进行滑动池化并将不同的池化层传递给后续网络层来提高效果。另外作者在论文里提到他的用法是先基于主干网络+分类头训练，然后切换分类头为回归头，再训练回归头的参数，最终完成整个网络的训练。图像的输入作者采用的是直接在输入图上利用卷积核划窗。然后在指定的每个网络层上回归目标的尺度和空间位置。参考博客：论文题目：Scalable Object Detection using Deep Neural Networks 提出时间：2014年论文地址：针对问题：既然CNN网络提取的特征可以直接用于检测任务（定位+分类），作者就尝试将目标框（可能包含目标的最小外包矩形框）提取任务放到CNN中进行。也就是直接通过网络完成输入图像上目标的定位工作。创新点：本文作者通过将物体检测问题定义为输出多个bounding box的回归问题. 同时每个bounding box会输出关于是否包含目标物体的置信度, 使得模型更加紧凑和高效。先通过聚类获得图像中可能有目标的位置聚类中心，（800个anchor box）然后学习预测不考虑目标类别的二分类网络，背景or前景。用到了多尺度下的检测。参考博客：论文题目：DeepBox: Learning Objectness with Convolutional Networks 提出时间：2015年ICCV 论文地址：主要针对的问题：本文完成的工作与第三篇类似，都是对目标框提取算法的优化方案，区别是本文首先采用自底而上的方案来提取图像上的疑似目标框，然后再利用CNN网络提取特征对目标框进行是否为前景区域的排序；而第三篇为直接利用CNN网络来回归图像上可能的目标位置。创新点：本文作者想通过CNN学习输入图像的特征，从而实现对输入网络目标框是否为真实目标的情况进行计算，量化每个输入框的包含目标的可能性值。参考博客：论文题目：AttentionNet: AggregatingWeak Directions for Accurate Object Detection 提出时间：2015年ICCV 论文地址：主要针对的问题：对检测网络的实现方案进行思考，之前的执行策略是，先确定输入图像中可能包含目标位置的矩形框，再对每个矩形框进行分类和回归从而确定目标的准确位置，参考RCNN。那么能否直接利用回归的思路从图像的四个角点，逐渐得到目标的最小外接矩形框和类别呢？创新点：通过从图像的四个角点，逐步迭代的方式，每次计算一个缩小的方向，并缩小指定的距离来使得逐渐逼近目标。作者还提出了针对多目标情况的处理方式。参考博客：论文题目：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition 提出时间：2014年论文地址：针对问题：如RCNN会将输入的目标图像块处理到同一尺寸再输入进CNN网络，在处理过程中就造成了图像块信息的损失。在实际的场景中，输入网络的目标尺寸很难统一，而网络最后的全连接层又要求输入的特征信息为统一维度的向量。作者就尝试进行不同尺寸CNN网络提取到的特征维度进行统一。创新点：作者提出的SPPnet中，通过使用特征金字塔池化来使得最后的卷积层输出结果可以统一到全连接层需要的尺寸，在训练的时候，池化的操作还是通过滑动窗口完成的，池化的核宽高及步长通过当前层的特征图的宽高计算得到。原论文中的特征金字塔池化操作图示如下。参考博客：论文题目：Object detection via a multi-region & semantic segmentation-aware CNN model 提出时间：2015年论文地址：针对问题：既然第三篇论文multibox算法提出了可以用CNN来实现输入图像中待检测目标的定位，本文作者就尝试增加一些训练时的方法技巧来提高CNN网络最终的定位精度。创新点：作者通过对输入网络的region进行一定的处理（通过数据增强，使得网络利用目标周围的上下文信息得到更精准的目标框）来增加网络对目标回归框的精度。具体的处理方式包括：扩大输入目标的标签包围框、取输入目标的标签中包围框的一部分等并对不同区域分别回归位置，使得网络对目标的边界更加敏感。这种操作丰富了输入目标的多样性，从而提高了回归框的精度。参考博客：论文题目：Fast-RCNN 提出时间：2015年论文地址：针对问题： RCNN中的CNN每输入一个图像块就要执行一次前向计算，这显然是非常耗时的，那么如何优化这部分呢？创新点：作者参考了SPPNet（第六篇论文），在网络中实现了ROIpooling来使得输入的图像块不用裁剪到统一尺寸，从而避免了输入的信息丢失。其次是将整张图输入网络得到特征图，再将原图上用Selective Search算法得到的目标框映射到特征图上，避免了特征的重复提取。参考博客：论文题目：DeepProposal: Hunting Objects by Cascading Deep Convolutional Layers 提出时间：2015年论文地址：主要针对的问题：本文的作者观察到CNN可以提取到很棒的对输入图像进行表征的论文，作者尝试通过实验来对CNN网络不同层所产生的特征的作用和情况进行讨论和解析。创新点：作者在不同的激活层上以滑动窗口的方式生成了假设，并表明最终的卷积层可以以较高的查全率找到感兴趣的对象，但是由于特征图的粗糙性，定位性很差。相反，网络的第一层可以更好地定位感兴趣的对象，但召回率降低。论文题目：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 提出时间：2015年NIPS 论文地址：主要针对的问题：由multibox（第三篇）和DeepBox（第四篇）等论文，我们知道，用CNN可以生成目标待检测框，并判定当前框为目标的概率，那能否将该模型整合到目标检测的模型中，从而实现真正输入端为图像，输出为最终检测结果的，全部依赖CNN完成的检测系统呢？创新点：将当前输入图目标框提取整合到了检测网络中，依赖一个小的目标框提取网络RPN来替代Selective Search算法，从而实现真正的端到端检测算法。参考博客：

对于目标检测方向并不是特别熟悉，本文记录一下RCNN, fast-RCNN, faster-RCNN, mask-RCNN这4篇有关目标检测的论文笔记和学习心得。

回归的target可以参考前面的R-CNN部分。

notes

对于整个网络的训练，作者采用了一种叫做 4-step Alternating Training 的方法。具体可以参考论文。

与Faster R-CNN类似的是，Mask R-CNN同样采用RPN来进行Region Proposal。但是在之后，对于每一个RoI，mask r-cnn还输出了一个二值化的mask。

不像类别，框回归，输出都可以是一个向量，mask必须保持一定的空间信息。因此，作者采用FCN来从每个RoI中预测一个的mask。

为此，作者使用了RoIAlign。如下图

为了避免上面提到的量化过程

可以参考

作者使用ResNet作为基础的特征提取的网络。对于预测类别，回归框，mask的网络使用如下图结构：

目标检测的综述论文范文

一、程明明等人的论文：Salient Object Detection: A Surve（简单归纳了文章中的我认为比较重要的部分）该论文旨在全面回顾突出显示目标检测的最新进展，并将其与其他密切相关领域（如通用场景分割，目标建议生成以及固定预测的显著性）相关联。主要内容涉及i）根源，关键概念和任务，ii）核心技术和主要建模趋势，以及iii）显著性物体检测中的数据集和评估指标。讨论并提出了未来的研究反向等开放性问题。 1.介绍 1．1 什么是显著性物体提到一般认为，良好的显著性检测模型应至少满足以下三个标准：1）良好的检测：丢失实际显著区域的可能性以及将背景错误地标记为显著区域应该是低的；2）高分辨率：显著图应该具有高分辨率或全分辨率以准确定位突出物体并保留原始图像信息；3）计算效率：作为其他复杂过程的前端，这些模型应该快速检测显著区域。显著物体检测历史（1）Itti等人提出的最早、经典的的显著模型。例如[24]一文掀起了跨认知心理学、神经科学和计算机视觉等多个学科的第一波热潮。（2）第二波热潮由刘等人的[25]，[55]和Achanta等人的[56]掀起，他们将显著性检测定义为二元分割问题，自此出现了大量的显著性检测模型。（3）最近出现了第三波热潮，卷积神经网络（CNN）[69]，特别是引入完全卷积神经网络[70]。与基于对比线索的大多数经典方法不同[1]，基于CNN的方法消除了对手工特征的需求减轻了对中心偏见知识的依赖，因此被许多科研人员所采用。基于CNN的模型通常包含数十万个可调参数和具有可变感受野大小的神经元。神经元具有较大的接受范围提供全局信息，可以帮助更好地识别图像中最显著的区域。CNN所能实现前所未有的性能使其逐渐成为显著性物体检测的主流方向。 2. 现状调查本节主要回顾三部分内容：1）显著性物体检测模型；2）应用；3）数据集。经典模型（非常详细）具有内在线索的基于块的模型有两个缺点：1）高对比度边缘通常突出而不是突出物体；2）凸显物体的边界不能很好地保存。为了克服这些问题，一些方法提出基于区域来计算显著性。两个主要优点：1）区域的数量远少于区块的数量，这意味着开发高效和快速算法的潜力；2）更多的信息功能可以从区域中提取，领先以更好的表现。具有内在线索的基于区域的模型（图4）基于区域的显著性模型的主要优势：1）采用互补先验，以提高整体性能，这是主要优势；2）与像素和色块相比，区域提供更复杂的线索（如颜色直方图），以更好地捕捉场景的显著对象；3）由于图像中的区域数量远小于像素数量，因此在生成全分辨率显著图时，区域级别的计算显著性可以显著降低计算成本。具有外部线索的模型（图5）其他经典模型（图6）局部化模型、分割模型、监督模式与无监督模式、聚合和优化模型基于深度学习的模型基于CNN（经典卷积网络）的模型 CNN大大降低了计算成本，多级特征允许CNN更好地定位检测到显著区域的边界，即使存在阴影或反射。但CNN特征的空间信息因为使用了MLP（多层感知器）而无法保留。基于FCN（完全卷积网络）的模型该模型具有保存空间信息的能力，可实现点对点学习和端到端训练策略，与CNN相比大大降低了时间成本。但在具有透明物体的场景、前景和背景之间的相同对比度以及复杂的背景等情况无法检测显著物体。元素： PI=像素，PA=补丁，PE=区域，前缀m和h分别表示多尺度和分层版本。假设： CP=中心先验，G=全局对比度，L=局部对比度，ED=边缘密度，B=背景先验，F=先验焦点，O=先验物体，CV=先验凸度，CS=中心环绕对比度，CLP=先验颜色，SD空间分布，BC=边界连通之前，SPS=稀疏噪声。聚合/优化： LN=线性，NL=非线性，AD=自适应，RI=分层，BA=贝叶斯，GMRF=高斯MRF，EM=能量最小化，LS=最小二乘解线索：GT=地面真值注释，SI=相似图像，TC=时间线索，SCO=显著性实现，DP=深度，LF=光场。对于显著性假设： P=通用属性，PRA=预注意线索，HD=高维特征空间中的判别性，SS=显著性相似性，CMP=显著性提示的互补，SP=采样概率，MCO=运动相干性，RP=重复性，RS=区域相似度，C=相应，DK=领域知识。其他： CRF=条件随机场，SVM=支持向量机，BDT=提升决策树，RF=随机森林 4 数据集和评估措施显著对象检测数据集早期的带有包围框的突出物体图像：MSRA-A和MSRA-B 使用像素方式的二进制掩码来注释显著对象：ASD和DUT-OMRON 具有复杂和杂乱背景中的多个对象的数据集:[22]、[23]、[26] 评估措施（5个）用S表示归一化为[0,255]的预测显著图，G是显著对象的地面正式二进制掩模（1）精确召回（PR）。首先将显著图S转化为二进制掩码M，然后通过将M与地面真值G进行比较来计算Precission和Recall：（2） F值：通常Precission和Recall都不能完全评估显著图的质量，为此提出F值作为Precission和Recall的非负权重的集权跳河平均：（3） ROC（Receiver Operating Characteristic）曲线：是以假正率（FP_rate）和假负率（TP_rate）为轴的曲线（4）ROC曲线下面积(AUC)：AUC越大性能越好（5）平均绝对误差（MAE）：进行更全面的比较。图12，比较流行的显著性对象检测数据集：二、传统显著性检测内容补充（论文中的分类和自己平时习惯不一致，所以重新收集资料整理了一下）常用显著性检测方法： 1. 认知模型几乎所有模型都直接或间接地受认知模型启发而来，其一大特点是与心理学和神经学相结合。Itti模型（使用三个特征通道：颜色、属性、方向）是这一类模型的代表，也是后来很多衍生模型的基础 2. 信息论模型本质是最大化来自所处视觉环境的信息，其中最有影响力的模型是AIM模型。 3. 图论模型基于图轮的显著性模型把眼动数据看成时间序列，使用了隐马尔科夫模型、动态贝叶斯网和条件随机场等方法。图模型可以对复杂的注意机制建模，因此能取得较好的预测能力，缺点在于模型的高复杂度，尤其涉及训练和可读性时。典型模型有：GBVS等 4. 频域模型基于频谱分析的显著性模型，形式简洁，易于解释和实现，并且在注意焦点预测和显著区域检测方面取得了很大的成功，但其生物合理性不是非常清楚。经典模型有：频谱残差的显著性检测模型（纯数学计算方法）。参考资料链接：三、基于深度学习的显著性检测内容补充（论文是2014年所写，关于深度学习部分不够完善，因此在此又补充了一下）基于深度学习的显著性目标检测研究发展初期从物体检测神经网络到OverFeat，一直难以取得理想的效果。2014年R-CNN的诞生成为第一个真正可以工业级应用的方案，其在VOC2007测试集的mAP提升至66%。但R-CNN框架仍然存在很多问题： 1) 训练分为多个阶段，步骤较为繁琐：微调网络+训练SVM+训练边框回归器 2) 训练耗时，占用磁盘空间大：5000张图片产生几百G的特征文件 3) 速度慢：使用GPU，VGG-16模型处理一张图像需要47s 截止目前，基于深度学习的显著性目标检测研究可以分为基于区域建议的深度学习目标检测和基于回归的深度学习目标检测两个类别。基于区域建议的深度学习目标检测方法有：R-CNN、SPP-net、FastR-CNN、Faster R-CNN、R-FCN等。 1) R-CNN(Regions with CNN features)重复计算，时间、空间代价较高； 2) SPP-net(Spatial Pyramid Pooling)强化了CNN的使用，允许输入大小不一致的图片，进一步强调了CNN特征计算前移、区域处理后移的思想，极大节省计算量，但不是端到端的模型且CNN特征提取没有联动调参数； 3) FastR-CNN的出现解决了前两者重复计算的问题，实现了区域建议到目标检测一端的卷积共享，首次提出的RoI Pooling技术极大地发挥区域后移的优势，加快了训练速度，采用VGG-16作为CNN网络模型，联动调用参数提升了实验效果，但是依然没有实现端到端的模型，对SS区域建议依赖严重； 4) Faster R-CNN弃用选择性搜索，提出了RPN网络来计算候选框，使用端到端的网络进行目标检测，无论在速度上还是在精度上，都得到了极大的提高，但在速度上并不能满足实时的需求，对每个建议分类计算量仍较大，功能上没有进入实例分割阶段。基于回归的深度学习目标检测方法有：YOLO、SSD、G-CNN、NMS等。 1) YOLO(You Only Look Once)将目标检测任务转换成回归问题，大大简化了检测的过程、加快了检测的速度，但预测目标窗口时使用的是全局信息，冗余度高，且没有区域建议机制后检测精度不高； 2) SSD（Single ShotMultibox Detector）预测某个位置时使用的是该位置周围的特征，结合YOLO的回归思想以及FasterR-CNN中的候选区域机制，既保持了YOLO速度快的特性，也保证了精确定位； 3) G-CNN着力于减少初始化建议数量，使数以万计的建议变成极少的初始格网，提升了检测速度； 4) NMS(Non Maximum Suppression)则通过迭代的形式去除重复候选框，取置信率最大的框。当前实际应用中，基于区域建议的深度学习目标检测使用更为广泛。当前基于深度学习的显著性检测研究方法： R-CNN系列显著性目标检测框架和YOLO显著性目标检测框架给了我们进行基于深度学习的目标检测两个基本框架。目前研究人员基于这些框架从其他方面入手提出一系列提高目标检测性能的方法。如：难样本挖掘、多层特征融合、使用上下文信息、更深网络学习的特征等。原文链接：

目标检测算法ssd论文解读

深度学习目前已经应用到了各个领域，应用场景大体分为三类：物体识别，目标检测，自然语言处理。目标检测可以理解为是物体识别和物体定位的综合，不仅仅要识别出物体属于哪个分类，更重要的是得到物体在图片中的具体位置。 2014年R-CNN算法被提出，基本奠定了two-stage方式在目标检测领域的应用。它的算法结构如下图算法步骤如下： R-CNN较传统的目标检测算法获得了50%的性能提升，在使用VGG-16模型作为物体识别模型情况下，在voc2007数据集上可以取得66%的准确率，已经算还不错的一个成绩了。其最大的问题是速度很慢，内存占用量很大，主要原因有两个针对R-CNN的部分问题，2015年微软提出了Fast R-CNN算法，它主要优化了两个问题。 R-CNN和fast R-CNN均存在一个问题，那就是由选择性搜索来生成候选框，这个算法很慢。而且R-CNN中生成的2000个左右的候选框全部需要经过一次卷积神经网络，也就是需要经过2000次左右的CNN网络，这个是十分耗时的（fast R-CNN已经做了改进，只需要对整图经过一次CNN网络）。这也是导致这两个算法检测速度较慢的最主要原因。 faster R-CNN 针对这个问题，提出了RPN网络来进行候选框的获取，从而摆脱了选择性搜索算法，也只需要一次卷积层操作，从而大大提高了识别速度。这个算法十分复杂，我们会详细分析。它的基本结构如下图主要分为四个步骤：使用VGG-16卷积模型的网络结构：卷积层采用的VGG-16模型，先将PxQ的原始图片，缩放裁剪为MxN的图片，然后经过13个conv-relu层，其中会穿插4个max-pooling层。所有的卷积的kernel都是3x3的，padding为1，stride为1。pooling层kernel为2x2, padding为0，stride为2。 MxN的图片，经过卷积层后，变为了(M/16) x (N/16)的feature map了。 faster R-CNN抛弃了R-CNN中的选择性搜索（selective search）方法，使用RPN层来生成候选框，能极大的提升候选框的生成速度。RPN层先经过3x3的卷积运算，然后分为两路。一路用来判断候选框是前景还是背景，它先reshape成一维向量，然后softmax来判断是前景还是背景，然后reshape恢复为二维feature map。另一路用来确定候选框的位置，通过bounding box regression实现，后面再详细讲。两路计算结束后，挑选出前景候选框（因为物体在前景中），并利用计算得到的候选框位置，得到我们感兴趣的特征子图proposal。卷积层提取原始图像信息，得到了256个feature map，经过RPN层的3x3卷积后，仍然为256个feature map。但是每个点融合了周围3x3的空间信息。对每个feature map上的一个点，生成k个anchor（k默认为9）。anchor分为前景和背景两类（我们先不去管它具体是飞机还是汽车，只用区分它是前景还是背景即可）。anchor有[x,y,w,h]四个坐标偏移量，x,y表示中心点坐标，w和h表示宽度和高度。这样，对于feature map上的每个点，就得到了k个大小形状各不相同的选区region。对于生成的anchors，我们首先要判断它是前景还是背景。由于感兴趣的物体位于前景中，故经过这一步之后，我们就可以舍弃背景anchors了。大部分的anchors都是属于背景，故这一步可以筛选掉很多无用的anchor，从而减少全连接层的计算量。对于经过了3x3的卷积后得到的256个feature map，先经过1x1的卷积，变换为18个feature map。然后reshape为一维向量，经过softmax判断是前景还是背景。此处reshape的唯一作用就是让数据可以进行softmax计算。然后输出识别得到的前景anchors。另一路用来确定候选框的位置，也就是anchors的[x,y,w,h]坐标值。如下图所示，红色代表我们当前的选区，绿色代表真实的选区。虽然我们当前的选取能够大概框选出飞机，但离绿色的真实位置和形状还是有很大差别，故需要对生成的anchors进行调整。这个过程我们称为bounding box regression。假设红色框的坐标为[x,y,w,h], 绿色框，也就是目标框的坐标为[Gx, Gy,Gw,Gh], 我们要建立一个变换，使得[x,y,w,h]能够变为[Gx, Gy,Gw,Gh]。最简单的思路是，先做平移，使得中心点接近，然后进行缩放，使得w和h接近。如下：我们要学习的就是dx dy dw dh这四个变换。由于是线性变换，我们可以用线性回归来建模。设定loss和优化方法后，就可以利用深度学习进行训练，并得到模型了。对于空间位置loss，我们一般采用均方差算法，而不是交叉熵（交叉熵使用在分类预测中）。优化方法可以采用自适应梯度下降算法Adam。得到了前景anchors，并确定了他们的位置和形状后，我们就可以输出前景的特征子图proposal了。步骤如下： 1，得到前景anchors和他们的[x y w h]坐标。 2，按照anchors为前景的不同概率，从大到小排序，选取前pre_nms_topN个anchors，比如前6000个 3，剔除非常小的anchors。 4，通过NMS非极大值抑制，从anchors中找出置信度较高的。这个主要是为了解决选取交叠问题。首先计算每一个选区面积，然后根据他们在softmax中的score（也就是是否为前景的概率）进行排序，将score最大的选区放入队列中。接下来，计算其余选区与当前最大score选区的IOU（IOU为两box交集面积除以两box并集面积，它衡量了两个box之间重叠程度）。去除IOU大于设定阈值的选区。这样就解决了选区重叠问题。 5，选取前post_nms_topN个结果作为最终选区proposal进行输出，比如300个。经过这一步之后，物体定位应该就基本结束了，剩下的就是物体识别了。和fast R-CNN中类似，这一层主要解决之前得到的proposal大小形状各不相同，导致没法做全连接。全连接计算只能对确定的shape进行运算，故必须使proposal大小形状变为相同。通过裁剪和缩放的手段，可以解决这个问题，但会带来信息丢失和图片形变问题。我们使用ROI pooling可以有效的解决这个问题。 ROI pooling中，如果目标输出为MxN，则在水平和竖直方向上，将输入proposal划分为MxN份，每一份取最大值，从而得到MxN的输出特征图。 ROI Pooling层后的特征图，通过全连接层与softmax，就可以计算属于哪个具体类别，比如人，狗，飞机，并可以得到cls_prob概率向量。同时再次利用bounding box regression精细调整proposal位置，得到bbox_pred，用于回归更加精确的目标检测框。这样就完成了faster R-CNN的整个过程了。算法还是相当复杂的，对于每个细节需要反复理解。faster R-CNN使用resNet101模型作为卷积层，在voc2012数据集上可以达到的准确率，超过yolo ssd和yoloV2。其最大的问题是速度偏慢，每秒只能处理5帧，达不到实时性要求。针对于two-stage目标检测算法普遍存在的运算速度慢的缺点， yolo创造性的提出了one-stage。也就是将物体分类和物体定位在一个步骤中完成。 yolo直接在输出层回归bounding box的位置和bounding box所属类别，从而实现one-stage。通过这种方式， yolo可实现45帧每秒的运算速度，完全能满足实时性要求（达到24帧每秒，人眼就认为是连续的）。它的网络结构如下图：主要分为三个部分：卷积层，目标检测层，NMS筛选层。采用Google inceptionV1网络，对应到上图中的第一个阶段，共20层。这一层主要是进行特征提取，从而提高模型泛化能力。但作者对inceptionV1进行了改造，他没有使用inception module结构，而是用一个1x1的卷积，并联一个3x3的卷积来替代。（可以认为只使用了inception module中的一个分支，应该是为了简化网络结构）先经过4个卷积层和2个全连接层，最后生成7x7x30的输出。先经过4个卷积层的目的是为了提高模型泛化能力。yolo将一副448x448的原图分割成了7x7个网格，每个网格要预测两个bounding box的坐标(x,y,w,h)和box内包含物体的置信度confidence，以及物体属于20类别中每一类的概率（yolo的训练数据为voc2012，它是一个20分类的数据集）。所以一个网格对应的参数为（4x2+2+20) = 30。如下图其中前一项表示有无人工标记的物体落入了网格内，如果有则为1，否则为0。第二项代表bounding box和真实标记的box之间的重合度。它等于两个box面积交集，除以面积并集。值越大则box越接近真实位置。分类信息： yolo的目标训练集为voc2012，它是一个20分类的目标检测数据集。常用目标检测数据集如下表： | Name | # Images (trainval) | # Classes | Last updated | | --------------- | ------------------- | --------- | ------------ | | ImageNet | 450k | 200 | 2015 | | COCO | 120K | 90 | 2014 | | Pascal VOC | 12k | 20 | 2012 | | Oxford-IIIT Pet | 7K | 37 | 2012 | | KITTI Vision | 7K | 3 | | 每个网格还需要预测它属于20分类中每一个类别的概率。分类信息是针对每个网格的，而不是bounding box。故只需要20个，而不是40个。而confidence则是针对bounding box的，它只表示box内是否有物体，而不需要预测物体是20分类中的哪一个，故只需要2个参数。虽然分类信息和confidence都是概率，但表达含义完全不同。筛选层是为了在多个结果中（多个bounding box）筛选出最合适的几个，这个方法和faster R-CNN 中基本相同。都是先过滤掉score低于阈值的box，对剩下的box进行NMS非极大值抑制，去除掉重叠度比较高的box（NMS具体算法可以回顾上面faster R-CNN小节）。这样就得到了最终的最合适的几个box和他们的类别。 yolo的损失函数包含三部分，位置误差，confidence误差，分类误差。具体公式如下：误差均采用了均方差算法，其实我认为，位置误差应该采用均方差算法，而分类误差应该采用交叉熵。由于物体位置只有4个参数，而类别有20个参数，他们的累加和不同。如果赋予相同的权重，显然不合理。故yolo中位置误差权重为5，类别误差权重为1。由于我们不是特别关心不包含物体的bounding box，故赋予不包含物体的box的置信度confidence误差的权重为，包含物体的权重则为1。 Faster R-CNN准确率mAP较高，漏检率recall较低，但速度较慢。而yolo则相反，速度快，但准确率和漏检率不尽人意。SSD综合了他们的优缺点，对输入300x300的图像，在voc2007数据集上test，能够达到58 帧每秒( Titan X 的 GPU )，的mAP。 SSD网络结构如下图：和yolo一样，也分为三部分：卷积层，目标检测层和NMS筛选层 SSD论文采用了VGG16的基础网络，其实这也是几乎所有目标检测神经网络的惯用方法。先用一个CNN网络来提取特征，然后再进行后续的目标定位和目标分类识别。这一层由5个卷积层和一个平均池化层组成。去掉了最后的全连接层。SSD认为目标检测中的物体，只与周围信息相关，它的感受野不是全局的，故没必要也不应该做全连接。SSD的特点如下。每一个卷积层，都会输出不同大小感受野的feature map。在这些不同尺度的feature map上，进行目标位置和类别的训练和预测，从而达到多尺度检测的目的，可以克服yolo对于宽高比不常见的物体，识别准确率较低的问题。而yolo中，只在最后一个卷积层上做目标位置和类别的训练和预测。这是SSD相对于yolo能提高准确率的一个关键所在。如上所示，在每个卷积层上都会进行目标检测和分类，最后由NMS进行筛选，输出最终的结果。多尺度feature map上做目标检测，就相当于多了很多宽高比例的bounding box，可以大大提高泛化能力。和faster R-CNN相似，SSD也提出了anchor的概念。卷积输出的feature map，每个点对应为原图的一个区域的中心点。以这个点为中心，构造出6个宽高比例不同，大小不同的anchor（SSD中称为default box）。每个anchor对应4个位置参数(x,y,w,h)和21个类别概率（voc训练集为20分类问题，在加上anchor是否为背景，共21分类）。如下图所示：另外，在训练阶段，SSD将正负样本比例定位1：3。训练集给定了输入图像以及每个物体的真实区域（ground true box），将default box和真实box最接近的选为正样本。然后在剩下的default box中选择任意一个与真实box IOU大于的，作为正样本。而其他的则作为负样本。由于绝大部分的box为负样本，会导致正负失衡，故根据每个box类别概率排序，使正负比例保持在1：3。SSD认为这个策略提高了4%的准确率另外，SSD采用了数据增强。生成与目标物体真实box间IOU为的patch，随机选取这些patch参与训练，并对他们进行随机水平翻转等操作。SSD认为这个策略提高了的准确率。和yolo的筛选层基本一致，同样先过滤掉类别概率低于阈值的default box，再采用NMS非极大值抑制，筛掉重叠度较高的。只不过SSD综合了各个不同feature map上的目标检测输出的default box。 SSD基本已经可以满足我们手机端上实时物体检测需求了，TensorFlow在Android上的目标检测官方模型，就是通过SSD算法实现的。它的基础卷积网络采用的是mobileNet，适合在终端上部署和运行。针对yolo准确率不高，容易漏检，对长宽比不常见物体效果差等问题，结合SSD的特点，提出了yoloV2。它主要还是采用了yolo的网络结构，在其基础上做了一些优化和改进，如下网络采用DarkNet-19：19层，里面包含了大量3x3卷积，同时借鉴inceptionV1，加入1x1卷积核全局平均池化层。结构如下 yolo和yoloV2只能识别20类物体，为了优化这个问题，提出了yolo9000，可以识别9000类物体。它在yoloV2基础上，进行了imageNet和coco的联合训练。这种方式充分利用imageNet可以识别1000类物体和coco可以进行目标位置检测的优点。当使用imageNet训练时，只更新物体分类相关的参数。而使用coco时，则更新全部所有参数。 YOLOv3可以说出来直接吊打一切图像检测算法。比同期的DSSD(反卷积SSD), FPN（feature pyramid networks）准确率更高或相仿，速度是其1/3.。 YOLOv3的改动主要有如下几点：不过如果要求更精准的预测边框，采用COCO AP做评估标准的话，YOLO3在精确率上的表现就弱了一些。如下图所示。当前目标检测模型算法也是层出不穷。在two-stage领域， 2017年Facebook提出了mask R-CNN 。CMU也提出了A-Fast-RCNN 算法，将对抗学习引入到目标检测领域。Face++也提出了Light-Head R-CNN，主要探讨了 R-CNN 如何在物体检测中平衡精确度和速度。 one-stage领域也是百花齐放，2017年首尔大学提出 R-SSD 算法，主要解决小尺寸物体检测效果差的问题。清华大学提出了 RON 算法，结合 two stage 名的方法和 one stage 方法的优势，更加关注多尺度对象定位和负空间样本挖掘问题。目标检测领域的深度学习算法，需要进行目标定位和物体识别，算法相对来说还是很复杂的。当前各种新算法也是层不出穷，但模型之间有很强的延续性，大部分模型算法都是借鉴了前人的思想，站在巨人的肩膀上。我们需要知道经典模型的特点，这些tricks是为了解决什么问题，以及为什么解决了这些问题。这样才能举一反三，万变不离其宗。综合下来，目标检测领域主要的难点如下：一文读懂目标检测AI算法：R-CNN，faster R-CNN，yolo，SSD，yoloV2 从YOLOv1到v3的进化之路 SSD-Tensorflow超详细解析【一】：加载模型对图片进行测试 YOLO C#项目参考：项目实践贴个图。

论文链接： tensorflow源码链接： SSD是YOLO之后又一个引人注目的目标检测结构，它沿用了YOLO中直接回归 bbox和分类概率的方法，同时又参考了Faster R-CNN，大量使用anchor来提升识别准确度。通过把这两种结构相结合，SSD保持了很高的识别速度，还能把mAP提升到较高的水平。原作者给了两种SSD结构，SSD 300和SSD 512，用于不同输入尺寸的图像识别。本文中以SSD 300为例，图1上半部分就是SSD 300，下半部分是YOLO，可以对比来看。SSD 300中输入图像的大小是300x300，特征提取部分使用了VGG16的卷积层，并将VGG16的两个全连接层转换成了普通的卷积层（图中conv6和conv7），之后又接了多个卷积（conv8_1，conv8_2，conv9_1，conv9_2，conv10_1，conv10_2），最后用一个Global Average Pool来变成1x1的输出（conv11_2）。a、重新启用了Faster R-CNN中anchor的结构在SSD中如果有多个ground truth，每个anchor（原文中称作default box，取名不同而已）会选择对应到IOU最大的那个ground truth。一个anchor只会对应一个ground truth，但一个ground truth都可以对应到大量anchor，这样无论两个ground truth靠的有多近，都不会出现YOLO中bbox冲突的情况。 b、同时使用多个层级上的anchor来进行回归作者认为仅仅靠同一层上的多个anchor来回归，还远远不够。因为有很大可能这层上所有anchor的IOU都比较小，就是说所有anchor离ground truth都比较远，用这种anchor来训练误差会很大。例如图2中，左边较低的层级因为feature map尺寸比较大，anchor覆盖的范围就比较小，远小于ground truth的尺寸，所以这层上所有anchor对应的IOU都比较小；右边较高的层级因为feature map尺寸比较小，anchor覆盖的范围就比较大，远超过ground truth的尺寸，所以IOU也同样比较小；只有图2中间的anchor才有较大的IOU。通过同时对多个层级上的anchor计算IOU，就能找到与ground truth的尺寸、位置最接近（即IOU最大）的一批anchor，在训练时也就能达到最好的准确度。SSD的优点在前面章节已经说了：通过在不同层级选用不同尺寸、不同比例的anchor，能够找到与ground truth匹配最好的anchor来进行训练，从而使整个结构的精确度更高。 SSD的缺点是对小尺寸的目标识别仍比较差，还达不到Faster R-CNN的水准。这主要是因为小尺寸的目标多用较低层级的anchor来训练(因为小尺寸目标在较低层级IOU较大)，较低层级的特征非线性程度不够，无法训练到足够的精确度。下图是各种目标识别结构在mAP和训练速度上的比较，可以看到SSD在其中的位置：