使用 YOLO v5 进行目标检测_IT百科

在这篇文章中，我们将使用来自 AWS 上的 COCO 数据集（可定制）的图像设置和运行 YOLO。

一般来说，分类技术在自动驾驶汽车中没有多大帮助，因为它只预测图像中的一个对象，并且不给出该图像的位置。而目标检测在自动驾驶汽车中非常重要，可以检测场景中的对象及其位置。 YOLO（你只看一次）是由 Joseph Redmon 等人创建的一种高速实时对象检测算法。 YOLO使用卷积神经网络 (CNN)解决概率的回归问题。后来又进行了一些修改。为了进行预测，YOLO 只需要通过 CNN 进行一次前向传播。它输出具有相应边界框的对象。它广泛用于自动驾驶汽车以检测场景中的物体。

第 1 步：设置帐户（这步可以跳过）

登录wandb.ai网站并复制以下内容：

来自 wandb.ai/authorize 的 API 密钥

wandb.ai/settings 中的团队名称。默认团队名称将是用户 ID。

第 2 步：创建 AWS 实例（如果你在本机训练这步也可以跳过）

在创建实例时，选择“Deep Learning AMI (Ubuntu 18.04) Version 47.0 — ami-01f1096e6659d38fa”AMI，因为它具有深度学习任务所需的库。如果我们在“选择AWS机器映像 (AMI)”步骤中搜索“deep learning”，我们可以找到这。为“实例类型”选择 P3 实例。实例类型 p3.2xlarge（V100）就足够了。为了节省成本，请在“配置实例”步骤下选择 Spot 实例。

第 3 步：安装依赖项

第 4 步：训练、验证和测试

第 5 步：检查指标

验证集真实标签

验证集预测标签

训练的损失

测试

以上所有结果都会保存在文件夹yolov5runsdetectexp下

在目标检测中，IoU 为预测框 (Prediction) 和真实框 (Ground truth) 的交并比。如下图所示，在关于小猫的目标检测中，紫线边框为预测框 (Prediction)，红线边框为真实框 (Ground truth)。

在目标检测任务中，通常取 IoU≥0.5，认为召回。如果 IoU 阈值设置更高，召回率将会降低，但定位框则更加精确。

理想的情况，当然是预测框与真实框重叠越多越好，如果两者完全重叠，则交集与并集面积相同，此时 IoU 等于 1。

之前的目标检测方法需要先产生候选区再检测的方法虽然有相对较高的检测准确率，但运行速度较慢。

YOLO 将识别与定位合二为一，结构简便，检测速度快，更快的 Fast YOLO 可以达到 155FPS。

YOLO 网络借鉴了 GoogLeNet 分类网络结构，不同的是 YOLO 使用 1x1 卷积层和 3x3 卷积层替代 inception module。如下图所示，整个检测网络包括 24 个卷积层和 2 个全连接层。其中，卷积层用来提取图像特征，全连接层用来预测图像位置和类别概率值。

如上图所示，损失函数分为坐标预测（蓝色框）、含有物体的边界框的 confidence 预测（红色框）、不含有物体的边界框的 confidence 预测（黄色框）、分类预测（紫色框）四个部分。

由于不同大小的边界框对预测偏差的敏感度不同，小的边界框对预测偏差的敏感度更大。为了均衡不同尺寸边界框对预测偏差的敏感度的差异。作者巧妙的对边界框的 w,h 取均值再求 L2 loss. YOLO 中更重视坐标预测，赋予坐标损失更大的权重，记为 coord，在 pascal voc 训练中 coodd=5 ，classification error 部分的权重取 1。

某边界框的置信度定义为：某边界框的 confidence = 该边界框存在某类对象的概率 pr (object)* 该边界框与该对象的 ground truth 的 IOU 值，若该边界框存在某个对象 pr (object)=1 ，否则 pr (object)=0 。由于一幅图中大部分网格中是没有物体的，这些网格中的边界框的 confidence 置为 0，相比于有物体的网格，这些不包含物体的网格更多，对梯度更新的贡献更大，会导致网络不稳定。为了平衡上述问题，YOLO 损失函数中对没有物体的边界框的 confidence error 赋予较小的权重，记为 noobj，对有物体的边界框的 confidence error 赋予较大的权重。在 pascal VOC 训练中 noobj=0.5 ，有物体的边界框的 confidence error 的权重设为 1.

YOLOv1 虽然检测速度快，但在定位方面不够准确，并且召回率较低。为了提升定位准确度，改善召回率，YOLOv2 在 YOLOv1 的基础上提出了几种改进策略

YOLOv2 中在每个卷积层后加 Batch Normalization (BN) 层，去掉 dropout. BN 层可以起到一定的正则化效果，能提升模型收敛速度，防止模型过拟合。YOLOv2 通过使用 BN 层使得 mAP 提高了 2%。

目前的大部分检测模型都会使用主流分类网络（如 vgg、resnet）在 ImageNet 上的预训练模型作为特征提取器，而这些分类网络大部分都是以小于 256x256 的图片作为输入进行训练的，低分辨率会影响模型检测能力。YOLOv2 将输入图片的分辨率提升至 448x448，为了使网络适应新的分辨率，YOLOv2 先在 ImageNet 上以 448x448 的分辨率对网络进行 10 个 epoch 的微调，让网络适应高分辨率的输入。通过使用高分辨率的输入，YOLOv2 的 mAP 提升了约 4%。

YOLOv1 利用全连接层直接对边界框进行预测，导致丢失较多空间信息，定位不准。YOLOv2 去掉了 YOLOv1 中的全连接层，使用 Anchor Boxes 预测边界框，同时为了得到更高分辨率的特征图，YOLOv2 还去掉了一个池化层。由于图片中的物体都倾向于出现在图片的中心位置，若特征图恰好有一个中心位置，利用这个中心位置预测中心点落入该位置的物体，对这些物体的检测会更容易。所以总希望得到的特征图的宽高都为奇数。YOLOv2 通过缩减网络，使用 416x416 的输入，模型下采样的总步长为 32，最后得到 13x13 的特征图， 然后对 13x13 的特征图的每个 cell 预测 5 个 anchor boxes ，对每个 anchor box 预测边界框的位置信息、置信度和一套分类概率值。使用 anchor boxes 之后，YOLOv2 可以预测 13x13x5=845 个边界框，模型的召回率由原来的 81% 提升到 88%，mAP 由原来的 69.5% 降低到 69.2%. 召回率提升了 7%，准确率下降了 0.3%。

YOLOv2 采用 Darknet-19，其网络结构如下图所示，包括 19 个卷积层和 5 个 max pooling 层，主要采用 3x3 卷积和 1x1 卷积， 这里 1x1 卷积可以压缩特征图通道数以降低模型计算量和参数 ，每个卷积层后使用 BN 层 以加快模型收敛同时防止过拟合。最终采用 global avg pool 做预测。采用 YOLOv2，模型的 mAP 值没有显著提升，但计算量减少了。

在 Faster R-CNN 和 SSD 中，先验框都是手动设定的，带有一定的主观性。YOLOv2 采用 k-means 聚类算法对训练集中的边界框做了聚类分析，选用 boxes 之间的 IOU 值作为聚类指标。综合考虑模型复杂度和召回率，最终选择 5 个聚类中心，得到 5 个先验框，发现其中中扁长的框较少，而瘦高的框更多，更符合行人特征。通过对比实验，发现用聚类分析得到的先验框比手动选择的先验框有更高的平均 IOU 值，这使得模型更容易训练学习。

Faster R-CNN 使用 anchor boxes 预测边界框相对先验框的偏移量，由于没有对偏移量进行约束，每个位置预测的边界框可以落在图片任何位置，会导致模型不稳定，加长训练时间。YOLOv2 沿用 YOLOv1 的方法，根据所在网格单元的位置来预测坐标，则 Ground Truth 的值介于 0 到 1 之间。网络中将得到的网络预测结果再输入 sigmoid 函数中，让输出结果介于 0 到 1 之间。设一个网格相对于图片左上角的偏移量是 cx，cy。先验框的宽度和高度分别是 pw 和 ph，则预测的边界框相对于特征图的中心坐标 (bx，by) 和宽高 bw、bh 的计算公式如下图所示。

YOLOv2 结合 Dimention Clusters, 通过对边界框的位置预测进行约束，使模型更容易稳定训练，这种方式使得模型的 mAP 值提升了约 5%。

YOLOv2 借鉴 SSD 使用多尺度的特征图做检测，提出 pass through 层将高分辨率的特征图与低分辨率的特征图联系在一起，从而实现多尺度检测。YOLOv2 提取 Darknet-19 最后一个 max pool 层的输入，得到 26x26x512 的特征图。经过 1x1x64 的卷积以降低特征图的维度，得到 26x26x64 的特征图，然后经过 pass through 层的处理变成 13x13x256 的特征图（抽取原特征图每个 2x2 的局部区域组成新的 channel，即原特征图大小降低 4 倍，channel 增加 4 倍），再与 13x13x1024 大小的特征图连接，变成 13x13x1280 的特征图，最后在这些特征图上做预测。使用 Fine-Grained Features，YOLOv2 的性能提升了 1%.

YOLOv2 中使用的 Darknet-19 网络结构中只有卷积层和池化层，所以其对输入图片的大小没有限制。YOLOv2 采用多尺度输入的方式训练，在训练过程中每隔 10 个 batches , 重新随机选择输入图片的尺寸，由于 Darknet-19 下采样总步长为 32，输入图片的尺寸一般选择 32 的倍数 {320,352,…,608}。采用 Multi-Scale Training, 可以适应不同大小的图片输入，** 当采用低分辨率的图片输入时，mAP 值略有下降，但速度更快，当采用高分辨率的图片输入时，能得到较高 mAP 值，但速度有所下降。**

YOLOv2 借鉴了很多其它目标检测方法的一些技巧，如 Faster R-CNN 的 anchor boxes, SSD 中的多尺度检测。除此之外，YOLOv2 在网络设计上做了很多 tricks, 使它能在保证速度的同时提高检测准确率，Multi-Scale Training 更使得同一个模型适应不同大小的输入，从而可以在速度和精度上进行自由权衡。

YOLO v2 对 YOLO v1 的缺陷进行优化，大幅度高了检测的性能，但仍存在一定的问题， 如无法解决重叠问题的分类等 。

将 256x256 的图片分别输入以 Darknet-19，ResNet-101，ResNet-152 和 Darknet-53 为基础网络的分类模型中，实验得到的结果如下图所示。可以看到 Darknet-53 比 ResNet-101 的性能更好，而且速度是其 1.5 倍，Darknet-53 与 ResNet-152 性能相似但速度几乎是其 2 倍。注意到，Darknet-53 相比于其它网络结构实现了每秒最高的浮点计算量，说明其网络结构能更好的利用 GPU。

YOLOv3 借鉴了 FPN 的思想，从不同尺度提取特征。相比 YOLOv2，YOLOv3 提取最后 3 层特征图，不仅在每个特征图上分别独立做预测，同时通过将小特征图上采样到与大的特征图相同大小，然后与大的特征图拼接做进一步预测。用维度聚类的思想聚类出 9 种尺度的 anchor box，将 9 种尺度的 anchor box 均匀的分配给 3 种尺度的特征图 .

在实际应用场合中，一个物体有可能输入多个类别，单纯的单标签分类在实际场景中存在一定的限制。举例来说，一辆车它既可以属于 car（小汽车）类别，也可以属于 vehicle（交通工具），用单标签分类只能得到一个类别。因此在 YOLO v3 在网络结构中把原先的 softmax 层换成了逻辑回归层，从而实现把单标签分类改成多标签分类。用多个 logistic 分类器代替 softmax 并不会降低准确率，可以维持 YOLO 的检测精度不下降。

对于对象检测，不仅要考虑精度，还要考虑实时运行的性能，虽然现在算力大幅度上升，但是普通的设备跑起来还是有点吃力。提高精度和加快速率仍是目标检测的重大课题，道阻且长！

参考：

YOLOv1 参考

YOLOv2 参考

YOLOv3 参考

https://mp.weixin.qq.com/s/yccBloK5pOVxDIFkmoY7xg ：非极大抑制

https://blog.csdn.net/Gentleman_Qin/article/details/84349144

|声明：遵循CC 4.0 BY-SA版权协议

建立在YOLOv1的基础上，经过Joseph Redmon等的改进，YOLOv2和YOLO9000算法在2017年CVPR上被提出，并获得最佳论文提名，重点解决YOLOv1召回率和定位精度方面的误差。在提出时，YOLOv2在多种监测数据集中都要快过其他检测系统，并可以在速度与精确度上进行权衡。

YOLOv2采用Darknet-19作为特征提取网络，增加了批量标准化（Batch Normalization）的预处理，并使用224×224和448×448两阶段训练ImageNet，得到预训练模型后fine-tuning。

相比于YOLOv1是利用FC层直接预测Bounding Box的坐标，YOLOv2借鉴了FSR-CNN的思想，引入Anchor机制，利用K-Means聚类的方式在训练集中聚类计算出更好的Anchor模板，在卷积层使用Anchor Boxes *** 作，增加Region Proposal的预测，同时采用较强约束的定位方法，大大提高算法召回率。同时结合图像细粒度特征，将浅层特征与深层特征相连，有助于对小尺寸目标的检测。

下图所示是YOLOv2采取的各项改进带了的检测性能上的提升：

YOLO9000 的主要检测网络也是YOLO v2，同时使用WordTree来混合来自不同的资源的训练数据，并使用联合优化技术同时在ImageNet和COCO数据集上进行训练，目的是利用数量较大的分类数据集来帮助训练检测模型，因此，YOLO 9000的网络结构允许实时地检测超过9000种物体分类，进一步缩小了检测数据集与分类数据集之间的大小代沟。

下面将具体分析YOLOv2的各个创新点:

BN概述：

对数据进行预处理（统一格式、均衡化、去噪等）能够大大提高训练速度，提升训练效果。BN正是基于这个假设的实践，对每一层输入的数据进行加工。

BN是2015年Google研究员在论文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》一文中提出的，同时也将BN应用到了2014年的GoogLeNet上，也就是Inception-v2。

BN层简单讲就是对网络的每一层的输入都做了归一化，这样网络就不需要每层都去学数据的分布，收敛会更快。YOLOv1算法（采用的是GoogleNet网络提取特征）是没有BN层的，而在YOLOv2中作者为每个卷积层都添加了BN层。

使用BN对网络进行优化，让网络提高了收敛性，同时还消除了对其他形式的正则化（regularization）的依赖，因此使用BN后可以从模型中去掉Dropout，而不会产生过拟合。

BN优点：

神经网络每层输入的分布总是发生变化，加入BN，通过标准化上层输出，均衡输入数据分布，加快训练速度，因此可以设置较大的学习率（Learning Rate）和衰减（Decay）；

通过标准化输入，降低激活函数（Activation Function）在特定输入区间达到饱和状态的概率，避免梯度弥散（Gradient Vanishing）问题；

输入标准化对应样本正则化，BN在一定程度上可以替代 Dropout解决过拟合问题。

BN算法：

在卷积或池化之后，激活函数之前，对每个数据输出进行标准化，方式如下图所示：

公式很简单，前三行是 Batch内数据归一化（假设一个Batch中有每个数据），同一Batch内数据近似代表了整体训练数据。第四行引入了附加参数 γ 和 β，此二者的取值算法可以参考BN论文，在此不再赘述。

fine-tuning：用已经训练好的模型，加上自己的数据集，来训练新的模型。即使用别人的模型的前几层，来提取浅层特征，而非完全重新训练模型，从而提高效率。一般新训练模型准确率都会从很低的值开始慢慢上升，但是fine-tuning能够让我们在比较少的迭代次数之后得到一个比较好的效果。

YOLO模型分为两部分，分类模型和检测模型，前者使用在ImageNet上预训练好的模型，后者在检测数据集上fine-tuning。

YOLOv1在预训练时采用的是224*224的输入（在ImageNet数据集上进行），然后在检测的时候采用448*448的输入，这会导致从分类模型切换到检测模型的时候，模型还要适应图像分辨率的改变。

YOLOv2则将预训练分成两步：先用224*224的输入在ImageNet数据集训练分类网络，大概160个epoch（将所有训练数据循环跑160次）后将输入调整到448*448，再训练10个epoch（这两步都是在ImageNet数据集上 *** 作）。然后利用预训练得到的模型在检测数据集上fine-tuning。这样训练得到的模型，在检测时用448*448的图像作为输入可以顺利检测。

YOLOv1将输入图像分成7*7的网格，每个网格预测2个Bounding Box，因此一共有98个Box，同时YOLOv1包含有全连接层，从而能直接预测Bounding Boxes的坐标值，但也导致丢失较多的空间信息，定位不准。

YOLOv2首先将YOLOv1网络的FC层和最后一个Pooling层去掉，使得最后的卷积层可以有更高分辨率的特征，然后缩减网络，用416*416大小的输入代替原来的448*448，使得网络输出的特征图有奇数大小的宽和高，进而使得每个特征图在划分单元格（Cell）的时候只有一个中心单元格（Center Cell）。

为什么希望只有一个中心单元格呢？由于图片中的物体都倾向于出现在图片的中心位置，特别是比较大的物体，所以有一个单元格单独位于物体中心的位置用于预测这些物体。

YOLOv2通过引入Anchor Boxes，通过预测Anchor Box的偏移值与置信度，而不是直接预测坐标值。YOLOv2的卷积层采用32这个值来下采样图片，所以通过选择416*416用作输入尺寸最终能输出一个13*13的特征图。若采用FSRCNN中的方式，每个Cell可预测出9个Anchor Box，共13*13*9=1521个（YOLOv2确定Anchor Boxes的方法见是维度聚类，每个Cell选择5个Anchor Box）。

在FSRCNN中，以一个51*39大小的特征图为例，其可以看做一个尺度为51*39的图像，对于该图像的每一个位置，考虑9个可能的候选窗口：3种面积3种比例。这些候选窗口称为Anchor Boxes。下图示出的是51*39个Anchor Box中心，以及9种Anchor Box示例。

YOLOv1和YOLOv2特征图数据结构：

YOLOv1：S*S* (B*5 + C) =>7*7（2*5+20）

其中B对应Box数量，5对应边界框的定位信息（w,y,w,h）和边界框置信度（Confidience）。分辨率是7*7，每个Cell预测2个Box，这2个Box共用1套条件类别概率（1*20）。

YOLOv2：S*S*K* (5 + C) =>13*13*9（5+20）

分辨率提升至13*13，对小目标适应性更好，借鉴了FSRCNN的思想，每个Cell对应K个Anchor box（YOLOv2中K=5），每个Anchor box对应1组条件类别概率（1*20）。

聚类：聚类是指事先没有“标签”而通过某种成团分析找出事物之间存在聚集性原因的过程。即在没有划分类别的情况下，根据数据相似度进行样本分组。

在FSR-CNN中Anchor Box的大小和比例是按经验设定的，然后网络会在训练过程中调整Anchor Box的尺寸，最终得到准确的Anchor Boxes。若一开始就选择了更好的、更有代表性的先验Anchor Boxes，那么网络就更容易学到准确的预测位置。

YOLOv2使用K-means聚类方法类训练Bounding Boxes，可以自动找到更好的宽高维度的值用于一开始的初始化。传统的K-means聚类方法使用的是欧氏距离函数，意味着较大的Anchor Boxes会比较小的Anchor Boxes产生更多的错误，聚类结果可能会偏离。由于聚类目的是确定更精准的初始Anchor Box参数，即提高IOU值，这应与Box大小无关，因此YOLOv2采用IOU值为评判标准，即K-means 采用的距离函数（度量标准）为：

d(box,centroid) = 1 - IOU(box,centroid)

如下图，左边是聚类的簇个数和IOU的关系，两条曲线分别代表两个不同的数据集。分析聚类结果并权衡模型复杂度与IOU值后，YOLOv2选择K=5，即选择了5种大小的Box 维度来进行定位预测。

其中紫色和灰色也是分别表示两个不同的数据集，可以看出其基本形状是类似的。更重要的是，可以看出聚类的结果和手动设置的Anchor Box位置和大小差别显著——结果中扁长的框较少，而瘦高的框更多（更符合行人的特征）。

YOLOv2采用的5种Anchor的Avg IOU是61，而采用9种Anchor Boxes的Faster RCNN的Avg IOU是60.9，也就是说本文仅选取5种box就能达到Faster RCNN的9中box的效果。选择值为9的时候，AVG IOU更有显著提高。说明K-means方法的生成的boxes更具有代表性。

直接对Bounding Boxes求回归会导致模型不稳定，其中心点可能会出现在图像任何位置，有可能导致回归过程震荡，甚至无法收敛，尤其是在最开始的几次迭代的时候。大多数不稳定因素产生自预测Bounding Box的中心坐标（x,y）位置的时候。

YOLOv2的网络在特征图（13*13）的每一个单元格中预测出5个Bounding Boxes（对应5个Anchor Boxes），每个Bounding Box预测出5个值（tx,ty,tw,th,t0），其中前4个是坐标偏移值，t0是置信度结果（类似YOLOv1中的边界框置信度Confidence）。YOLOv2借鉴了如下的预测方式，即当Anchor Box的中心坐标和宽高分别是（xa,ya）和（wa,wh）时，Bounding Box坐标的预测偏移值（tx,ty,tw,th）与其坐标宽高（x,y,w,h）的关系如下：

tx = (x-xa)/wa

ty= (y-ya)/ha

tw = log(w/wa)

th = log(h/ha)

基于这种思想，YOLOv2在预测Bounding Box的位置参数时采用了如下强约束方法：

上图中，黑色虚线框是Anchor Box，蓝色矩形框就是预测的Bounding Box结果，预测出的Bounding Box的坐标和宽高为（bx,by）和（bw,bh），计算方式如图中所示，其中：对每个Bounding Box预测出5个值（tx,ty,tw,th,t0），Cell与图像左上角的横纵坐标距离为（cx,cy），σ定义为sigmoid激活函数（将函数值约束到［0,1］），该Cell对应的Anchor Box对应的宽高为（pw,ph）。

简而言之，（bx,by）就是（cx,cy）这个Cell附近的Anchor Box针对预测值（tx,ty）得到的Bounding Box的坐标预测结果，同时可以发现这种方式对于较远距离的Bounding Box预测值（tx,ty）能够得到很大的限制。

YOLOv2通过添加一个转移层，把高分辨率的浅层特征连接到低分辨率的深层特征（把特征堆积在不同Channel中）而后进行融合和检测。具体 *** 作是先获取前层的26*26的特征图，将其同最后输出的13*13的特征图进行连接，而后输入检测器进行检测（检测器的FC层起到了全局特征融合的作用），以此来提高对小目标的检测能力。

为了适应不同尺度下的检测任务，YOLOv2在训练网络时，其在检测数据集上fine-tuning时候采用的输入图像的size是动态变化的。具体来讲，每训练10个Batch，网络就会随机选择另一种size的输入图像。因为YOLOv2用到了参数是32的下采样，因此也采用32的倍数作为输入的size，即采用{320,352,…,608}的输入尺寸（网络会自动改变尺寸，并继续训练的过程）。

这一策略让网络在不同的输入尺寸上都能达到较好的预测效果，使同一网络能在不同分辨率上进行检测。输入图片较大时，检测速度较慢，输入图片较小时，检测速度较快，总体上提高了准确率，因此多尺度训练算是在准确率和速度上达到一个平衡。

上表反映的是在检测时，不同大小的输入图片情况下的YOLOv2和其他目标检测算法的对比。可以看出通过多尺度训练的检测模型，在测试的时候，输入图像在尺寸变化范围较大的情况下也能取得mAP和FPS的平衡。

YOLOv1采用的训练网络是GoogleNet，YOLOv2采用了新的分类网络Darknet-19作为基础网络，它使用了较多的3*3卷积核，并把1*1的卷积核置于3*3的卷积核之间，用来压缩特征，同时在每一次池化 *** 作后把通道（Channels）数翻倍（借鉴VGG网络）。

YOLOv1采用的GooleNet包含24个卷积层和2个全连接层，而Darknet-19包含19个卷积层和5个最大池化层（Max Pooling Layers），后面添加Average Pooling层（代替v1中FC层），而Softmax分类器作为激活被用在网络最后一层，用来进行分类和归一化。

在ImageNet数据集上进行预训练，主要分两步（采用随机梯度下降法）：

输入图像大小是224*224，初始学习率（Learning Rate）为0.1，训练160个epoch，权值衰减（Weight Decay）为0.0005，动量（Momentum）为0.9，同时在训练时采用标准的数据增强（Data Augmentation）方式如随机裁剪、旋转以及色度、亮度的调整。

fine-tuning：第1步结束后，改用448*448输入（高分辨率模型），学习率改为0.001，训练10个epoch，其他参数不变。结果表明：fine-tuning后的top-1准确率为76.5%，top-5准确率为93.3%，若按照原来的训练方式，Darknet-19的top-1准确率是72.9%，top-5准确率为91.2%。可以看出，两步分别从网络结构和训练方式方面入手提高了网络分类准确率。

预训练之后，开始基于检测的数据集再进行fine-tuning。

首先，先把最后一个卷积层去掉，然后添加3个3*3的卷积层，每个卷积层有1024个卷积核，并且后面都连接一个1*1的卷积层，卷积核个数（特征维度）根据需要检测的类数量决定。（比如对VOC数据，每个Cell需要预测5个Boungding Box，每个Bounding Box有4个坐标值、1个置信度值和20个条件类别概率值，所以每个单元格对应125个数据，此时卷积核个数应该取125。）

然后，将最后一个3*3*512的卷积层和倒数第2个卷积层相连（提取细粒度特征），最后在检测数据集上fine-tuning预训练模型160个epoch，学习率采用0.001，并且在第60和90个epoch的时候将学习率除以10，权值衰减、动量和数据增强方法与预训练相同。

YOLO9000通过结合分类和检测数据集，使得训练得到的模型可以检测约9000类物体，利用带标注的分类数据集量比较大的特点，解决了带标注的检测数据集量比较少的问题。具体方法是：一方面采用WordTree融合数据集，另一方面联合训练分类数据集和检测数据集。

分类数据集和检测数据集存在较大差别：检测数据集只有粗粒度的标记信息，如“猫”、“狗”，而分类数据集的标签信息则更细粒度，更丰富。比如“狗”就包括“哈士奇”、“金毛狗”等等。所以如果想同时在检测数据集与分类数据集上进行训练，那么就要用一种一致性的方法融合这些标签信息。

用于分类的方法，常用Softmax（比如v2），Softmax意味着分类的类别之间要互相独立的，而ImageNet和COCO这两种数据集之间的分类信息不相互独立（ImageNet对应分类有9000种，而COCO仅提供80种目标检测），所以使用一种多标签模型来混合数据集，即假定一张图片可以有多个标签，并且不要求标签之间独立，而后进行Softmax分类。

由于ImageNet的类别是从WordNet选取的，作者采用以下策略重建了一个树形结构（称为WordTree）：

遍历ImageNet的标签，然后在WordNet中寻找该标签到根节点(所有的根节点为实体对象)的路径；

如果路径只有一条，将该路径直接加入到WordTree结构中；

否则，从可选路径中选择一条最短路径，加入到WordTree结构中。

WordTree的作用就在于将两种数据集按照层级进行结合。

如此，在WordTree的某个节点上就可以计算该节点的一些条件概率值，比如在terrier这个节点，可以得到如下条件概率值：

进而，如果要预测此节点的概率（即图片中目标是Norfolk terrier的概率），可以根据WordTree将该节点到根节点的条件概率依次相乘得到，如下式：

其中：

YOLO9000在WordTree1k（用有1000类别的ImageNet1k创建）上训练了Darknet-19模型。为了创建WordTree1k作者添加了很多中间节点（中间词汇），把标签由1000扩展到1369。

训练过程中GroundTruth标签要顺着向根节点的路径传播：为了计算条件概率，模型预测了一个包含1369个元素的向量，而且基于所有“同义词集”计算Softmax，其中“同义词集”是同一概念下的所属词。

现在一张图片是多标记的，标记之间不需要相互独立。在训练过程中，如果有一个图片的标签是“Norfolk terrier”，那么这个图片还会获得“狗”以及“哺乳动物”等标签。

如上图所示，之前的ImageNet分类是使用一个大Softmax进行分类，而现在WordTree只需要对同一概念下的同义词进行Softmax分类。然后作者分别两个数据集上用相同训练方法训练Darknet-19模型，最后在ImageNet数据集上的top-1准确率为72.9%，top-5准确率为91.2%；在WordTree数据集上的top-1准确率为71.9%，top-5准确率为90.4%。

这种方法的好处是有“退而求其次”的余地：在对未知或者新的物体进行分类时，性能损失更低，比如看到一个狗的照片，但不知道是哪种种类的狗，那么就预测其为“狗”。

以上是构造WordTree的原理，下图是融合COCO数据集和ImageNet数据集以及生成它们的WordTree的示意图（用颜色区分了COCO数据集和ImageNet数据集的标签节点），混合后的数据集对应的WordTree有9418个类。另一方面，由于ImageNet数据集太大，YOLO9000为了平衡两个数据集之间的数据量，通过过采样（Oversampling）COCO数据集中的数据，使COCO数据集与ImageNet数据集之间的数据量比例达到1：4。

对YOLO9000进行评估，发现其mAP比DPM高，而且YOLO有更多先进的特征，YOLO9000是用部分监督的方式在不同训练集上进行训练，同时还能检测9000个物体类别，并保证实时运行。虽然YOLO9000对动物的识别性能很好，但是对衣服或者装备的识别性能不是很好（这跟数据集的数据组成有关）。

YOLO9000的网络结构和YOLOv2类似，区别是每个单元格只采用3个Anchor Boxes。

YOLO9000提出了一种在分类数据集和检测数据集上联合训练的机制，即使用检测数据集（COCO）的图片去学习检测相关的信息即查找对象（例如预测边界框坐标、边界框是否包含目标及目标属于各个类别的概率），使用仅有类别标签的分类数据集（ImageNet）中的图片去扩展检测到的对象的可识别种类。

具体方法是：当网络遇到一个来自检测数据集的图片与标记信息，就把这些数据用完整的损失函数（v2和9000均沿用了v1网络的损失函数）反向传播，而当网络遇到一个来自分类数据集的图片和分类标记信息，只用代表分类误差部分的损失函数反向传播这个图片。

YOLO v2 在大尺寸图片上能够实现高精度，在小尺寸图片上运行更快，可以说在速度和精度上达到了平衡，具体性能表现如下所示。

coco数据集

voc2012数据集

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/bake/11863135.html

使用 YOLO v5 进行目标检测

发表评论

评论列表（0条）