检测¶

MXNet Pytorch

MXNet¶

第一张图展示了 COCO 预训练模型的推理吞吐量与验证 mAP 的可视化比较。

检测吞吐量 - GluonCV 文档

我们还提供了所有 80 个目标类别的详细交互式分析。

每类 COCO 检测结果 - GluonCV 文档

下表列出了用于目标检测的预训练模型及其性能详情。

提示

模型属性编码在其名称中。例如，ssd_300_vgg16_atrous_voc 由四个部分组成

ssd 表示算法为“Single Shot Multibox Object Detection” 1。
300 是训练图像尺寸，意味着训练图像被缩放到 300x300，并且所有锚框都设计为匹配此形状。这可能不适用于某些模型。
vgg16_atrous 是基础特征提取网络的类型。
voc 是训练数据集。您可以选择 voc 或 coco 等。
(320x320) 表示模型在 320x320 分辨率下进行评估。除非另有说明，GluonCV 中的所有检测模型都可以接受各种输入形状进行预测。一些模型使用各种输入数据形状进行训练，例如 Faster-RCNN 和 YOLO 模型。
ssd_300_vgg16_atrous_voc_int8 是在 Pascal VOC 数据集上校准的 ssd_300_vgg16_atrous_voc 的量化模型。

提示

训练命令与以下脚本一起使用

对于 SSD 1 网络：下载 train_ssd.py
对于 Faster-RCNN 2 网络：下载 train_faster_rcnn.py
对于 YOLO v3 3 网络：下载 train_yolo3.py

PASCAL VOC¶

提示

对于 PASCAL VOC 数据集，训练图像集是 2007trainval 和 2012trainval 的并集，验证图像集是 2007test。

报告了 VOC 指标，即所有类别的平均精度 (mAP)，IoU 阈值为 0.5。

量化 SSD 模型使用 nms_thresh=0.45 和 nms_topk=200 进行评估。

SSD¶

在此处查看 SSD 演示教程：01. 使用预训练 SSD 模型进行预测

模型	mAP	训练命令	训练日志
ssd_300_vgg16_atrous_voc 1	77.6	shell 脚本	日志
ssd_300_vgg16_atrous_voc_int8* 1	77.46
ssd_512_vgg16_atrous_voc 1	79.2	shell 脚本	日志
ssd_512_vgg16_atrous_voc_int8* 1	78.39
ssd_512_resnet50_v1_voc 1	80.1	shell 脚本	日志
ssd_512_resnet50_v1_voc_int8* 1	80.16
ssd_512_mobilenet1.0_voc 1	75.4	shell 脚本	日志
ssd_512_mobilenet1.0_voc_int8* 1	75.04

Faster-RCNN¶

VOC 数据集的 Faster-RCNN 模型使用原生分辨率进行评估，要求较短边 >= 600 且较长边 <= 1000，同时保持纵横比不变。

在此处查看 Faster-RCNN 演示教程：02. 使用预训练 Faster RCNN 模型进行预测

模型	mAP	训练命令	训练日志
faster_rcnn_resnet50_v1b_voc 2	78.3	shell 脚本	日志

YOLO-v3¶

YOLO-v3 模型可以在不同分辨率下进行评估和预测。不同评估分辨率下报告的 mAP 不同，但模型是相同的。

在此处查看 YOLO 演示教程：03. 使用预训练 YOLO 模型进行预测

模型	mAP	训练命令	训练日志
yolo3_darknet53_voc 3 (320x320)	79.3	shell 脚本	日志
yolo3_darknet53_voc 3 (416x416)	81.5	shell 脚本	日志
yolo3_mobilenet1.0_voc 3 (320x320)	73.9	shell 脚本	日志
yolo3_mobilenet1.0_voc 3 (416x416)	75.8	shell 脚本	日志

CenterNet¶

CenterNet 模型在 512x512 分辨率下进行评估。同时报告了使用翻转推理 (F) 的 mAP，但模型是相同的。在此处查看 CenterNet 演示教程：11. 使用预训练 CenterNet 模型进行预测

请注意，dcnv2 表示模型包含调制可变形卷积 (Modulated Deformable Convolution) (DCNv2) 层，您可能需要升级 MXNet 才能使用它们。

模型	mAP (原始/翻转)	训练命令	训练日志
center_net_resnet18_v1b_voc 6	66.8/69.5	shell 脚本	日志
center_net_resnet18_v1b_dcnv2_voc 6	71.2/74.7	shell 脚本	日志
center_net_resnet50_v1b_voc 6	71.8/76.1	shell 脚本	日志
center_net_resnet50_v1b_dcnv2_voc 6	75.6/78.7	shell 脚本	日志
center_net_resnet101_v1b_voc 6	75.5/78.2	shell 脚本	日志
center_net_resnet101_v1b_dcnv2_voc 6	76.7/79.2	shell 脚本	日志

MS COCO¶

提示

对于 COCO 数据集，训练图像集是 train2017，验证图像集是 val2017。

COCO 指标，即 IoU 阈值 0.5:0.95 的平均精度 (AP)（10 个值的平均值，AP 0.5:0.95）、0.5 (AP 0.5) 和 0.75 (AP 0.75) 以 (AP 0.5:0.95)/(AP 0.5)/(AP 0.75) 的格式一起报告。

对于目标检测任务，只评估和报告基于边界框重叠的 AP。

SSD¶

在此处查看 SSD 演示教程：01. 使用预训练 SSD 模型进行预测

模型	边界框 AP	训练命令	训练日志
ssd_300_vgg16_atrous_coco 1	25.1/42.9/25.8	shell 脚本	日志
ssd_512_vgg16_atrous_coco 1	28.9/47.9/30.6	shell 脚本	日志
ssd_300_resnet34_v1b_coco 1	25.1/41.7/26.2	shell 脚本	日志
ssd_512_resnet50_v1_coco 1	30.6/50.0/32.2	shell 脚本	日志
ssd_512_mobilenet1.0_coco 1	21.7/39.2/21.3	shell 脚本	日志

Faster-RCNN¶

VOC 数据集的 Faster-RCNN 模型使用原生分辨率进行评估，要求较短边 >= 800 且较长边 <= 1333，同时保持纵横比不变。

在此处查看 Faster-RCNN 演示教程：02. 使用预训练 Faster RCNN 模型进行预测

模型	边界框 AP	训练命令	训练日志
faster_rcnn_resnet50_v1b_coco 2	37.0/57.8/39.6	shell 脚本	日志
faster_rcnn_resnet101_v1d_coco 2	40.1/60.9/43.3	shell 脚本	日志
faster_rcnn_fpn_resnet50_v1b_coco 4	38.4/60.2/41.6	shell 脚本	日志
faster_rcnn_fpn_resnet101_v1d_coco 4	40.8/62.4/44.7	shell 脚本	日志
faster_rcnn_fpn_bn_resnet50_v1b_coco 5	39.3/61.3/42.9	shell 脚本	日志
faster_rcnn_fpn_syncbn_resnest50_coco 7	42.7/64.1/46.4	shell 脚本	日志
faster_rcnn_fpn_syncbn_resnest101_coco 7	44.9/66.4/48.9	shell 脚本	日志
faster_rcnn_fpn_syncbn_resnest269_coco 7	46.5/67.5/50.7	shell 脚本	日志

YOLO-v3¶

YOLO-v3 模型可以在不同分辨率下进行评估和预测。不同评估分辨率下报告的 mAP 不同。

在此处查看 YOLO 演示教程：03. 使用预训练 YOLO 模型进行预测

模型	边界框 AP	训练命令	训练日志
yolo3_darknet53_coco 3 (320x320)	33.6/54.1/35.8	shell 脚本	日志
yolo3_darknet53_coco 3 (416x416)	36.0/57.2/38.7	shell 脚本	日志
yolo3_darknet53_coco 3 (608x608)	37.0/58.2/40.1	shell 脚本	日志
yolo3_mobilenet1.0_coco 3 (320x320)	26.7/46.1/27.5	shell 脚本	日志
yolo3_mobilenet1.0_coco 3 (416x416)	28.6/48.9/29.9	shell 脚本	日志
yolo3_mobilenet1.0_coco 3 (608x608)	28.0/49.8/27.8	shell 脚本	日志

CenterNet¶

CenterNet 模型在 512x512 分辨率下进行评估。同时报告了使用翻转推理 (F) 的 mAP，但模型是相同的。在此处查看 CenterNet 演示教程：11. 使用预训练 CenterNet 模型进行预测。

请注意，dcnv2 表示模型包含调制可变形卷积 (Modulated Deformable Convolution) (DCNv2) 层，您可能需要升级 MXNet 才能使用它们。

模型	mAP (原始/翻转)	训练命令	训练日志
center_net_resnet18_v1b_coco 6	26.6/28.1	shell 脚本	日志
center_net_resnet18_v1b_dcnv2_coco 6	28.9/30.3	shell 脚本	日志
center_net_resnet50_v1b_coco 6	32.1/33.4	shell 脚本	日志
center_net_resnet50_v1b_dcnv2_coco 6	34.0/35.3	shell 脚本	日志
center_net_resnet101_v1b_coco 6	34.5/35.8	shell 脚本	日志
center_net_resnet101_v1b_dcnv2_coco 6	35.8/37.1	shell 脚本	日志

PyTorch¶

使用 PyTorch 实现的模型将在稍后添加。请暂时查看我们的 MXNet 实现。

参考¶

1(1,2,3,4,5,6,7,8,9,10,11,12,13,14,15): Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, Alexander C. Berg. SSD: 单次多盒检测器。ECCV 2016.
2(1,2,3,4): Ren, Shaoqing, Kaiming He, Ross Girshick, and Jian Sun. “Faster R-CNN: 基于区域提议网络实现实时目标检测。” In Advances in neural information processing systems, pp. 91-99. 2015.
3(1,2,3,4,5,6,7,8,9,10,11): Redmon, Joseph, and Ali Farhadi. “Yolov3: 渐进式改进。” arXiv preprint arXiv:1804.02767 (2018).
4(1,2): Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, Serge Belongie. “用于目标检测的特征金字塔网络。” IEEE Conference on Computer Vision and Pattern Recognition 2017.
5: Kaiming He, Ross Girshick, Piotr Dollár. “重新思考 ImageNet 预训练。” arXiv preprint arXiv:1811.08883 (2018).
6(1,2,3,4,5,6,7,8,9,10,11,12): Zhou, Xingyi, Dequan Wang, and Philipp Krähenbühl. “将目标视为点。” arXiv preprint arXiv:1904.07850 (2019).
7(1,2,3): Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Zhi Zhang, Haibin Lin, Yue Sun, Tong He, Jonas Muller, R. Manmatha, Mu Li and Alex Smola “ResNeSt: 分割注意力网络” arXiv preprint (2020).