第一张图展示了COCO预训练模型的推理吞吐量与验证mAP的可视化对比。

我们还提供了对所有80个目标类别的详细交互式分析。
下表列出了目标检测的预训练模型及其性能详情。
提示
模型属性编码在其名称中。例如,ssd_300_vgg16_atrous_voc
由四个部分组成
ssd
表示算法是“Single Shot Multibox Object Detection” [1]_。300
是训练图像尺寸,意味着训练图像被调整为300x300,所有锚框都设计为匹配此形状。这可能不适用于某些模型。vgg16_atrous
是基础特征提取网络的类型。voc
是训练数据集。您可以选择voc
或coco
等。(320x320)
表示模型是在320x320分辨率下进行评估的。除非另有说明,GluonCV中的所有检测模型都可以接受各种输入形状进行预测。一些模型使用不同的输入数据形状进行训练,例如Faster-RCNN和YOLO模型。ssd_300_vgg16_atrous_voc_int8
是一个在Pascal VOC数据集上为ssd_300_vgg16_atrous_voc
校准的量化模型。
提示
训练命令与以下脚本配合使用
对于SSD [1]_ 网络:
下载 train_ssd.py
对于Faster-RCNN [2]_ 网络:
下载 train_faster_rcnn.py
对于YOLO v3 [3]_ 网络:
下载 train_yolo3.py
Pascal VOC¶
提示
对于Pascal VOC数据集,训练图像集是2007trainval和2012trainval的并集,验证图像集是2007test。
报告的VOC指标是交并比(IoU)阈值为0.5时所有类别的平均精度均值 (mAP)。
量化SSD模型使用 nms_thresh=0.45
,nms_topk=200
进行评估。
SSD¶
在此查看SSD演示教程:01. 使用预训练SSD模型进行预测
模型 |
mAP |
训练命令 |
训练日志 |
---|---|---|---|
ssd_300_vgg16_atrous_voc [1]_ |
77.6 |
||
ssd_300_vgg16_atrous_voc_int8* [1]_ |
77.46 |
||
ssd_512_vgg16_atrous_voc [1]_ |
79.2 |
||
ssd_512_vgg16_atrous_voc_int8* [1]_ |
78.39 |
||
ssd_512_resnet50_v1_voc [1]_ |
80.1 |
||
ssd_512_resnet50_v1_voc_int8* [1]_ |
80.16 |
||
ssd_512_mobilenet1.0_voc [1]_ |
75.4 |
||
ssd_512_mobilenet1.0_voc_int8* [1]_ |
75.04 |
Faster-RCNN¶
VOC数据集的Faster-RCNN模型使用原生分辨率进行评估,要求 较短边 >= 600
且 较长边 <= 1000
,不改变长宽比。
在此查看Faster-RCNN演示教程:02. 使用预训练Faster RCNN模型进行预测
模型 |
mAP |
训练命令 |
训练日志 |
---|---|---|---|
faster_rcnn_resnet50_v1b_voc [2]_ |
78.3 |
YOLO-v3¶
YOLO-v3模型可以在不同的分辨率下进行评估和预测。报告了不同评估分辨率下的不同mAP,但模型是相同的。
在此查看YOLO演示教程:03. 使用预训练YOLO模型进行预测
模型 |
mAP |
训练命令 |
训练日志 |
---|---|---|---|
yolo3_darknet53_voc [3]_ (320x320) |
79.3 |
||
yolo3_darknet53_voc [3]_ (416x416) |
81.5 |
||
yolo3_mobilenet1.0_voc [3]_ (320x320) |
73.9 |
||
yolo3_mobilenet1.0_voc [3]_ (416x416) |
75.8 |
CenterNet¶
CenterNet模型在512x512分辨率下进行评估。同时报告了带翻转推理(F)的mAP,但模型是相同的。在此查看CenterNet演示教程:11. 使用预训练CenterNet模型进行预测
请注意,dcnv2
表示模型包含可变形卷积(Modulated Deformable Convolution, DCNv2)层,您可能需要升级MXNet才能使用它们。
模型 |
mAP(原始/翻转) |
训练命令 |
训练日志 |
---|---|---|---|
center_net_resnet18_v1b_voc [6]_ |
66.8/69.5 |
||
center_net_resnet18_v1b_dcnv2_voc [6]_ |
71.2/74.7 |
||
center_net_resnet50_v1b_voc [6]_ |
71.8/76.1 |
||
center_net_resnet50_v1b_dcnv2_voc [6]_ |
75.6/78.7 |
||
center_net_resnet101_v1b_voc [6]_ |
75.5/78.2 |
||
center_net_resnet101_v1b_dcnv2_voc [6]_ |
76.7/79.2 |
MS COCO¶
提示
对于COCO数据集,训练图像集是train2017,验证图像集是val2017。
报告的COCO指标是交并比(IoU)阈值为0.5:0.95(平均10个值,即AP 0.5:0.95)、0.5(即AP 0.5)和0.75(即AP 0.75)时的平均精度 (AP),格式为 (AP 0.5:0.95)/(AP 0.5)/(AP 0.75)。
对于目标检测任务,仅评估并报告基于边界框重叠的AP。
SSD¶
在此查看SSD演示教程:01. 使用预训练SSD模型进行预测
模型 |
边界框AP |
训练命令 |
训练日志 |
---|---|---|---|
ssd_300_vgg16_atrous_coco [1]_ |
25.1/42.9/25.8 |
||
ssd_512_vgg16_atrous_coco [1]_ |
28.9/47.9/30.6 |
||
ssd_300_resnet34_v1b_coco [1]_ |
25.1/41.7/26.2 |
||
ssd_512_resnet50_v1_coco [1]_ |
30.6/50.0/32.2 |
||
ssd_512_mobilenet1.0_coco [1]_ |
21.7/39.2/21.3 |
Faster-RCNN¶
COCO数据集的Faster-RCNN模型使用原生分辨率进行评估,要求 较短边 >= 800
且 较长边 <= 1333
,不改变长宽比。
在此查看Faster-RCNN演示教程:02. 使用预训练Faster RCNN模型进行预测
模型 |
边界框AP |
训练命令 |
训练日志 |
---|---|---|---|
faster_rcnn_resnet50_v1b_coco [2]_ |
37.0/57.8/39.6 |
||
faster_rcnn_resnet101_v1d_coco [2]_ |
40.1/60.9/43.3 |
||
faster_rcnn_fpn_resnet50_v1b_coco [4]_ |
38.4/60.2/41.6 |
||
faster_rcnn_fpn_resnet101_v1d_coco [4]_ |
40.8/62.4/44.7 |
||
faster_rcnn_fpn_bn_resnet50_v1b_coco [5]_ |
39.3/61.3/42.9 |
||
faster_rcnn_fpn_syncbn_resnest50_coco [7]_ |
42.7/64.1/46.4 |
||
faster_rcnn_fpn_syncbn_resnest101_coco [7]_ |
44.9/66.4/48.9 |
||
faster_rcnn_fpn_syncbn_resnest269_coco [7]_ |
46.5/67.5/50.7 |
YOLO-v3¶
YOLO-v3模型可以在不同的分辨率下进行评估和预测。报告了不同评估分辨率下的不同mAP。
在此查看YOLO演示教程:03. 使用预训练YOLO模型进行预测
模型 |
边界框AP |
训练命令 |
训练日志 |
---|---|---|---|
yolo3_darknet53_coco [3]_ (320x320) |
33.6/54.1/35.8 |
||
yolo3_darknet53_coco [3]_ (416x416) |
36.0/57.2/38.7 |
||
yolo3_darknet53_coco [3]_ (608x608) |
37.0/58.2/40.1 |
||
yolo3_mobilenet1.0_coco [3]_ (320x320) |
26.7/46.1/27.5 |
||
yolo3_mobilenet1.0_coco [3]_ (416x416) |
28.6/48.9/29.9 |
||
yolo3_mobilenet1.0_coco [3]_ (608x608) |
28.0/49.8/27.8 |
CenterNet¶
CenterNet模型在512x512分辨率下进行评估。同时报告了带翻转推理(F)的mAP,但模型是相同的。在此查看CenterNet演示教程:11. 使用预训练CenterNet模型进行预测。
请注意,dcnv2
表示模型包含可变形卷积(Modulated Deformable Convolution, DCNv2)层,您可能需要升级MXNet才能使用它们。
模型 |
mAP(原始/翻转) |
训练命令 |
训练日志 |
---|---|---|---|
center_net_resnet18_v1b_coco [6]_ |
26.6/28.1 |
||
center_net_resnet18_v1b_dcnv2_coco [6]_ |
28.9/30.3 |
||
center_net_resnet50_v1b_coco [6]_ |
32.1/33.4 |
||
center_net_resnet50_v1b_dcnv2_coco [6]_ |
34.0/35.3 |
||
center_net_resnet101_v1b_coco [6]_ |
34.5/35.8 |
||
center_net_resnet101_v1b_dcnv2_coco [6]_ |
35.8/37.1 |