分割¶

MXNet PyTorch

MXNet¶

下图展示了 COCO 预训练模型的推断吞吐量与验证集 mIoU 的对比。吞吐量使用单个 V100 GPU 和批量大小 16 进行测量。

semantic_segmentation - GluonCV 文档

提示

模型名称包含训练信息。例如，fcn_resnet50_voc

fcn 表示算法是“用于语义分割的全卷积网络” 2。
resnet50 是骨干网络的名称。
voc 是训练数据集。

语义分割¶

语义分割预训练模型及其性能表格。

提示

可以使用测试脚本 下载 test.py 来评估模型（VOC 结果使用官方服务器进行评估）。例如 fcn_resnet50_ade

python test.py --dataset ade20k --model-zoo fcn_resnet50_ade --eval

训练命令使用脚本：下载 train.py

ADE20K 数据集¶

名称	方法	像素精度 (pixAcc)	mIoU	命令	日志
fcn_resnet50_ade	FCN 2	79	39.5	shell 脚本	日志
fcn_resnet101_ade	FCN 2	80.6	41.6	shell 脚本	日志
psp_resnet50_ade	PSP 3	80.1	41.5	shell 脚本	日志
psp_resnet101_ade	PSP 3	80.8	43.3	shell 脚本	日志
deeplab_resnet50_ade	DeepLabV3 4	80.5	42.5	shell 脚本	日志
deeplab_resnet101_ade	DeepLabV3 4	81.1	44.1	shell 脚本	日志
deeplab_resnest50_ade	DeepLabV3 + ResNeSt 4 9	81.2	45.1	shell 脚本	日志
deeplab_resnest101_ade	DeepLabV3 + ResNeSt 4 9	82.1	46.9	shell 脚本	日志
deeplab_resnest200_ade	DeepLabV3 + ResNeSt 4 9	82.5	48.4
deeplab_resnest269_ade	DeepLabV3 + ResNeSt 4 9	82.6	47.6	shell 脚本	日志

MS-COCO 数据集预训练¶

名称	方法	像素精度 (pixAcc)	mIoU	命令	日志
fcn_resnet101_coco	FCN 2	92.2	66.2	shell 脚本	日志
psp_resnet101_coco	PSP 3	92.4	70.4	shell 脚本	日志
deeplab_resnet101_coco	DeepLabV3 4	92.5	70.4	shell 脚本	日志

Pascal VOC 数据集¶

名称	方法	像素精度 (pixAcc)	mIoU	命令	日志
fcn_resnet101_voc	FCN 2	不适用	83.6	shell 脚本	日志
psp_resnet101_voc	PSP 3	不适用	85.1	shell 脚本	日志
deeplab_resnet101_voc	DeepLabV3 4	不适用	86.2	shell 脚本	日志
deeplab_resnet152_voc	DeepLabV3 4	不适用	86.7	shell 脚本	日志

Cityscapes 数据集¶

名称	方法	像素精度 (pixAcc)	mIoU	命令	日志
psp_resnet101_citys	PSP 3	96.4	79.9	shell 脚本	日志
deeplab_resnet50_citys	DeepLabV3 4	96.3	78.7	shell 脚本	日志
deeplab_resnet101_citys	DeepLabV3 4	96.4	79.4	shell 脚本	日志
danet_resnet50_citys	DANet 7	96.3	78.5	shell 脚本	日志
danet_resnet101_citys	DANet 7	96.5	80.1	shell 脚本	日志
icnet_resnet50_citys	ICNet 5	95.5	74.5	shell 脚本	日志
fastscnn_citys	FastSCNN 8 10	95.1	72.3	shell 脚本	日志
deeplab_v3b_plus_wideresnet_citys	VPLR 6	不适用	83.5	shell 脚本	日志

MHP-V1 数据集¶

名称	方法	像素精度 (pixAcc)	mIoU	命令	日志
icnet_resnet50_mhpv1	ICNet 5	90.5	44.5	shell 脚本	日志

实例分割¶

实例分割预训练模型及其性能表格。

提示

训练命令使用以下脚本

对于 Mask R-CNN 网络：下载 train_mask_rcnn.py

对于 COCO 数据集，训练图像集为 train2017，验证图像集为 val2017。

报告的平均精度使用 IoU 阈值 0.5:0.95（平均 10 个值）、0.5 和 0.75，格式为 (AP 0.5:0.95)/(AP 0.5)/(AP 0.75)。

对于实例分割任务，同时评估和报告基于边界框重叠和分割重叠的 AP。

MS COCO¶

模型	边界框 AP (Box AP)	分割 AP (Segm AP)	命令	训练日志
mask_rcnn_resnet18_v1b_coco	31.2/51.1/33.1	28.4/48.1/29.8	shell 脚本	日志
mask_rcnn_fpn_resnet18_v1b_coco	34.9/56.4/37.4	30.4/52.2/31.4	shell 脚本	日志
mask_rcnn_resnet50_v1b_coco	38.3/58.7/41.4	33.1/54.8/35.0	shell 脚本	日志
mask_rcnn_fpn_resnet50_v1b_coco	39.2/61.2/42.2	35.4/57.5/37.3	shell 脚本	日志
mask_rcnn_resnet101_v1d_coco	41.3/61.7/44.4	35.2/57.8/36.9	shell 脚本	日志
mask_rcnn_fpn_resnet101_v1d_coco	42.3/63.9/46.2	37.7/60.5/40.0	shell 脚本	日志

PyTorch¶

使用 PyTorch 实现的模型将在后续添加。请先参考我们的 MXNet 实现。

参考文献¶

1: He, Kaming, Georgia Gkioxari, Piotr Dollár and Ross Girshick. “Mask R-CNN.” 在 IEEE 国际计算机视觉会议 (ICCV), 2017。
2(1,2,3,4,5): Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” IEEE 计算机视觉与模式识别会议论文集。2015。
3(1,2,3,4,5): Zhao, Hengshuang, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. “Pyramid scene parsing network.” CVPR, 2017。
4(1,2,3,4,5,6,7,8,9,10,11): Chen, Liang-Chieh, et al. “Rethinking atrous convolution for semantic image segmentation.” arXiv 预印本 arXiv:1706.05587 (2017)。
5(1,2): Zhao, Hengshuang, et al. “ICNet for Real-Time Semantic Segmentation on High-Resolution Images.” ECCV 2018。
6: Zhu, Yi, et al. “Improving Semantic Segmentation via Video Propagation and Label Relaxation.” CVPR 2019。
7(1,2): Fu, Jun, et al. “Dual Attention Network for Scene Segmentation.” CVPR 2019。
8: Poudel, Rudra, et al. “Fast-SCNN: Fast Semantic Segmentation Network.” BMVC 2019。
9(1,2,3,4): Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Zhi Zhang, Haibin Lin, Yue Sun, Tong He, Jonas Muller, R. Manmatha, Mu Li and Alex Smola “ResNeSt: Split-Attention Network” arXiv 预印本 (2020)。
10: Yi Zhu, Zhongyue Zhang, Chongruo Wu, Zhi Zhang, Tong He, Hang Zhang, R. Manmatha, Mu Li and Alexander Smola “Improving Semantic Segmentation via Self-Training” arXiv 预印本 arXiv:2004.14960 (2020)。