gluoncv.model_zoo

GluonCV 模型动物园

gluoncv.model_zoo.get_model

按名称返回预定义的 GluonCV 模型。

提示

这是获取预定义模型的推荐方法。

它也支持直接从 Gluon 模型动物园 加载模型。

get_model

按名称返回预定义模型

图像分类

CIFAR

get_cifar_resnet

来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。

cifar_resnet20_v1

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-20 V1 模型。

cifar_resnet56_v1

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-56 V1 模型。

cifar_resnet110_v1

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-110 V1 模型。

cifar_resnet20_v2

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-20 V2 模型。

cifar_resnet56_v2

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-56 V2 模型。

cifar_resnet110_v2

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-110 V2 模型。

get_cifar_wide_resnet

来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。

cifar_wideresnet16_10

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-16-10 模型。

cifar_wideresnet28_10

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-28-10 模型。

cifar_wideresnet40_8

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-40-8 模型。

ImageNet

我们将扩张策略应用于预训练的 ResNet 模型(步幅为 8)。请参阅 gluoncv.model_zoo.SegBaseModel 以了解如何使用它。

ResNetV1b

预训练的 ResNetV1b 模型,在 conv5 产生步幅为 8 的特征图。

resnet18_v1b

构建一个 ResNetV1b-18 模型。

resnet34_v1b

构建一个 ResNetV1b-34 模型。

resnet50_v1b

构建一个 ResNetV1b-50 模型。

resnet101_v1b

构建一个 ResNetV1b-101 模型。

resnet152_v1b

构建一个 ResNetV1b-152 模型。

ResNeXt

ResNeXt

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

get_resnext

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

resnext50_32x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt50 32x4d 模型。

resnext101_32x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 32x4d 模型。

resnext101_64x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 64x4d 模型。

se_resnext50_32x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt50 32x4d 模型。

se_resnext101_32x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 32x4d 模型。

se_resnext101_64x4d

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 64x4d 模型。

se_resnext101e_64x4d

来自论文 “用于深度神经网络的聚合残差变换” 修改的 SE-ResNeXt101e 64x4d 模型。

ResNeSt

ResNeSt

ResNeSt 模型 :param block: 残差块的类别。选项有 BasicBlockV1, BottleneckV1。:type block: Block :param layers: 每个块中的层数 :type layers: int 列表 :param classes: 分类类别数。:type classes: int, 默认 1000 :param dilated: 对预训练 ResNet 应用扩张策略以生成步幅为 8 的模型,通常用于语义分割。:type dilated: bool, 默认 False :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param last_gamma: 是否将每个 bottleneck 中最后一个 BatchNorm 层的 gamma 初始化为零。:type last_gamma: bool, 默认 False :param deep_stem: 是否用 3 个 3x3 卷积层替换 7x7 conv1。:type deep_stem: bool, 默认 False :param avg_down: 在阶段/下采样之间使用平均池化进行投影跳跃连接。:type avg_down: bool, 默认 False :param final_drop: 最终分类层之前的 Dropout 率。:type final_drop: float, 默认 0.0 :param use_global_stats: 是否强制 BatchNorm 使用全局统计信息而不是 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。:type use_global_stats: bool, 默认 False :param Reference: - He, Kaiming, et al. “用于图像识别的深度残差学习。” IEEE 计算机视觉和模式识别会议论文集。2016 年。- Yu, Fisher, and Vladlen Koltun。“通过扩张卷积进行多尺度上下文聚合。”。

resnest14

构建一个 ResNeSt-14 模型。

resnest26

构建一个 ResNeSt-26 模型。

resnest50

构建一个 ResNeSt-50 模型。

resnest101

构建一个 ResNeSt-101 模型。

resnest200

构建一个 ResNeSt-200 模型。

resnest269

构建一个 ResNeSt-269 模型。

MobileNet

MobileNet

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

MobileNetV2

来自论文 “倒残差和线性瓶颈:用于分类、检测和分割的移动网络” 的 MobileNetV2 模型。:param multiplier: 用于控制模型大小的宽度乘数。实际通道数等于原始通道数乘以该乘数。:type multiplier: float, 默认 1.0 :param classes: 输出层的类别数。:type classes: int, 默认 1000 :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

get_mobilenet

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

get_mobilenet_v2

来自论文 “倒残差和线性瓶颈:用于分类、检测和分割的移动网络” 的 MobileNetV2 模型。

mobilenet1_0

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 1.0。

mobilenet0_75

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.75。

mobilenet0_5

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.5。

mobilenet0_25

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.25。

DenseNet

DenseNet

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 模型。

densenet121

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 121 层模型。

densenet161

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 161 层模型。

densenet169

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 169 层模型。

densenet201

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 201 层模型。

目标检测

SSD

SSD

单次目标检测网络:https://arxiv.org/abs/1512.02325

get_ssd

获取 SSD 模型。

ssd_300_vgg16_atrous_voc

用于 Pascal VOC 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

ssd_300_vgg16_atrous_coco

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

ssd_300_vgg16_atrous_custom

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

ssd_512_vgg16_atrous_voc

带有 VGG16 空洞卷积 512x512 基础网络的 SSD 架构。

ssd_512_vgg16_atrous_coco

用于 COCO 的带有 VGG16 空洞卷积层的 SSD 架构。

ssd_512_vgg16_atrous_custom

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

ssd_512_resnet50_v1_voc

带有 ResNet v1 50 层的 SSD 架构。

ssd_512_resnet50_v1_coco

用于 COCO 的带有 ResNet v1 50 层的 SSD 架构。

ssd_512_resnet50_v1_custom

用于自定义数据集的带有 ResNet50 v1 512 基础网络的 SSD 架构。

ssd_512_resnet101_v2_voc

带有 ResNet v2 101 层的 SSD 架构。

ssd_512_resnet152_v2_voc

带有 ResNet v2 152 层的 SSD 架构。

VGGAtrousExtractor

VGG 空洞卷积多层特征提取器,产生多个输出特征图。

get_vgg_atrous_extractor

获取 VGG 空洞卷积特征提取网络。

vgg16_atrous_300

获取输入大小为 300 的 VGG 空洞卷积 16 层特征提取网络。

vgg16_atrous_512

获取输入大小为 512 的 VGG 空洞卷积 16 层特征提取网络。

Faster RCNN

FasterRCNN

Faster RCNN 网络。

get_faster_rcnn

返回 faster rcnn 网络的工具函数。

faster_rcnn_resnet50_v1b_voc

来自论文“Ren, S., He, K., Girshick, R., & Sun, J.” 的 Faster RCNN 模型。

faster_rcnn_resnet50_v1b_coco

来自论文“Ren, S., He, K., Girshick, R., & Sun, J.” 的 Faster RCNN 模型。

faster_rcnn_resnet50_v1b_custom

在自定义数据集上使用 resnet50_v1b 基础网络的 Faster RCNN 模型。

YOLOv3

YOLOV3

YOLO V3 检测网络。参考:https://arxiv.org/pdf/1804.02767.pdf。:param stages: 分阶段特征提取块。例如,原始论文中使用了 3 个阶段和 3 个 YOLO 输出层。:type stages: mxnet.gluon.HybridBlock :param channels: 每个附加阶段的卷积通道数。len(channels) 应与 len(stages) 匹配。:type channels: iterable :param num_class: 前景对象的数量。:type num_class: int :param anchors: 锚框设置。len(anchors) 应与 len(stages) 匹配。:type anchors: iterable :param strides: 特征图的步幅。len(strides) 应与 len(stages) 匹配。:type strides: iterable :param alloc_size: 供高级用户使用。定义 alloc_size 以生成足够大的锚框图,这些图稍后将保存在参数中。在推理过程中,我们支持通过裁剪锚框图中相应区域来处理任意输入图像。这使我们能够导出为符号,以便在 c++, Scalar 等环境运行。:type alloc_size: int 元组, 默认值为 (128, 128) :param nms_thresh: 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。:type nms_thresh: float, 默认值为 0.45。:param nms_topk: 对前 k 个检测结果应用 NMS,使用 -1 禁用,以便在 NMS 中使用每个检测结果。:type nms_topk: int, 默认值为 400 :param post_nms: 只返回前 post_nms 个检测结果,其余丢弃。该数量基于 COCO 数据集,该数据集每张图像最多有 100 个对象。如果预计有更多对象,可以调整此数量。可以使用 -1 返回所有检测结果。:type post_nms: int, 默认值为 100 :param pos_iou_thresh: 匹配实际对象的真实锚框的 IOU 阈值。未实现“pos_iou_thresh < 1”。:type pos_iou_thresh: float, 默认值为 1.0 :param ignore_iou_thresh: IOU 在 range(ignore_iou_thresh, pos_iou_thresh) 范围内的锚框不会因对象性得分而受到惩罚。:type ignore_iou_thresh: float :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

get_yolov3

获取 YOLOV3 模型。:param name: 模型名称,如果使用 None,则必须指定 featuresHybridBlock。:type name: str or None :param stages: 网络内部输出名称列表,用于指定哪些层用于预测 bbox 值。如果 nameNonefeatures 必须是生成多个输出用于预测的 HybridBlock。:type stages: str 可迭代对象 或 HybridBlock :param filters: 将附加到基础网络特征提取器的卷积层通道列表。如果 nameNone,则忽略此参数。:type filters: float 可迭代对象 或 None :param sizes: 锚框大小,这应该是一个 float 列表,按增量顺序排列。sizes 的长度必须等于 len(layers) + 1。例如,一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90],它将转换为 [30, 60][60, 90] 分别用于两个阶段。更多详情,请参阅原始论文。:type sizes: float 可迭代对象 :param ratios: 每个输出层的锚框的纵横比。其长度必须等于 SSD 输出层的数量。:type ratios: list 可迭代对象 :param steps: 每个输出层锚框的步长。:type steps: int 列表 :param classes: 类别名称。:type classes: str 可迭代对象 :param dataset: 数据集名称。这用于标识模型名称,因为在不同数据集上训练的模型差异很大。:type dataset: str :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param pretrained_base: 加载预训练基础网络,附加层是随机初始化的。注意,如果 pretrainedTrue,此参数无效。:type pretrained_base: bool or str, 可选, 默认值为 True :param ctx: 上下文,例如 mx.cpu(), mx.gpu(0)。:type ctx: mxnet.Context :param root: 模型权重存储路径。:type root: str :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

yolo3_darknet53_voc

在 VOC 数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param pretrained_base: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained_base: bool or str :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

yolo3_darknet53_coco

在 COCO 数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param pretrained_base: 是否获取并加载基础网络的预训练权重。:type pretrained_base: boolean :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

yolo3_darknet53_custom

在自定义数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param classes: 自定义前景类别名称。len(classes) 是前景类别数。:type classes: str 可迭代对象 :param transfer: 如果不是 None,将尝试重用在其他数据集上训练的 yolo 网络的预训练权重。:type transfer: str or None :param pretrained_base: 是否获取并加载基础网络的预训练权重。:type pretrained_base: boolean :param norm_layer: 使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm) 可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数,例如 num_devices=4 用于 mxnet.gluon.contrib.nn.SyncBatchNorm。:type norm_kwargs: dict。

实例分割

Mask RCNN

MaskRCNN

Mask RCNN 网络。

get_mask_rcnn

返回 mask rcnn 网络的工具函数。

mask_rcnn_resnet50_v1b_coco

来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R.” 的 Mask RCNN 模型。

语义分割

FCN

FCN

用于语义分割的全卷积网络

get_fcn

来自论文 “用于语义分割的全卷积网络” 的 FCN 模型

get_fcn_resnet50_voc

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

get_fcn_resnet101_voc

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

get_fcn_resnet101_coco

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

get_fcn_resnet50_ade

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

get_fcn_resnet101_ade

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

PSPNet

PSPNet

金字塔场景解析网络

get_psp

金字塔场景解析网络 :param dataset: 模型预训练的数据集。(pascal_voc, ade20k) :type dataset: str, 默认 pascal_voc :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’ :param pretrained_base: 这将加载在 ImageNet 上训练的预训练骨干网络。:type pretrained_base: bool or str, 默认 True。

get_psp_resnet101_coco

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。

get_psp_resnet101_voc

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。

get_psp_resnet50_ade

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。

get_psp_resnet101_ade

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。

DeepLabV3

DeepLabV3

:param nclass:

训练数据集的类别数。

get_deeplab

DeepLabV3 :param dataset: 模型预训练使用的数据集。(pascal_voc, pascal_aug, ade20k, coco, citys) :type dataset: str, default pascal_voc :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

get_deeplab_resnet101_coco

DeepLabV3 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

get_deeplab_resnet101_voc

DeepLabV3 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

get_deeplab_resnet50_ade

DeepLabV3 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

get_deeplab_resnet101_ade

DeepLabV3 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

动作识别

TSN

vgg16_ucf101

在UCF101数据集上训练的VGG16模型。

vgg16_hmdb51

在HMDB51数据集上训练的VGG16模型。

vgg16_kinetics400

在Kinetics400数据集上训练的VGG16模型。

vgg16_sthsthv2

在Something-Something-V2数据集上训练的VGG16模型。

inceptionv1_ucf101

在UCF101数据集上训练的InceptionV1模型。

inceptionv1_hmdb51

在HMDB51数据集上训练的InceptionV1模型。

inceptionv1_kinetics400

在Kinetics400数据集上训练的InceptionV1模型。

inceptionv1_sthsthv2

在Something-Something-V2数据集上训练的InceptionV1模型。

inceptionv3_ucf101

在UCF101数据集上训练的InceptionV3模型。

inceptionv3_hmdb51

在HMDB51数据集上训练的InceptionV3模型。

inceptionv3_kinetics400

在Kinetics400数据集上训练的InceptionV3模型。

inceptionv3_sthsthv2

在Something-Something-V2数据集上训练的InceptionV3模型。

resnet18_v1b_sthsthv2

在Something-Something-V2数据集上训练的ResNet18模型。

resnet34_v1b_sthsthv2

在Something-Something-V2数据集上训练的ResNet34模型。

resnet50_v1b_sthsthv2

在Something-Something-V2数据集上训练的ResNet50模型。

resnet101_v1b_sthsthv2

在Something-Something-V2数据集上训练的ResNet101模型。

resnet152_v1b_sthsthv2

在Something-Something-V2数据集上训练的ResNet152模型。

resnet18_v1b_kinetics400

在Kinetics400数据集上训练的ResNet18模型。

resnet34_v1b_kinetics400

在Kinetics400数据集上训练的ResNet34模型。

resnet50_v1b_kinetics400

在Kinetics400数据集上训练的ResNet50模型。

resnet101_v1b_kinetics400

在Kinetics400数据集上训练的ResNet101模型。

resnet152_v1b_kinetics400

在Kinetics400数据集上训练的ResNet152模型。

resnet50_v1b_ucf101

在UCF101数据集上训练的ResNet50模型。

resnet50_v1b_hmdb51

在HMDB51数据集上训练的ResNet50模型。

resnet50_v1b_custom

为任何数据集定制的ResNet50模型。

C3D

C3D

卷积3D网络 (C3D)。

c3d_kinetics400

在Kinetics400数据集上训练的卷积3D网络 (C3D)。

I3D

I3D_InceptionV1

来自“Going Deeper with Convolutions”论文的Inception v1模型。

i3d_inceptionv1_kinetics400

来自“Going Deeper with Convolutions”论文的、在Kinetics400数据集上训练的Inception v1模型。

I3D_InceptionV3

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

i3d_inceptionv3_kinetics400

来自“Rethinking the Inception Architecture for Computer Vision”论文的、在Kinetics400数据集上训练的Inception v3模型。

I3D_ResNetV1

ResNet_I3D骨干网络。

i3d_resnet50_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

i3d_resnet101_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的膨胀3D模型 (I3D)。

i3d_nl5_resnet50_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络和5个非局部块的膨胀3D模型 (I3D)。

i3d_nl10_resnet50_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络和10个非局部块的膨胀3D模型 (I3D)。

i3d_nl5_resnet101_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络和5个非局部块的膨胀3D模型 (I3D)。

i3d_nl10_resnet101_v1_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络和10个非局部块的膨胀3D模型 (I3D)。

i3d_resnet50_v1_sthsthv2

在Something-Something-V2数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

i3d_resnet50_v1_hmdb51

在HMDB51数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

i3d_resnet50_v1_ucf101

在UCF101数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

i3d_resnet50_v1_custom

使用ResNet50骨干网络的膨胀3D模型 (I3D)。

P3D

P3D

伪3D网络 (P3D)。

p3d_resnet50_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络的伪3D网络 (P3D)。

p3d_resnet101_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的伪3D网络 (P3D)。

R2+1D

R2Plus1D

R2+1D网络。

r2plus1d_resnet18_kinetics400

在Kinetics400数据集上训练的、使用ResNet18骨干网络的R2Plus1D。

r2plus1d_resnet34_kinetics400

在Kinetics400数据集上训练的、使用ResNet34骨干网络的R2Plus1D。

r2plus1d_resnet50_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络的R2Plus1D。

r2plus1d_resnet101_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的R2Plus1D。

r2plus1d_resnet152_kinetics400

在Kinetics400数据集上训练的、使用ResNet152骨干网络的R2Plus1D。

SlowFast

SlowFast

来自“SlowFast Networks for Video Recognition”论文的SlowFast网络 (SlowFast)。

slowfast_4x16_resnet50_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。

slowfast_8x8_resnet50_kinetics400

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 8x8网络 (SlowFast)。

slowfast_4x16_resnet101_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 4x16网络 (SlowFast)。

slowfast_8x8_resnet101_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 8x8网络 (SlowFast)。

slowfast_16x8_resnet101_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)。

slowfast_16x8_resnet101_50_50_kinetics400

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast),但时间头用ResNet50结构 (3, 4, 6, 3) 初始化。

slowfast_4x16_resnet50_custom

使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。

API参考

GluonCV模型的网络定义

GluonCV 模型动物园

class gluoncv.model_zoo.ABC[source]

提供使用继承创建ABC的标准方法的辅助类。

class gluoncv.model_zoo.AlexNet(classes=1000, **kwargs)[source]

来自“One weird trick…”论文的AlexNet模型。

参数

classes (int, default 1000) – 输出层的类别数。

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BaseAnchorBasedTracktor[source]
abstract anchors()[source]
abstract clean_up()[source]

运行一个视频后进行清理

abstract detect_and_track(frame, tracking_anchor_indices, tracking_anchor_weights, tracking_classes)[source]

对新帧执行检测和跟踪

参数
  • frame (HxWx3 RGB image) –

  • tracking_anchor_indices (NxM ndarray) –

  • NxM ndarray (tracking_anchor_weights) –

  • tracking_classes (Nx1 ndarray of the class ids of the tracked object) – 被跟踪对象的类别ID的Nx1 ndarray

  • Returns – detection\_bounding\_boxes: 所有检测结果,格式为 (x0, y0, x1, y1, confidence, cls) detection\_source: 每个检测结果对应的源锚框索引 tracking\_boxes: 所有跟踪结果,格式为 (x0, y0, x1, y1, confidence) extract\_info: 从跟踪器中提取的额外信息,例如地标,一个字典

  • -------

abstract prepare_for_frame(frame)[source]

此方法应在运动预测之前运行任何所需的操作。它可以准备检测器,甚至运行骨干网络特征提取。它还可以为运动预测提供数据。 :param frame: 帧数据,与 detect\_and\_track 方法中的相同。 :type frame: the frame data, the same as in the detect\_and\_track method

返回

motion_predict_data

返回类型

提供给运动预测的可选数据,如果未提供数据,则返回 None

class gluoncv.model_zoo.BasicBlockV1(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Deep Residual Learning for Image Recognition”论文的BasicBlock V1。用于ResNet V1的18层和34层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BasicBlockV1b(planes, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, **kwargs)[source]

ResNetV1b BasicBlockV1b

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BasicBlockV2(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Identity Mappings in Deep Residual Networks”论文的BasicBlock V2。用于ResNet V2的18层和34层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Block(channels, cardinality, bottleneck_width, stride, downsample=False, last_gamma=False, use_se=False, avg_down=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Aggregated Residual Transformations for Deep Neural Network”论文的Bottleneck Block。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Bottleneck(channels, cardinality=1, bottleneck_width=64, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, last_gamma=False, dropblock_prob=0, input_size=None, use_splat=False, radix=2, avd=False, avd_first=False, in_channels=None, split_drop_ratio=0, **kwargs)[source]

ResNeSt瓶颈块

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV1(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Deep Residual Learning for Image Recognition”论文的Bottleneck V1。用于ResNet V1的50、101、152层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV1b(planes, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, last_gamma=False, **kwargs)[source]

ResNetV1b BottleneckV1b

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV2(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Identity Mappings in Deep Residual Networks”论文的Bottleneck V2。用于ResNet V2的50、101、152层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.C3D(nclass, dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, **kwargs)[source]

卷积3D网络 (C3D)。学习时空特征与3D卷积网络。ICCV, 2015. https://arxiv.org/abs/1412.0767

参数
  • nclass (int) – 训练数据集中的类别数。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • dropout_ratio (float) – 密集层后用于避免过拟合的Dropout值。

  • init_std (float) – 初始化密集层的默认标准差值。

  • ctx (str) – 上下文,默认为CPU。加载预训练权重的上下文。

hybrid_forward(F, x)[source]

C3D网络的Hybrid forward

class gluoncv.model_zoo.COCODetection(root='~/.mxnet/datasets/coco', splits=('instances_val2017'), transform=None, min_object_area=0, skip_empty=True, use_crowd=True)[source]

MS COCO检测数据集。

参数
  • root (str, default '~/.mxnet/datasets/coco') – 存储数据集的文件夹路径。

  • splits (list of str, default ['instances_val2017']) – Json标注文件名。可选值包括:instances\_val2017, instances\_train2017。

  • transform (callable, default None) –

    一个接受数据和标签并对其进行转换的函数。示例请参阅./transforms

    对象检测的转换函数应考虑标签,因为任何几何修改都需要修改标签。

  • min_object_area (float) – 最小接受的真实区域,如果对象的区域小于此值,将被忽略。

  • skip_empty (bool, default is True) – 是否跳过没有有效对象的图像。在训练中应为True,否则会导致未定义的行为。

  • use_crowd (bool, default is True) – 是否使用标注为crowd实例的框。

property annotation_dir

标注子目录。默认是'annotations' (coco默认)。例如,coco格式的json文件将在'root/annotation\_dir/xxx.json'中搜索。如果自定义数据集不遵循此模式,可以重写。

property classes

类别名称。

property coco

返回用于评估的pycocotools对象。

get_im_aspect_ratio()[source]

返回原始数据顺序中每张图像的宽高比。

class gluoncv.model_zoo.CenterNet(base_network, heads, classes, head_conv_channel=0, scale=4.0, topk=100, flip_test=False, nms_thresh=0, nms_topk=400, post_nms=100, **kwargs)[source]

Objects as Points. https://arxiv.org/abs/1904.07850v2

参数
  • base_network (mxnet.gluon.nn.HybridBlock) – 基础特征提取网络。

  • heads (OrderedDict) –

    OrderedDict,包含每个头的规格。例如:OrderedDict([

    (‘heatmap’, {‘num\_output’: len(classes), ‘bias’: -2.19}), (‘wh’, {‘num\_output’: 2}), (‘reg’, {‘num\_output’: 2}) ])

  • classes (list of str) – 类别名称。

  • head_conv_channel (int, default is 0) – 如果 > 0,将在每个实际头部之前使用一个额外的卷积层。

  • scale (float, default is 4.0) – 整个网络的下采样比例。

  • topk (int, default is 100) – 输出数量。

  • flip_test (bool) – 是否在推理时应用翻转测试(训练模式不受影响)。

  • nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

  • nms_topk (int, default is 400) –

    对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

    结果都用于NMS。

  • post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

hybrid_forward(F, x)[source]

Center net的Hybrid forward

property num_classes

返回前景类别的数量。

返回

前景类别数

返回类型

int

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。

参数
  • classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。

  • reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典,或 {new\_name : old\_name} 映射字典,或者如果类别名称不变,则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('center_net_resnet50_v1b_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
detector.reset_class(['apple', 'orange'])

set_nms(nms_thresh=0, nms_topk=400, post_nms=100)[source]

参数
  • 设置非极大值抑制参数。

  • nms_topk (int, default is 400) –

    对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

    结果都用于NMS。

  • post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

返回

返回类型

nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

None

class gluoncv.model_zoo.DUC(planes, upscale_factor=2, **kwargs)[source]

使用像素混洗的上采样层

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]

class gluoncv.model_zoo.DarknetV3(layers, channels, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

参数
  • Darknet v3。

  • layers (iterable) – 参数layers的描述。

  • channels (iterable) – 参数channels的描述。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

classes (int, default is 1000) – 类别数,决定了密集层输出通道数。

features

特征提取层。

类型

mxnet.gluon.nn.HybridSequential

output

特征提取层。

一个 classes(1000) 路的全连接层。

mxnet.gluon.nn.Dense

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]
参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • nclass (int) – 训练数据集的类别数。

  • backbone (string) – 预训练的膨胀骨干网络类型(默认:'resnet50';'resnet50'、'resnet101'或'resnet152')。

  • norm_layer (object) – 骨干网络中使用的归一化层(默认:mxnet.gluon.nn.BatchNorm;用于同步跨GPU批量归一化)。

aux (bool) – 辅助损失。

参考

Chen, Liang-Chieh, et al. “Rethinking atrous convolution for semantic image segmentation.” arXiv preprint arXiv:1706.05587 (2017).

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]
参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • class gluoncv.model_zoo.DeepLabV3Plus(nclass, backbone='xception', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=576, crop_size=512, dilated=True, **kwargs)[source]

  • backbone (string) – 预训练的膨胀骨干网络类型(默认:'resnet50';'resnet50'、'resnet101'或'resnet152')。

  • norm_layer (object) – 骨干网络中使用的归一化层(默认:mxnet.gluon.nn.BatchNorm;用于同步跨GPU批量归一化)。

aux (bool) – 辅助损失。

backbone (string) – 预训练的膨胀骨干网络类型(默认:'xception')。

Chen, Liang-Chieh, et al. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.”

evaluate(x)[source]

使用输入和目标评估网络

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]
参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • class gluoncv.model_zoo.DeepLabWV3Plus(nclass, backbone='wideresnet', aux=False, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, dilated=True, **kwargs)[source]

  • backbone (string) – 预训练的膨胀骨干网络类型(默认:'resnet50';'resnet50'、'resnet101'或'resnet152')。

  • norm_layer (object) – 骨干网络中使用的归一化层(默认:mxnet.gluon.nn.BatchNorm;用于同步跨GPU批量归一化)。

  • backbone (string) – 预训练的膨胀骨干网络类型(默认:'wideresnet')。

Reference – Chen, Liang-Chieh, et al. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.”, https://arxiv.org/abs/1802.02611, ECCV 2018

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 模型。

参数
  • class gluoncv.model_zoo.DenseNet(num_init_features, growth_rate, block_config, bn_size=4, dropout=0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

  • num_init_features (int) – 第一个卷积层中学习的滤波器数量。

  • growth_rate (int) – 每层添加的滤波器数量(论文中的k)。

  • block_config (list of int) – 每个池化块中的层数列表。

  • bn_size (int, default 4) – 瓶颈层数量的乘数因子。(即瓶颈层中的bn\_size \* k个特征)

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

classes (int, default 1000) – 分类类别数。

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]

class gluoncv.model_zoo.DepthDecoder(num_ch_enc, scales=range(0, 4), num_output_channels=1, use_skips=True)[source]

参数
  • Monodepth2的解码器

  • num_ch_enc (list) – 编码器的通道数。

  • scales (list) – 损失函数中使用的尺度。(默认:range(4))

  • num_output_channels (int) – 输出通道数。(默认:1)

use_skips (bool) – 这将在网络中使用跳跃连接结构。(默认:True)

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, input_features)[source]

class gluoncv.model_zoo.DepthwiseRPN(bz=1, is_train=False, ctx=cpu(0), anchor_num=5, out_channels=256)[source]

参数
  • 通过z\_f和x\_f获取cls和loc

  • bz (int) – 训练的批处理大小,测试时 bz = 1。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • ctx (mxnet.Context) – 上下文,例如 mx.cpu(), mx.gpu(0)。

  • anchor_num (int) – 锚框数量。

hybrid_forward(F, z_f, x_f)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.DoubleHeadRCNN(features, top_features, classes, box_features=None, short=600, max_size=1000, min_stage=4, max_stage=4, train_patterns=None, nms_thresh=0.3, nms_topk=400, post_nms=100, roi_mode='align', roi_size=(14, 14), strides=16, clip=None, rpn_channel=1024, base_size=16, scales=(8, 16, 32), ratios=(0.5, 1, 2), alloc_size=(128, 128), rpn_nms_thresh=0.7, rpn_train_pre_nms=12000, rpn_train_post_nms=2000, rpn_test_pre_nms=6000, rpn_test_post_nms=300, rpn_min_size=16, per_device_batch_size=1, num_sample=128, pos_iou_thresh=0.5, pos_ratio=0.25, max_num_gt=300, additional_output=False, force_nms=False, minimal_opset=False, **kwargs)[source]

Double Head RCNN 网络。

参数
  • features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。

  • top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。

  • classes (iterable of str) – 类别名称,其长度为 num_class

  • box_features (gluon.HybridBlock, default is None) – 用于转换共享 ROI 输出(top_features)以进行边界框预测的特征头部。如果设置为 None,将使用全局平均池化。

  • short (int, default is 600.) – 输入图像的短边尺寸。

  • max_size (int, default is 1000.) – 输入图像长边的最大尺寸。

  • min_stage (int, default is 4) – FPN 阶段的最小阶段编号。

  • max_stage (int, default is 4) – FPN 阶段的最大阶段编号。

  • train_patterns (str, default is None.) – 可训练参数的匹配模式。

  • nms_thresh (float, default is 0.3.) – 非极大值抑制(NMS)阈值。可以指定 < 0 或 > 1 来禁用 NMS。

  • nms_topk (int, default is 400) – 对前 k 个检测结果应用 NMS,使用 -1 来禁用,以便在 NMS 中使用所有检测结果。

  • roi_mode (str, default is align) – ROI 池化模式。当前支持 ‘pool’ 和 ‘align’。

  • roi_size (tuple of int, length 2, default is (14, 14)) – ROI 区域的(高度,宽度)。

  • strides (int/tuple of ints, default is 16) – 相对于原始图像的特征图步幅。这通常是原始图像尺寸与特征图尺寸的比率。对于 FPN,使用整数元组。

  • clip (float, default is None) – 裁剪边界框预测以防止指数运算溢出。

  • rpn_channel (int, default is 1024) – RPN 卷积层中使用的通道数。

  • base_size (int) – 参考锚框的宽度(和高度)。

  • scales (iterable of float, default is (8, 16, 32)) –

    锚框的面积。我们使用以下公式计算锚框的形状

    \[width_{anchor} = size_{base} \times scale \times \sqrt{ 1 / ratio} height_{anchor} = size_{base} \times scale \times \sqrt{ratio}\]

  • ratios (iterable of float, default is (0.5, 1, 2)) – 锚框的纵横比。我们期望它是一个列表或元组。

  • alloc_size (tuple of int) – 锚框的分配大小,格式为 (H, W)。通常我们为较大的特征图生成足够的锚框,例如 128x128。之后在推理时,我们可以有可变的输入尺寸,此时我们可以从这个大的锚框图中裁剪出相应的锚框,这样就可以跳过为每个输入重新生成锚框的过程。

  • rpn_train_pre_nms (int, default is 12000) – 在 RPN 训练中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_train_post_nms (int, default is 2000) – 在 RPN 训练中,NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_train_pre_nms,则会设置为 rpn_train_pre_nms。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, default is 300) – 在 RPN 测试中,NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_test_pre_nms,则会设置为 rpn_test_pre_nms。

  • rpn_nms_thresh (float, default is 0.7) – NMS 的 IOU 阈值。用于移除重叠的建议框。

  • rpn_num_sample (int, default is 256) – RPN 目标的样本数量。

  • rpn_pos_iou_thresh (float, default is 0.7) – IOU 大于 pos_iou_thresh 的锚框被视为正样本。

  • rpn_neg_iou_thresh (float, default is 0.3) – IOU 小于 neg_iou_thresh 的锚框被视为负样本。IOU 介于 pos_iou_threshneg_iou_thresh 之间的锚框被忽略。

  • rpn_pos_ratio (float, default is 0.5) – pos_ratio 定义了要采样多少正样本(pos_ratio * num_sample)。

  • rpn_box_norm (array-like of size 4, default is (1., 1., 1., 1.)) – 从编码值中除以的标准差值。

  • rpn_min_size (int, default is 16) – 尺寸小于 min_size 的建议框将被丢弃。

  • per_device_batch_size (int, default is 1) – 训练期间每个设备的批量大小。

  • num_sample (int, default is 128) – RCNN 目标的样本数量。

  • pos_iou_thresh (float, default is 0.5) – IOU 大于 pos_iou_thresh 的建议框被视为正样本。

  • pos_ratio (float, default is 0.25) – pos_ratio 定义了要采样多少正样本(pos_ratio * num_sample)。

  • max_num_gt (int, default is 300) – 每个样本的最大真值(ground-truth)数量。这只是一个上限,不一定非常精确。但是,使用非常大的数字可能会影响训练速度。

  • additional_output (boolean, default is False) – additional_output 仅用于 Mask R-CNN 获取内部输出。

  • force_nms (bool, default is False) – 对所有类别应用 NMS,这是为了避免来自不同类别的重叠检测结果。

  • minimal_opset (bool, default is False) – 有时我们会添加特殊的运算符来加速训练/推理,但是,为了导出到第三方编译器,我们希望利用最广泛使用的运算符。如果 minimal_opsetTrue,网络将使用最少的运算符集,适用于例如 TVM

classes

类别名称,其长度为 num_class

特征提取层。

iterable of str

num_class

正样本类别的数量。

特征提取层。

int

short

输入图像的短边尺寸。

特征提取层。

int

max_size

输入图像长边的最大尺寸。

特征提取层。

int

train_patterns

可训练参数的匹配模式。

特征提取层。

str

nms_thresh

非极大值抑制(NMS)阈值。可以指定 < 0 或 > 1 来禁用 NMS。

特征提取层。

float

nms_topk
对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

结果都用于NMS。

特征提取层。

int

force_nms

对所有类别应用 NMS,这是为了避免来自不同类别的重叠检测结果。

特征提取层。

bool

rpn_target_generator

生成包含 cls_target、box_target 和 box_mask 的训练目标。

特征提取层。

gluon.Block

target_generator

生成包含 boxes、samples、matches、gt_label 和 gt_box 的训练目标。

特征提取层。

gluon.Block

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]

前向传播 DoubleHeadRCNN-RCNN 网络。

训练和推理期间的行为不同。

参数
  • x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。

  • gt_box (type, only required during training) – 真值边界框张量,形状为 (B, N, 4)。仅在训练期间需要。

  • gt_label (type, only required during training) – 真值标签张量,形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间,返回最终的类别 ID、置信度得分和边界框。

返回类型

(ids, scores, bboxes)

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。

参数
  • classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。

  • reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典,或 {new\_name : old\_name} 映射字典,或者如果类别名称不变,则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('faster_rcnn_resnet50_v1b_coco', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
property target_generator

返回存储的目标生成器

返回

RCNN 目标生成器

返回类型

mxnet.gluon.HybridBlock

class gluoncv.model_zoo.DummyMotionEstimator[source]
initialize(first_frame, first_frame_motion_pred_data)[source]

通过输入第一帧来初始化运动估计器

参数
  • first_frame (data of the first frame) – 第一帧的数据

  • first_frame_motion_pred_data (additional data for motion prediction) – 用于运动预测的额外数据

  • Returns – 缓存信息

  • -------

predict_new_locations(prev_frame_cache: numpy.ndarray, prev_bboxes: numpy.ndarray, new_frame: numpy.ndarray, skip: bool = False, **kwargs)[source]

用于预测给定两帧的边界框运动的抽象方法。 :param prev_frame_cache: :type prev_frame_cache: 运动估计缓存的图像,numpy.ndarray :param prev_bboxes: :type prev_bboxes: Nx4 numpy.ndarray,边界框格式为 (left, top, right, bottom) :param new_frame: :type new_frame: BGR 图像,numpy.ndarray :param new_frame_motion_pred_data: :type new_frame_motion_pred_data: 用于运动预测的额外数据 :param tracked_boxes_anchor_indices: :type tracked_boxes_anchor_indices: 用于构建 prev_bboxes 的锚点索引 :param tracked_boxes_anchor_weights: :type tracked_boxes_anchor_weights: 用于构建 prev_bboxes 的锚点的投票权重 :param skip: :type skip: 是否跳过当前帧的运动估计 :param kwargs: :type kwargs: 其他信息 :param Returns: new_boxes: Nx4 numpy.ndarray

缓存信息

参数

-------

class gluoncv.model_zoo.FCN(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, base_size=520, crop_size=480, **kwargs)[source]

用于语义分割的全卷积网络

参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • nclass (int) – 训练数据集的类别数。

  • norm_layer (object) – 主干网络中使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm);

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

  • pretrained_base (bool or str) – 指 FCN 主干或编码器是否已预训练。如果为 True,则加载在 ImageNet 上训练过的模型的权重。

aux (bool) – 辅助损失。

Long, Jonathan, Evan Shelhamer, and Trevor Darrell. "Fully convolutional networks for semantic segmentation." CVPR, 2015 的 FCN 模型。

示例

>>> model = FCN(nclass=21, backbone='resnet50')
>>> print(model)
hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.FarneBeckFlowMotionEstimator(flow_scale=256)[source]

使用 Farnebeck 算法进行基于光流的运动估计

compute_flow(prev_frame_cache, prepared_new_frame)[source]

计算稠密光流 :param prev_frame_cache: :param prepared_new_frame: :param Returns: flow_map: NxMx2 的映射。每个空间位置包含一个 2 元素的向量

指定 x 和 y 方向的增量。在此 flow_map 的坐标空间中,增量的单位是像素

参数

-------

class gluoncv.model_zoo.FastSCNN(nclass, aux=True, ctx=cpu(0), pretrained_base=False, height=None, width=None, base_size=2048, crop_size=1024, **kwargs)[source]

Fast-SCNN: 快速语义分割网络

参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • norm_layer (object) – 主干网络中使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm)。

  • norm_layer (object) – 骨干网络中使用的归一化层(默认:mxnet.gluon.nn.BatchNorm;用于同步跨GPU批量归一化)。

aux (bool) – 辅助损失。

Rudra P K Poudel, et al. https://bmvc2019.org/wp-content/uploads/papers/0959-paper.pdf "Fast-SCNN: Fast Semantic Segmentation Network." BMVC, 2019 的 Fast-SCNN 模型。

demo(x)[source]

fastscnn 演示

evaluate(x)[source]

evaluate(x)[source]

hybrid_forward(F, x)[source]

Fast SCNN 的混合前向计算

predict(x)[source]

fastscnn 预测

class gluoncv.model_zoo.FasterRCNN(features, top_features, classes, box_features=None, short=600, max_size=1000, min_stage=4, max_stage=4, train_patterns=None, nms_thresh=0.3, nms_topk=400, post_nms=100, roi_mode='align', roi_size=(14, 14), strides=16, clip=None, rpn_channel=1024, base_size=16, scales=(8, 16, 32), ratios=(0.5, 1, 2), alloc_size=(128, 128), rpn_nms_thresh=0.7, rpn_train_pre_nms=12000, rpn_train_post_nms=2000, rpn_test_pre_nms=6000, rpn_test_post_nms=300, rpn_min_size=16, per_device_batch_size=1, num_sample=128, pos_iou_thresh=0.5, pos_ratio=0.25, max_num_gt=300, additional_output=False, force_nms=False, minimal_opset=False, **kwargs)[source]

Faster RCNN 网络。

参数
  • features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。

  • top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。

  • classes (iterable of str) – 类别名称,其长度为 num_class

  • box_features (gluon.HybridBlock, default is None) – 用于转换共享 ROI 输出(top_features)以进行边界框预测的特征头部。如果设置为 None,将使用全局平均池化。

  • short (int, default is 600.) – 输入图像的短边尺寸。

  • max_size (int, default is 1000.) – 输入图像长边的最大尺寸。

  • min_stage (int, default is 4) – FPN 阶段的最小阶段编号。

  • max_stage (int, default is 4) – FPN 阶段的最大阶段编号。

  • train_patterns (str, default is None.) – 可训练参数的匹配模式。

  • nms_thresh (float, default is 0.3.) – 非极大值抑制(NMS)阈值。可以指定 < 0 或 > 1 来禁用 NMS。

  • nms_topk (int, default is 400) – 对前 k 个检测结果应用 NMS,使用 -1 来禁用,以便在 NMS 中使用所有检测结果。

  • roi_mode (str, default is align) – ROI 池化模式。当前支持 ‘pool’ 和 ‘align’。

  • roi_size (tuple of int, length 2, default is (14, 14)) – ROI 区域的(高度,宽度)。

  • strides (int/tuple of ints, default is 16) – 相对于原始图像的特征图步幅。这通常是原始图像尺寸与特征图尺寸的比率。对于 FPN,使用整数元组。

  • clip (float, default is None) – 裁剪边界框预测以防止指数运算溢出。

  • rpn_channel (int, default is 1024) – RPN 卷积层中使用的通道数。

  • base_size (int) – 参考锚框的宽度(和高度)。

  • scales (iterable of float, default is (8, 16, 32)) –

    锚框的面积。我们使用以下公式计算锚框的形状

    \[width_{anchor} = size_{base} \times scale \times \sqrt{ 1 / ratio} height_{anchor} = size_{base} \times scale \times \sqrt{ratio}\]

  • ratios (iterable of float, default is (0.5, 1, 2)) – 锚框的纵横比。我们期望它是一个列表或元组。

  • alloc_size (tuple of int) – 锚框的分配大小,格式为 (H, W)。通常我们为较大的特征图生成足够的锚框,例如 128x128。之后在推理时,我们可以有可变的输入尺寸,此时我们可以从这个大的锚框图中裁剪出相应的锚框,这样就可以跳过为每个输入重新生成锚框的过程。

  • rpn_train_pre_nms (int, default is 12000) – 在 RPN 训练中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_train_post_nms (int, default is 2000) – 在 RPN 训练中,NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_train_pre_nms,则会设置为 rpn_train_pre_nms。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, default is 300) – 在 RPN 测试中,NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_test_pre_nms,则会设置为 rpn_test_pre_nms。

  • rpn_nms_thresh (float, default is 0.7) – NMS 的 IOU 阈值。用于移除重叠的建议框。

  • rpn_num_sample (int, default is 256) – RPN 目标的样本数量。

  • rpn_pos_iou_thresh (float, default is 0.7) – IOU 大于 pos_iou_thresh 的锚框被视为正样本。

  • rpn_neg_iou_thresh (float, default is 0.3) – IOU 小于 neg_iou_thresh 的锚框被视为负样本。IOU 介于 pos_iou_threshneg_iou_thresh 之间的锚框被忽略。

  • rpn_pos_ratio (float, default is 0.5) – pos_ratio 定义了要采样多少正样本(pos_ratio * num_sample)。

  • rpn_box_norm (array-like of size 4, default is (1., 1., 1., 1.)) – 从编码值中除以的标准差值。

  • rpn_min_size (int, default is 16) – 尺寸小于 min_size 的建议框将被丢弃。

  • per_device_batch_size (int, default is 1) – 训练期间每个设备的批量大小。

  • num_sample (int, default is 128) – RCNN 目标的样本数量。

  • pos_iou_thresh (float, default is 0.5) – IOU 大于 pos_iou_thresh 的建议框被视为正样本。

  • pos_ratio (float, default is 0.25) – pos_ratio 定义了要采样多少正样本(pos_ratio * num_sample)。

  • max_num_gt (int, default is 300) – 每个样本的最大真值(ground-truth)数量。这只是一个上限,不一定非常精确。但是,使用非常大的数字可能会影响训练速度。

  • additional_output (boolean, default is False) – additional_output 仅用于 Mask R-CNN 获取内部输出。

  • force_nms (bool, default is False) – 对所有类别应用 NMS,这是为了避免来自不同类别的重叠检测结果。

  • minimal_opset (bool, default is False) – 有时我们会添加特殊的运算符来加速训练/推理,但是,为了导出到第三方编译器,我们希望利用最广泛使用的运算符。如果 minimal_opsetTrue,网络将使用最少的运算符集,适用于例如 TVM

classes

类别名称,其长度为 num_class

特征提取层。

iterable of str

num_class

正样本类别的数量。

特征提取层。

int

short

输入图像的短边尺寸。

特征提取层。

int

max_size

输入图像长边的最大尺寸。

特征提取层。

int

train_patterns

可训练参数的匹配模式。

特征提取层。

str

nms_thresh

非极大值抑制(NMS)阈值。可以指定 < 0 或 > 1 来禁用 NMS。

特征提取层。

float

nms_topk
对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

结果都用于NMS。

特征提取层。

int

force_nms

对所有类别应用 NMS,这是为了避免来自不同类别的重叠检测结果。

特征提取层。

bool

rpn_target_generator

生成包含 cls_target、box_target 和 box_mask 的训练目标。

特征提取层。

gluon.Block

target_generator

生成包含 boxes、samples、matches、gt_label 和 gt_box 的训练目标。

特征提取层。

gluon.Block

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]

前向传播 Faster-RCNN 网络。

训练和推理期间的行为不同。

参数
  • x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。

  • gt_box (type, only required during training) – 真值边界框张量,形状为 (B, N, 4)。仅在训练期间需要。

  • gt_label (type, only required during training) – 真值标签张量,形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间,返回最终的类别 ID、置信度得分和边界框。

返回类型

(ids, scores, bboxes)

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。

参数
  • classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。

  • reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典,或 {new\_name : old\_name} 映射字典,或者如果类别名称不变,则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('faster_rcnn_resnet50_v1b_coco', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
property target_generator

返回存储的目标生成器

返回

RCNN 目标生成器

返回类型

mxnet.gluon.HybridBlock

class gluoncv.model_zoo.ForwardBackwardTask(net, optimizer, rpn_cls_loss, rpn_box_loss, rcnn_cls_loss, rcnn_box_loss, rcnn_mask_loss, amp_enabled)[source]

Mask R-CNN 训练任务,可以使用 Parallel 并发调度。 :param net: Faster R-CNN 网络。 :type net: gluon.HybridBlock :param optimizer: 训练优化器。 :type optimizer: gluon.Trainer :param rpn_cls_loss: RPN 边界框分类损失。 :type rpn_cls_loss: gluon.loss :param rpn_box_loss: RPN 边界框回归损失。 :type rpn_box_loss: gluon.loss :param rcnn_cls_loss: R-CNN 边界框头部分类损失。 :type rcnn_cls_loss: gluon.loss :param rcnn_box_loss: R-CNN 边界框头部回归损失。 :type rcnn_box_loss: gluon.loss :param rcnn_mask_loss: R-CNN Mask 头部分割损失。 :type rcnn_mask_loss: gluon.loss :param amp_enabled: 是否启用自动混合精度(Automatic Mixed Precision)。 :type amp_enabled: bool

forward_backward(x)[source]

前向和后向计算。

class gluoncv.model_zoo.GluonSSDMultiClassTracktor(gpu_id=0, detector_thresh=0.5, model_name='', use_pretrained=False, param_path='', data_shape=512)[source]

基于对象检测器启动一个 tracktor。

anchors()[source]
clean_up()[source]

运行一个视频后进行清理

prepare_for_frame(frame)[source]

此方法应在运动预测之前运行任何所需的操作。它可以准备检测器,甚至运行骨干网络特征提取。它还可以为运动预测提供数据。 :param frame: 帧数据,与 detect\_and\_track 方法中的相同。 :type frame: the frame data, the same as in the detect\_and\_track method

返回

motion_predict_data

返回类型

提供给运动预测的可选数据,如果未提供数据,则返回 None

class gluoncv.model_zoo.GoogLeNet(classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, dropout_ratio=0.4, aux_logits=False, norm_kwargs=None, partial_bn=False, pretrained_base=True, ctx=None, **kwargs)[source]

来自 “Going Deeper with Convolutions” 论文的 GoogleNet 模型。以及 “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift” 论文。

参数
  • dropout (float, default 0) – 每个密集层后的dropout率。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

  • partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层,除了第一层。

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.HybridBlock(prefix=None, params=None)[source]

HybridBlock 同时支持使用 Symbol 和 NDArray 进行前向计算。

HybridBlockBlock 类似,但有一些区别

import mxnet as mx
from mxnet.gluon import HybridBlock, nn

class Model(HybridBlock):
    def __init__(self, **kwargs):
        super(Model, self).__init__(**kwargs)
        # use name_scope to give child Blocks appropriate names.
        with self.name_scope():
            self.dense0 = nn.Dense(20)
            self.dense1 = nn.Dense(20)

    def hybrid_forward(self, F, x):
        x = F.relu(self.dense0(x))
        return F.relu(self.dense1(x))

model = Model()
model.initialize(ctx=mx.cpu(0))
model.hybridize()
model(mx.nd.zeros((10, 10), ctx=mx.cpu(0)))

HybridBlock 中的前向计算必须是静态的,以便与 Symbol 一起工作,即不能在张量上调用 NDArray.asnumpy(), NDArray.shape, NDArray.dtype, NDArray 索引 (x[i]) 等。此外,不能使用基于非恒定表达式(如随机数或中间结果)的分支或循环逻辑,因为它们会改变每次迭代的图结构。

在使用 hybridize() 激活之前,HybridBlock 的工作方式与普通 Block 完全一样。激活后,HybridBlock 将创建一个表示前向计算的符号图并缓存它。在随后的前向计算中,将使用缓存的图而不是 hybrid_forward()

详细教程请参阅参考资料。

参考资料

Hybrid - 更快的训练和简便的部署

cast(dtype)[source]

将此 Block 转换为使用另一种数据类型。

参数

dtype (str or numpy.dtype) – 新的数据类型。

export(path, epoch=0, remove_amp_cast=True)[source]

将 HybridBlock 导出为 json 格式,该格式可以被 gluon.SymbolBlock.importsmxnet.mod.Module 或 C++ 接口加载。

注意

当只有一个输入时,其名称将是 data。当输入多于一个时,它们将被命名为 data0data1 等。

参数
  • path (str) – 保存模型的路径。将创建两个文件 path-symbol.jsonpath-xxxx.params,其中 xxxx 是 4 位数的 epoch 编号。

  • epoch (int) – 保存模型的 epoch 编号。

forward(x, *args)[source]

定义前向计算。参数可以是 NDArraySymbol

hybrid_forward(F, x, *args, **kwargs)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybridize(active=True, backend=None, backend_opts=None, **kwargs)[source]

递归地激活或停用 HybridBlock。对非混合子块无效。

参数
  • active (bool, default True) – 是否开启或关闭 hybrid 模式。

  • backend (str) – 后端名称,已注册在 SubgraphBackendRegistry 中,默认为 None

  • backend_opts (dict of user-specified options to pass to the backend for partitioning, optional) – 传递给 SubgraphPropertyPrePartitionPostPartition 函数的用户指定选项字典。

  • static_alloc (bool, default False) – 静态分配内存以提高速度。内存使用量可能会增加。

  • static_shape (bool, default False) – 对迭代之间的不变输入形状进行优化。同时必须将 static_alloc 设置为 True。输入形状的变化仍然允许,但速度较慢。

infer_shape(*args)[source]

从输入推断 Parameters 的形状。

infer_type(*args)[source]

从输入推断 Parameters 的数据类型。

optimize_for(x, *args, backend=None, backend_opts=None, **kwargs)[source]

对当前 HybridBlock 进行分区并为给定的后端进行优化,而不执行前向传播。原地修改 HybridBlock。

立即使用指定的后端对 HybridBlock 进行分区。结合了 hybridize API 中完成的工作和前向传播中一部分工作(不调用 CachedOp)。可以替代 hybridize 使用,之后可以调用 export 或运行推理。更多详情请参见 example/extensions/lib_subgraph/README.md 中的 README.md。

示例

# 分区然后导出到文件 block.optimize_for(x, backend=’myPart’) block.export(‘partitioned’)

# 分区然后运行推理 block.optimize_for(x, backend=’myPart’) block(x)

参数
  • x (NDArray) – 模型的第一个输入

  • *args (NDArray) – 模型的其他输入

  • backend (str) – 后端名称,已注册在 SubgraphBackendRegistry 中,默认为 None

  • backend_opts (dict of user-specified options to pass to the backend for partitioning, optional) – 传递给 SubgraphPropertyPrePartitionPostPartition 函数的用户指定选项字典。

  • static_alloc (bool, default False) – 静态分配内存以提高速度。内存使用量可能会增加。

  • static_shape (bool, default False) – 对迭代之间的不变输入形状进行优化。同时必须将 static_alloc 设置为 True。输入形状的变化仍然允许,但速度较慢。

register_child(block, name=None)[source]

将 block 注册为 self 的子块。作为 self 属性分配的 Block 将自动注册。

register_op_hook(callback, monitor_all=False)[source]

递归地为 block 安装操作钩子。

参数
  • callback (function) – 接收一个字符串和一个 NDArrayHandle。

  • monitor_all (bool, default False) – 如果为 true,则同时监视输入和输出,否则仅监视输出。

class gluoncv.model_zoo.I3D_InceptionV1(nclass=1000, pretrained=False, pretrained_base=True, num_segments=1, num_crop=1, feat_ext=False, dropout_ratio=0.5, init_std=0.01, partial_bn=False, ctx=None, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Going Deeper with Convolutions”论文的Inception v1模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。由于填充原因,此实现与原始实现略有不同。

参数
  • nclass (int) – 训练数据集中的类别数。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.I3D_InceptionV3(nclass=1000, pretrained=False, pretrained_base=True, num_segments=1, num_crop=1, feat_ext=False, dropout_ratio=0.5, init_std=0.01, partial_bn=False, ctx=None, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

此模型定义文件由 Brais 编写并由 Yi 修改。

参数
  • nclass (int) – 训练数据集中的类别数。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.I3D_ResNetV1(nclass, depth, num_stages=4, pretrained=False, pretrained_base=True, feat_ext=False, num_segments=1, num_crop=1, spatial_strides=(1, 2, 2, 2), temporal_strides=(1, 1, 1, 1), dilations=(1, 1, 1, 1), out_indices=(0, 1, 2, 3), conv1_kernel_t=5, conv1_stride_t=2, pool1_kernel_t=1, pool1_stride_t=2, inflate_freq=(1, 1, 1, 1), inflate_stride=(1, 1, 1, 1), inflate_style='3x1x1', nonlocal_stages=(-1, ), nonlocal_freq=(0, 1, 1, 0), nonlocal_cfg=None, bn_eval=True, bn_frozen=False, partial_bn=False, frozen_stages=-1, dropout_ratio=0.5, init_std=0.01, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]

ResNet_I3D 主干网络。来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • depth (int, default is 50.) – ResNet 的深度,取值范围为 {18, 34, 50, 101, 152}。

  • num_stages (int, default is 4.) – ResNet 中阶段的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • spatial_strides (tuple of int.) – 每个阶段第一个块在空间维度上的步幅。

  • temporal_strides (tuple of int.) – 每个阶段第一个块在时间维度上的步幅。

  • dilations (tuple of int.) – 每个阶段的扩张率。

  • out_indices (tuple of int.) – 从 ResNet 的选定阶段收集特征,通常用于特征提取或辅助损失。

  • conv1_kernel_t (int, default is 5.) – ResNet 中第一个卷积层的核大小。

  • conv1_stride_t (int, default is 2.) – ResNet 中第一个卷积层的步幅。

  • pool1_kernel_t (int, default is 1.) – ResNet 中第一个池化层的核大小。

  • pool1_stride_t (int, default is 2.) – ResNet 中第一个池化层的步幅。

  • inflate_freq (tuple of int.) – 选择每个阶段中将哪些 2D 卷积层膨胀为 3D 卷积层。

  • inflate_stride (tuple of int.) – 每个阶段膨胀层的步幅。

  • inflate_style (str, default is '3x1x1'.) – 如何膨胀 2D 核,可以是 ‘3x1x1’ 或 ‘1x3x3’。

  • nonlocal_stages (tuple of int.) – 选择需要非局部块的阶段。

  • nonlocal_freq (tuple of int.) – 选择每个阶段插入非局部块的位置。

  • nonlocal_cfg (dict.) – 额外的 non-local 参数,例如 nonlocal_type=’gaussian’

  • bn_eval (bool.) – 是否将 BN 层设置为 eval 模式,即冻结运行统计量(均值和方差)。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • frozen_stages (int.) – 需要冻结(所有参数固定)的阶段。-1 表示不冻结任何参数。

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

hybrid_forward(F, x)[source]

I3D 网络的混合前向计算

init_weights(ctx)[source]

使用其 2D 预训练权重初始化 I3D 网络。

class gluoncv.model_zoo.Inception3(classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, partial_bn=False, **kwargs)[source]

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

参数
  • dropout (float, default 0) – 每个密集层后的dropout率。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MaskRCNN(features, top_features, classes, mask_channels=256, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, target_roi_scale=1, num_fcn_convs=0, norm_layer=None, norm_kwargs=None, **kwargs)[source]

Mask RCNN 网络。

参数
  • features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。

  • top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。

  • classes (iterable of str) – 类别名称,其长度为 num_class

  • mask_channels (int, 默认值是 256) – 掩码预测中的通道数

  • rcnn_max_dets (int, 默认值是 1000) – RCNN 中保留的 ROI 数量。上限由 rpn_test_pre_nms 和 rpn_test_post_nms 中的较小者决定。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, 默认值是 1000) – 在 RPN 测试中,NMS 后返回的顶部提议结果数量。如果该值大于 rpn_test_pre_nms,则会被设置为 rpn_test_pre_nms。

  • target_roi_scale (int, 默认值 1) – 掩码输出 ROI / 输入 ROI 的比例。对于带有 FPN 的模型,此值通常为 2。

  • num_fcn_convs (int, 默认值 0) – 反卷积层之前的卷积块数量。对于 FPN 网络,此值通常为 4。

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]

前向计算 Mask RCNN 网络。

训练和推理期间的行为不同。

参数
  • x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。

  • gt_box (type, 仅在训练期间需要) – 形状为 (1, N, 4) 的真实边界框张量。

  • gt_label (type, only required during training) – 真值标签张量,形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间,返回最终的类别 ID、置信度分数、边界框、分割掩码。

返回类型

(ids, scores, bboxes, masks)

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。

参数
  • classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。

  • reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典,或 {new\_name : old\_name} 映射字典,或者如果类别名称不变,则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('mask_rcnn_resnet50_v1b_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the first category in COCO
>>> net.reset_class(classes=['person'], reuse_weights={0:0})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':0})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
class gluoncv.model_zoo.MobileNet(multiplier=1.0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

参数
  • multiplier (float, 默认值 1.0) – 用于控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。

  • classes (int, default 1000) – 输出层的类别数。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MobileNetV2(multiplier=1.0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

MobileNetV2 模型,出自`”倒残差和线性瓶颈

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ paper. :param multiplier: 控制模型大小的宽度乘数。实际通道数

等于原始通道数乘以该乘数。

参数
  • classes (int, default 1000) – 输出层的类别数。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MobilePose(base_name, base_attrs=('features'), num_joints=17, pretrained_base=False, pretrained_ctx=cpu(0), **kwargs)[source]

用于移动设备的姿态估计

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MonoDepth2(backbone, pretrained_base, num_input_images=1, scales=range(0, 4), num_output_channels=1, use_skips=True, ctx=cpu(0), **kwargs)[source]

Monodepth2

参数
  • backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。

  • pretrained_base (boolstr) – 指示骨干网络是否已预训练。如果为 True,则加载在 ImageNet 上训练的模型的权重。

  • num_input_images (int) – 输入序列的数量。深度编码器使用 1,姿态编码器大于 1。(默认值: 1)

  • num_ch_enc (list) – 编码器的通道数。

  • scales (list) – 损失函数中使用的尺度。(默认:range(4))

  • num_output_channels (int) – 输出通道数。(默认:1)

  • Reference – Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow。“深入研究自监督单目深度估计。” ICCV, 2019

示例

>>> model = MonoDepth2(backbone='resnet18', pretrained_base=True)
>>> print(model)
hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MonoDepth2PoseNet(backbone, pretrained_base, num_input_images=2, num_input_features=1, num_frames_to_predict_for=2, stride=1, ctx=cpu(0), **kwargs)[source]

Monodepth2

参数
  • backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。

  • pretrained_base (boolstr) – 指示骨干网络是否已预训练。如果为 True,则加载在 ImageNet 上训练的模型的权重。

  • num_input_images (int) – 输入序列的数量。深度编码器使用 1,姿态编码器大于 1。(默认值: 2)

  • num_input_features (int) – 来自姿态网络编码器的输入特征图数量。(默认值: 1)

  • num_frames_to_predict_for (int) – 预测帧间姿态的数量;如果为 None,则等于 num_input_features - 1。(默认值: 2)

  • stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)

  • Reference – Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow。“深入研究自监督单目深度估计。” ICCV, 2019

示例

>>> model = MonoDepth2PoseNet(backbone='resnet18', pretrained_base=True)
>>> print(model)
hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.P3D(nclass, block, layers, shortcut_type='B', block_design=('A', 'B', 'C'), dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, partial_bn=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

伪三维网络 (P3D)。使用伪三维残差网络学习时空表示。ICCV, 2017。 https://arxiv.org/abs/1711.10305

参数
  • nclass (int) – 训练数据集中的类别数。

  • block (Block, 默认值是 Bottleneck。) – 残差块的类。

  • layers (int 列表) – 每个块中的层数

  • block_design (str 元组。) – 每个块的不同设计,可以是 ‘A’、‘B’ 或 ‘C’。

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

P3D 网络的 Hybrid 前向计算

class gluoncv.model_zoo.PSPNet(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, base_size=520, crop_size=480, **kwargs)[source]

金字塔场景解析网络

参数
  • class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]

  • nclass (int) – 训练数据集的类别数。

  • backbone (string) – 预训练的膨胀骨干网络类型(默认:'resnet50';'resnet50'、'resnet101'或'resnet152')。

  • norm_layer (object) – 骨干网络中使用的归一化层(默认:mxnet.gluon.nn.BatchNorm;用于同步跨GPU批量归一化)。

aux (bool) – 辅助损失。

Zhao, Hengshuang, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia。“金字塔场景解析网络。” CVPR, 2017

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.PoseDecoder(num_ch_enc, num_input_features, num_frames_to_predict_for=2, stride=1)[source]

Monodepth2 PoseNet 的解码器

参数
  • Monodepth2的解码器

  • num_input_features (int) – 输入序列的数量。深度编码器使用 1,姿态编码器大于 1。(默认值: 2)

  • num_frames_to_predict_for (int) – 预测帧间姿态的数量;如果为 None,则等于 num_input_features - 1。(默认值: 2)

  • stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)

hybrid_forward(F, input_features)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.R2Plus1D(nclass, block, layers, dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, partial_bn=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

R2+1D 网络。更近距离观察用于动作识别的时空卷积。CVPR, 2018。 https://arxiv.org/abs/1711.11248

参数
  • nclass (int) – 训练数据集中的类别数。

  • block (Block, 默认值是 Bottleneck。) – 残差块的类。

  • layers (int 列表) – 每个块中的层数

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

R2+1D 网络的 Hybrid 前向计算

class gluoncv.model_zoo.RCNNTargetGenerator(num_class, max_pos=128, per_device_batch_size=1, means=(0.0, 0.0, 0.0, 0.0), stds=(0.1, 0.1, 0.2, 0.2))[source]

RCNN 目标编码器,用于生成匹配目标和回归目标值。

参数
  • num_class (int) – 正类别总数。

  • max_pos (int, 默认值是 128) – 正样本数量的上限。

  • per_device_batch_size (int, 默认值是 1) – 每个设备的批处理大小

  • means (float 可迭代对象, 默认值是 (0., 0., 0., 0.)) – 需要从回归目标中减去的均值。

  • stds (float 可迭代对象, 默认值是 (1, 1, 2, 2)) – 需要从回归目标中除以的标准差。

hybrid_forward(F, roi, samples, matches, gt_label, gt_box)[source]

组件可以处理批量图像

参数
  • roi ((B, N, 4), 输入提议) –

  • samples ((B, N), 值 +1: 正样本 / -1: 负样本。) –

  • matches ((B, N), [0, M), 对应于 gt_label 和 gt_box 的索引。) –

  • gt_label ((B, M), [0, num_class), 不包含背景类别。) –

  • gt_box ((B, M, 4), 输入的真实边界框角点坐标。) –

返回

  • cls_target ((B, N), 值 [0, num_class + 1), 包含背景类别。)

  • box_target ((B, N, C, 4), 只有前景类别有非零目标。)

  • box_weight ((B, N, C, 4), 只有前景类别有非零权重。)

class gluoncv.model_zoo.RCNNTargetSampler(num_image, num_proposal, num_sample, pos_iou_thresh, pos_ratio, max_num_gt)[source]

从 RCNN 提议中选择正/负样本的采样器

参数
  • num_image (int) – 输入图像数量。

  • num_proposal (int) – 输入提议数量。

  • num_sample (int) – RCNN 目标的样本数量。

  • pos_iou_thresh (float) – IOU 大于 pos_iou_thresh 的提议被视为正样本。IOU 小于 pos_iou_thresh 的提议被视为负样本。

  • pos_ratio (float) – pos_ratio 定义了要采样的正样本数量(pos_ratio * num_sample)。

  • max_num_gt (int) – 每个示例的最大真实框数量。这只是一个上限,不一定非常精确。但是,使用非常大的数字可能会影响训练速度。

hybrid_forward(F, rois, scores, gt_boxes)[source]

通过 for 循环处理 B=self._num_image。

参数
  • rois ((B, self._num_proposal, 4) 编码格式为 (x1, y1, x2, y2)) –

  • scores ((B, self._num_proposal, 1), 值范围 [0, 1] ,忽略值为 -1。) –

  • gt_boxes ((B, M, 4) 编码格式为 (x1, y1, x2, y2), 无效框的面积应为 0。) –

返回

  • rois ((B, self._num_sample, 4), 从提议中随机抽取)

  • samples ((B, self._num_sample), 值 +1: 正样本 / 0: 忽略 / -1: 负样本。)

  • matches ((B, self._num_sample), 值在 [0, M) 之间)

class gluoncv.model_zoo.ResNeSt(block, layers, cardinality=1, bottleneck_width=64, classes=1000, dilated=False, dilation=1, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, last_gamma=False, deep_stem=False, stem_width=32, avg_down=False, final_drop=0.0, use_global_stats=False, name_prefix='', dropblock_prob=0, input_size=224, use_splat=False, radix=2, avd=False, avd_first=False, split_drop_ratio=0)[source]

ResNeSt 模型 :param block: 残差块的类。选项包括 BasicBlockV1, BottleneckV1。 :type block: Block :param layers: 每个块中的层数 :type layers: int 列表 :param classes: 分类类别数量。 :type classes: int, 默认值 1000 :param dilated: 对预训练的 ResNet 应用扩张策略,产生步幅为 8 的模型,

通常用于语义分割。

参数
  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。

  • avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。

  • final_drop (float, 默认值 0.0) – 最终分类层之前的 Dropout 比率。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

  • Reference

    • He, Kaiming, et al。“用于图像识别的深度残差学习。”

    Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. - Yu, Fisher, and Vladlen Koltun。“通过扩张卷积进行多尺度上下文聚合。”

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV1(block, layers, channels, classes=1000, thumbnail=False, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。

参数
  • block (HybridBlock) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。

  • layers (int 列表) – 每个块中的层数

  • channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • thumbnail (bool, 默认值 False) – 启用缩略图。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV1b(block, layers, classes=1000, dilated=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, last_gamma=False, deep_stem=False, stem_width=32, avg_down=False, final_drop=0.0, use_global_stats=False, name_prefix='', **kwargs)[source]

预训练的 ResNetV1b 模型,在 conv5 产生步幅为 8 的特征图。

参数
  • block (Block) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。

  • layers (int 列表) – 每个块中的层数

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • dilated (bool, 默认值 False) – 对预训练的 ResNet 应用扩张策略,产生步幅为 8 的模型,通常用于语义分割。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。

  • avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。

  • final_drop (float, 默认值 0.0) – 最终分类层之前的 Dropout 比率。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

aux (bool) – 辅助损失。

  • He, Kaiming, et al。“用于图像识别的深度残差学习。”

Proceedings of the IEEE conference on computer vision and pattern recognition. 2016.

  • Yu, Fisher, and Vladlen Koltun。“通过扩张卷积进行多尺度上下文聚合。”

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV2(block, layers, channels, classes=1000, thumbnail=False, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

ResNet V2 模型,出自“深度残差网络中的恒等映射” 论文。

参数
  • block (HybridBlock) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。

  • layers (int 列表) – 每个块中的层数

  • channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • thumbnail (bool, 默认值 False) – 启用缩略图。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNet_SlowFast(num_classes, depth, pretrained=None, pretrained_base=True, feat_ext=False, num_segments=1, num_crop=1, num_stages=4, spatial_strides=(1, 2, 2, 2), temporal_strides=(1, 1, 1, 1), dilations=(1, 1, 1, 1), out_indices=(0, 1, 2, 3), conv1_kernel_t=1, conv1_stride_t=1, pool1_kernel_t=1, pool1_stride_t=1, frozen_stages=-1, inflate_freq=(0, 0, 1, 1), inflate_stride=(1, 1, 1, 1), inflate_style='3x1x1', nonlocal_stages=(-1, ), nonlocal_freq=(0, 0, 0, 0), nonlocal_cfg=None, bn_eval=False, bn_frozen=False, partial_bn=False, dropout_ratio=0.5, init_std=0.01, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]

ResNe(x)t_SlowFast 骨干网络。 :param depth: Resnet 的深度,可选择 {50, 101, 152}。 :type depth: int :param num_stages: Resnet 阶段数,通常为 4。 :type num_stages: int :param strides: 每个阶段第一个块的步幅。 :type strides: Sequence[int] :param dilations: 每个阶段的扩张率。 :type dilations: Sequence[int] :param out_indices: 输出来自哪些阶段。 :type out_indices: Sequence[int] :param frozen_stages: 需要冻结的阶段(所有参数固定)。-1 表示

不冻结任何参数。

参数
  • bn_eval (bool) – 是否将 BN 层设置为评估模式,即冻结运行统计数据(均值和方差)。

  • bn_frozen (bool) – 是否冻结 BN 层的权重和偏置。

hybrid_forward(F, x)[source]

I3D_slow 网络的 Hybrid 前向计算

init_weights(ctx)[source]

初始化 I3D_slow 网络。

class gluoncv.model_zoo.ResNext(layers, cardinality, bottleneck_width, classes=1000, last_gamma=False, use_se=False, deep_stem=False, avg_down=False, stem_width=64, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

参数
  • layers (int 列表) – 每个块中的层数

  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。

  • stem_width (int, 默认值 64) – stem 中间层的宽度。

  • avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResidualAttentionModel(scale, m, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

AttentionModel 模型,出自“用于图像分类的残差注意力网络” 论文。输入尺寸为 224 x 224。

参数
  • scale (tuple) – 网络尺度 p, t, r。

  • m (tuple) – 网络尺度 m。网络尺度定义为 36m + 20。通常情况下,m 是一个 (m-1, m, m+1) 的元组,但 m==1 时为 (1, 1, 1)。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResnetEncoder(backbone, pretrained, num_input_images=1, root='/root/.mxnet/models', ctx=cpu(0), **kwargs)[source]

Monodepth2 的编码器

参数
  • backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。

  • pretrained (boolstr) – 指示骨干网络是否已预训练。如果为 True,则加载在 ImageNet 上训练的模型的权重。

  • num_input_images (int) – 输入序列的数量。深度编码器使用 1,姿态编码器大于 1。(默认值: 1)

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

hybrid_forward(F, input_image)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BasicBlockV1(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

BasicBlock V1,出自“用于图像识别的深度残差学习” 论文。这用于 SE_ResNet V1 的 18、34 层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BasicBlockV2(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

BasicBlock V2,出自“深度残差网络中的恒等映射” 论文。这用于 SE_ResNet V2 的 18、34 层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BottleneckV1(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

Bottleneck V1,出自“用于图像识别的深度残差学习” 论文。这用于 SE_ResNet V1 的 50, 101, 152 层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BottleneckV2(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

Bottleneck V2,出自“深度残差网络中的恒等映射” 论文。这用于 SE_ResNet V2 的 50, 101, 152 层。

参数
  • channels (int) – 输出通道数。

  • stride (int) – 步长大小。

  • downsample (bool, default False) – 是否对输入进行下采样。

  • in_channels (int, default 0) – 输入通道数。默认值为0,从图中推断。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_ResNetV1(block, layers, channels, classes=1000, thumbnail=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

SE_ResNet V1 模型,出自“用于图像识别的深度残差学习” 论文。

参数
  • block (HybridBlock) – 残差块的类。选项包括 SE_BasicBlockV1, SE_BottleneckV1。

  • layers (int 列表) – 每个块中的层数

  • channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • thumbnail (bool, 默认值 False) – 启用缩略图。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_ResNetV2(block, layers, channels, classes=1000, thumbnail=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

SE_ResNet V2 模型,出自“深度残差网络中的恒等映射” 论文。

参数
  • block (HybridBlock) – 残差块的类。选项包括 SE_BasicBlockV1, SE_BottleneckV1。

  • layers (int 列表) – 每个块中的层数

  • channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • thumbnail (bool, 默认值 False) – 启用缩略图。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SMOTTracker(motion_model='no', anchor_array=None, use_motion=True, tracking_classes=[], match_top_k=10, track_keep_alive_thresh=0.1, new_track_iou_thresh=0.3, track_nms_thresh=0.5, gpu_id=0, anchor_assignment_method='iou', joint_linking=False, tracktor=None)[source]

SMOT 跟踪器的实现。使用跟踪器的步骤如下: 0. 从 SSD 设置锚框 1. 首先调用 tracker.predict(new_frame) 2. 然后获取跟踪锚框信息 3. 使用跟踪锚框信息运行检测器(detractor) 4. 运行 tracker.update(new_detection, track_info)。

process_frame_sequence(frame_iterator, tracktor)[source]
参数
  • frame_iterator (每一步输出一个元组,包含 (frame_id, frame_data)) –

  • tracktor

返回

results_iter

返回类型

一个响应迭代器,每帧包含一个元组 (frame_id, frame_rst)

class gluoncv.model_zoo.SSD(network, base_size, features, num_filters, sizes, ratios, steps, classes, use_1x1_transition=True, use_bn=True, reduce_ratio=1.0, min_depth=128, global_pool=False, pretrained=False, stds=(0.1, 0.1, 0.2, 0.2), nms_thresh=0.45, nms_topk=400, post_nms=100, anchor_alloc_size=128, ctx=cpu(0), norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, root='~/.mxnet/models', minimal_opset=False, predictors_kernel=(3, 3), predictors_pad=(1, 1), anchor_generator=<class 'gluoncv.model_zoo.ssd.anchor.SSDAnchorGenerator'>, **kwargs)[source]

单次目标检测网络:https://arxiv.org/abs/1512.02325

参数
  • network (stringNone) – 基础网络的名称,如果使用 None,将直接从 features 实例化基础网络,而不是组合。

  • base_size (int) – 基础输入尺寸,指定此参数是为了使 SSD 支持动态输入形状。

  • features (str 列表mxnet.gluon.HybridBlock) – 要提取的中间特征或一个多输出网络。如果 networkNone,则 features 应是一个多输出网络。

  • num_filters (int 列表) – 附加层的通道数,如果 networkNone 则忽略此参数。

  • sizes (float 可迭代对象) – 锚框的尺寸,这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如,一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90],然后分别转换为两个阶段的 [30, 60][60, 90]。更多详情,请参考原始论文。

  • ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。

  • steps (int 列表) – 每个输出层中锚框的步长。

  • classes (str 可迭代对象) – 所有类别的名称。

  • use_1x1_transition (bool) – 是否使用 1x1 卷积作为附加层之间的过渡层,这有助于有效减少模型容量。

  • use_bn (bool) – 是否在每个附加的卷积层后使用 BatchNorm 层。

  • reduce_ratio (float) – 过渡层的通道缩减比率 (0, 1)。

  • min_depth (int) – 过渡层的最小通道数。

  • global_pool (bool) – 是否将全局平均池化层作为最后一个输出层。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • stds (tuple of float, default is (0.1, 0.1, 0.2, 0.2)) – 用于除/乘编码框值的标准差值。

  • nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。

  • nms_topk (int, default is 400) –

    对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

    结果都用于NMS。

  • post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

  • anchor_alloc_size (tuple of int, default is (128, 128)) – 供高级用户使用。定义 anchor_alloc_size 以生成足够大的锚点图,该图稍后会保存在参数中。在推理过程中,我们通过裁剪锚点图的相应区域来支持任意输入图像。这使得我们可以导出符号,以便在 c++、scalar 等环境运行。

  • ctx (mx.Context) – 网络上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm。这仅适用于指定了 norm_layer 的基础网络,如果基础网络(例如 VGG)不接受此参数则忽略。

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

  • root (str) – 模型存储的根路径,默认为 ‘~/.mxnet/models’

  • minimal_opset (bool) – 我们有时会添加特殊的运算符来加速训练/推理,但是,为了导出到第三方编译器,我们希望利用最广泛使用的运算符。如果 minimal_opsetTrue,网络将使用一组最小化的运算符,例如适用于 TVM

  • predictor_kernel (tuple of int. default is (3,3)) – 预测器核的维度

  • predictor_pad (tuple of int. default is (1,1)) – 预测器核卷积的填充。

  • anchor_generator (default is SSDAnchorGenerator) – 要使用的锚点生成器。默认是 SSDAnchorGenerator,对应于 SSD 发布文章。此参数可用于其他自定义锚点生成器,例如 LiteAnchorGenerator。

hybrid_forward(F, x)[source]

混合前向

property num_classes

返回前景类别的数量。

返回

前景类别数

返回类型

int

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。

参数
  • classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。

  • reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典,或 {new\_name : old\_name} 映射字典,或者如果类别名称不变,则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('ssd_512_resnet50_v1_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
set_nms(nms_thresh=0.45, nms_topk=400, post_nms=100)[source]

set_nms(nms_thresh=0, nms_topk=400, post_nms=100)[source]

参数
  • nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。

  • nms_topk (int, default is 400) –

    对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

    结果都用于NMS。

  • post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

返回

返回类型

nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

class gluoncv.model_zoo.SiamRPN(bz=1, is_train=False, ctx=cpu(0), **kwargs)[source]
hybrid_forward(F, template, search)[source]

仅用于训练的 SiamRPN 网络混合前向。

template(zinput)[source]

模板 z 分支

track(xinput)[source]

跟踪 x 分支

参数

xinput (np.ndarray) – 预测帧

返回

预测帧结果

返回类型

字典

class gluoncv.model_zoo.SimplePoseResNet(base_name='resnet50_v1b', pretrained_base=False, pretrained_ctx=cpu(0), num_joints=17, num_deconv_layers=3, num_deconv_filters=(256, 256, 256), num_deconv_kernels=(4, 4, 4), final_conv_kernel=1, deconv_with_bias=False, **kwargs)[source]
hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SlowFast(nclass, block=<class 'gluoncv.model_zoo.action_recognition.slowfast.Bottleneck'>, layers=None, num_block_temp_kernel_fast=None, num_block_temp_kernel_slow=None, pretrained=False, pretrained_base=False, feat_ext=False, num_segments=1, num_crop=1, bn_eval=True, bn_frozen=False, partial_bn=False, frozen_stages=-1, dropout_ratio=0.5, init_std=0.01, alpha=8, beta_inv=8, fusion_conv_channel_ratio=2, fusion_kernel_size=5, width_per_group=64, num_groups=1, slow_temporal_stride=16, fast_temporal_stride=2, slow_frames=4, fast_frames=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]

来自“SlowFast Networks for Video Recognition”论文的SlowFast网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • block (HybridBlock 类型) – ResNet 的构建块,可以是 Basic 或 Bottleneck。

  • layers (listtuple, 默认 None) – ResNet 中的阶段数量,例如 ResNet50 中的 [3, 4, 6, 3]。

  • num_block_temp_kernel_fast (int, 默认 None) – 如果当前块包含超过 NUM_BLOCK_TEMP_KERNEL 的块,则其余块使用 temporal kernel 为 1。

  • num_block_temp_kernel_slow (int, 默认 None) – 如果当前块包含超过 NUM_BLOCK_TEMP_KERNEL 的块,则其余块使用 temporal kernel 为 1。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • bn_eval (bool.) – 是否将 BN 层设置为 eval 模式,即冻结运行统计量(均值和方差)。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • frozen_stages (int.) – 需要冻结(所有参数固定)的阶段。-1 表示不冻结任何参数。

  • dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大,防止过拟合的能力越强。

  • init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。

  • alpha (int, 默认 8) – 对应于慢速和快速路径之间的帧率降低比例。

  • beta_inv (int, 默认 8) – 对应于慢速和快速路径之间的通道减少比例的倒数。

  • fusion_conv_channel_ratio (int, 默认 2) – 慢速和快速路径之间的通道维度比例。

  • fusion_kernel_size (int, 默认 5) – 用于将信息从快速路径融合到慢速路径的卷积核维度。

  • width_per_group (int, 默认 64) – 每组的宽度 (64 -> ResNet; 4 -> ResNeXt)。

  • num_groups (int, 默认 1) – 卷积的组数。Num_groups=1 表示标准 ResNet 类网络,num_groups>1 表示 ResNeXt 类网络。

  • slow_temporal_stride (int, 默认 16) – SlowFast 网络慢速分支中视频帧稀疏采样的时序步长。

  • fast_temporal_stride (int, 默认 2) – SlowFast 网络快速分支中视频帧稀疏采样的时序步长。

  • slow_frames (int, 默认 4) – 用作慢速分支输入的帧数。

  • fast_frames (int, 默认 32) – 用作快速分支输入的帧数。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

FastPath(F, x)[source]

快速分支的混合前向

SlowPath(F, x, lateral)[source]

慢速分支的混合前向

hybrid_forward(F, x)[source]

SlowFast 网络的混合前向

class gluoncv.model_zoo.SqueezeNet(version, classes=1000, **kwargs)[source]

SqueezeNet 模型,来自 “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size” 论文。SqueezeNet 1.1 模型,来自 官方 SqueezeNet 仓库。SqueezeNet 1.1 计算量比 SqueezeNet 1.0 少 2.4 倍,参数略少,且不牺牲精度。

参数
  • version (str) – SqueezeNet 版本。选项包括 ‘1.0’, ‘1.1’。

  • dropout (float, default 0) – 每个密集层后的dropout率。

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Track(mean, track_id, source, keep_alive_thresh=0.1, max_missing=30, attributes=None, class_id=0, linked_id=None)[source]

此类代表 SMOT 跟踪器中使用的轨迹/轨迹片段。它具有以下属性:

mean:代表跟踪对象当前状态(位置)的 4 元组(x0, y0, x1, y1) track_id:轨迹的数值 ID age:自首次出现以来的时间步长 time_since_update:自上次更新其位置状态以来的时间步长 state:轨迹的状态,可以是 TrackState 中的一种 confidence_score:当前时间步的跟踪置信度

source:一个包含 (anchor_indices, anchor_weights) 的元组 attributes:对象的附加属性的 np.ndarray ***************************************************

它还具有以下配置: keep_alive_thresh:维持轨迹处于 Active 状态的最小跟踪/检测置信度 max_missing:当轨迹丢失时,我们在将其标记为已删除之前,最多会搜索的时间步长 ***************************************************

is_active()[source]

如果此轨迹已确认,则返回 True。

is_deleted()[source]

如果此轨迹已死亡且应被删除,则返回 True。

is_mising()[source]

如果此轨迹是暂定的(未确认),则返回 True。

mark_missed()[source]

将此轨迹标记为丢失(在当前时间步没有关联)。

predict(motion_model=None)[source]
参数

motion_model (如果不为 None,则根据其历史预测此轨迹的运动) –

update(bbx, source=None, attributes=None)[source]

更新轨迹的状态。我们将覆盖预测的轨迹位置。更新轨迹将保持或翻转其状态为 Active。如果检测置信度低于 keep_alive_threshold,我们将此轨迹标记为丢失。 ———- bbx : 此对象的新检测位置 attributes:此对象在此帧的一些有用属性,例如关键点

class gluoncv.model_zoo.VGG(layers, filters, classes=1000, batch_norm=False, **kwargs)[source]

VGG 模型,来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文。

参数
  • layers (list of int) – 每个特征块中的层数。

  • filters (list of int) – 每个特征块中的滤波器数量。列表长度应与层数匹配。

  • dropout (float, default 0) – 每个密集层后的dropout率。

  • batch_norm (bool, 默认 False) – 是否使用批归一化。

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.VGGAtrousExtractor(layers, filters, extras, batch_norm=False, **kwargs)[source]

VGG 空洞卷积多层特征提取器,产生多个输出特征图。

参数
  • layers (list of int) – VGG 基础网络的层数。

  • filters (list of int) – 每层的卷积滤波器数量。

  • extras (list of list) – 额外层配置。

  • batch_norm (bool) – 如果为 True,将使用 BatchNorm 层。

hybrid_forward(F, x, init_scale)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Xception65(classes=1000, output_stride=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None)[source]

修改后的对齐 Xception

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Xception71(classes=1000, output_stride=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None)[source]

修改后的对齐 Xception

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.YOLOV3(stages, channels, anchors, strides, classes, alloc_size=(128, 128), nms_thresh=0.45, nms_topk=400, post_nms=100, pos_iou_thresh=1.0, ignore_iou_thresh=0.7, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

YOLO V3 检测网络。参考:https://arxiv.org/pdf/1804.02767.pdf。:param stages: 分阶段的特征提取块。

例如,原始论文使用了 3 个阶段和 3 个 YOLO 输出层。

参数
  • channels (iterable) – 每个附加阶段的卷积通道数。len(channels) 应与 len(stages) 匹配。

  • num_class (int) – 前景对象的数量。

  • anchors (iterable) – 锚点设置。len(anchors) 应与 len(stages) 匹配。

  • strides (iterable) – 特征图的步长。len(strides) 应与 len(stages) 匹配。

  • alloc_size (tuple of int, 默认值 (128, 128)) – 供高级用户使用。定义 alloc_size 以生成足够大的锚点图,该图稍后将保存在参数中。在推理过程中,我们通过裁剪锚点图的相应区域来支持任意输入图像。这使得我们可以导出符号,以便在 c++、Scalar 等环境运行。

  • nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。

  • nms_topk (int, default is 400) –

    对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

    结果都用于NMS。

  • post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

  • pos_iou_thresh (float, 默认值 1.0) – 与真实对象匹配的真锚点的 IOU 阈值。未实现 ‘pos_iou_thresh < 1’。

  • ignore_iou_thresh (float) – IOU 在 range(ignore_iou_thresh, pos_iou_thresh) 范围内的锚点不会受到目标性分数的惩罚。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

property classes

返回(非背景)类别的名称。:returns: (非背景)类别的名称。:rtype: iterable of str

hybrid_forward(F, x, *args)[source]

YOLOV3 网络混合前向。:param F: 如果已混合则是 mxnet.sym,否则是 mxnet.nd。:type F: mxnet.nd or mxnet.sym :param x: 输入数据。:type x: mxnet.nd.NDArray :param *args: 在训练期间,需要额外的输入

(gt_boxes, obj_t, centers_t, scales_t, weights_t, clas_t) 这些由数据加载器转换函数中的 YOLOV3PrefetchTargetGenerator 生成。

返回

在推理期间,以 (B, N, 6) 的形状返回检测结果,格式为 (cid, score, xmin, ymin, xmax, ymax)。在训练期间,仅返回损失:(obj_loss, center_loss, scale_loss, cls_loss)。

返回类型

(tuple of) mxnet.nd.NDArray

property num_class

(非背景)类别的数量。:returns: (非背景)类别的数量。:rtype: int

reset_class(classes, reuse_weights=None)[source]

重置类别和类别预测器。:param classes: 新的类别。例如 [‘apple’, ‘orange’]。:type classes: iterable of str :param reuse_weights: 一个 {new_integer : old_integer} 或映射字典,或 {new_name : old_name} 映射字典,

或者如果类名不变,则为 [name0, name1,…] 的列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('yolo3_darknet53_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])
set_nms(nms_thresh=0.45, nms_topk=400, post_nms=100)[source]

设置非极大值抑制参数。:param nms_thresh: 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。:type nms_thresh: float, 默认值 0.45。:param nms_topk

对前k个检测结果应用NMS,使用-1禁用,以便每个Detection

结果都用于NMS。

参数

post_nms (int, default is 100) – 只返回前post\_nms个检测结果,其余丢弃。此数量基于COCO数据集,每张图像最多有100个对象。如果预期更多对象,可以调整此数量。可以使用-1返回所有检测结果。

返回

返回类型

nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

gluoncv.model_zoo.abstractmethod(funcobj)[source]

一个指示抽象方法的装饰器。

要求元类是 ABCMeta 或其派生类。具有派生自 ABCMeta 的元类的类除非所有抽象方法都被覆盖,否则无法实例化。抽象方法可以使用任何正常的“super”调用机制来调用。

用法

class C(metaclass=ABCMeta)

@abstractmethod def my_abstract_method(self, …)

gluoncv.model_zoo.alexnet(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

来自“One weird trick…”论文的AlexNet模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

gluoncv.model_zoo.alexnetlegacy(**kwargs)[source]

Alexnetlegacy

gluoncv.model_zoo.bbox_iou(bbox_a, bbox_b, offset=0)[source]

计算两个边界框的交并比 (IOU)。

参数
  • bbox_a (numpy.ndarray) – 形状为 \((N, 4)\) 的 ndarray。

  • bbox_b (numpy.ndarray) – 形状为 \((M, 4)\) 的 ndarray。

  • offset (float or int, 默认值 0) – offset 用于控制宽度(或高度)是否计算为 (right - left + offset)。请注意,对于归一化的边界框,其范围在 [0, 1] 内,offset 必须为 0。

返回

形状为 \((N, M)\) 的 ndarray,表示 bbox_abbox_b 中每对边界框之间的 IOU。

返回类型

numpy.ndarray

gluoncv.model_zoo.c3d_kinetics400(nclass=400, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, **kwargs)[source]

在 Kinetics400 数据集上训练的卷积 3D 网络 (C3D)。Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV, 2015. https://arxiv.org/abs/1412.0767

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.center_net_dla34_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 dla34 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形 v2 卷积层的 dla34 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形卷积层的 dla34 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 dla34 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_large_duc_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 mobilenetv3_large 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_large_duc_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 mobilenetv3_large 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_small_duc_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 mobilenetv3_small 为基础网络,带有 DUC 层,在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_small_duc_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 mobilenetv3_small 为基础网络,带有 DUC 层,在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet101_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形 v2 卷积层的 resnet101_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形卷积层的 resnet101_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet101_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet18_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形 v2 卷积层的 resnet18_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形 v2 卷积层的 resnet18_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet18_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet50_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形 v2 卷积层的 resnet50_v1b 为基础网络在 coco 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以带有可变形卷积层的 resnet50_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

以 resnet50_v1b 为基础网络在 voc 数据集上的 Center net。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

class gluoncv.model_zoo.cifar_ResidualAttentionModel(scale, m, classes=10, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。输入大小为 32 x 32。

参数
  • scale (tuple) – 网络尺度 p, t, r。

  • m (tuple) – 网络尺度 m。网络尺度定义为 36m + 20。通常情况下,m 是一个 (m-1, m, m+1) 的元组,但 m==1 时为 (1, 1, 1)。

  • classes (int, 默认 10) – 分类类别数量。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

hybrid_forward(F, x)[source]

重写以构造此Block的符号图。

参数
  • x (Symbol or NDArray) – 第一个输入张量。

  • \*args (list of Symbol or list of NDArray) – 额外的输入张量。

gluoncv.model_zoo.cifar_residualattentionnet452(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_residualattentionnet56(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_residualattentionnet92(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet110_v1(**kwargs)[source]

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-110 V1 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet110_v2(**kwargs)[source]

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-110 V2 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet20_v1(**kwargs)[source]

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-20 V1 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet20_v2(**kwargs)[source]

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-20 V2 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet56_v1(**kwargs)[source]

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-56 V1 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_resnet56_v2(**kwargs)[source]

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-56 V2 模型。

参数
  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_wideresnet16_10(**kwargs)[source]

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-16-10 模型。

参数
  • drop_rate (float) – dropout 的比率。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_wideresnet28_10(**kwargs)[source]

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-28-10 模型。

参数
  • drop_rate (float) – dropout 的比率。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cifar_wideresnet40_8(**kwargs)[source]

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-40-8 模型。

参数
  • drop_rate (float) – dropout 的比率。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.cpu(device_id=0)[source]

返回一个 CPU context。

这个函数是 Context('cpu', device_id) 的一个快捷方式。对于大多数操作,如果未指定 context,则默认 context 为 cpu()

示例

>>> with mx.cpu():
...     cpu_array = mx.nd.ones((2, 3))
>>> cpu_array.context
cpu(0)
>>> cpu_array = mx.nd.ones((2, 3), ctx=mx.cpu())
>>> cpu_array.context
cpu(0)
参数

device_id (int, optional) – 设备的设备 ID。对于 CPU,不需要 device_id。包含此参数是为了使接口与 GPU 兼容。

返回

context – 相应的 CPU context。

返回类型

Context

gluoncv.model_zoo.custom_faster_rcnn_fpn(classes, transfer=None, dataset='custom', pretrained_base=True, base_network_name='resnet18_v1b', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, sym_norm_layer=None, sym_norm_kwargs=None, num_fpn_filters=256, num_box_head_conv=4, num_box_head_conv_filters=256, num_box_head_dense_filters=1024, **kwargs)[source]

带有 resnet 基础网络和 FPN 的 Faster RCNN 模型,用于自定义数据集。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • transfer (str or None) – 用于迁移的数据集。如果不是 None,将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重,由参数指定。

  • dataset (str, default 'custom') – 附加到网络名称的数据集名称

  • pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • base_network_name (str, default 'resnet18_v1b') – Mask RCNN 的基础网络。目前支持:‘resnet18_v1b’、‘resnet50_v1b’ 和 ‘resnet101_v1d’

  • norm_layer (nn.HybridBlock, default nn.BatchNorm) – 要使用的 Gluon 归一化层。默认为冻结的批归一化层。

  • norm_kwargs (dict) – Gluon 归一化层的关键字参数

  • sym_norm_layer (nn.SymbolBlock, default None) – 在 FPN 中使用的符号归一化层。这是因为 FPN 是使用 SymbolBlock 实现的。默认为 None,表示在 FPN 中不使用归一化层。

  • sym_norm_kwargs (dict) – 在 FPN 中使用的符号归一化层的关键字参数。

  • num_fpn_filters (int, default 256) – FPN 输出层的过滤器数量。

  • num_box_head_conv (int, default 4) – 如果批归一化未冻结,框头中要使用的卷积层数量。

  • num_box_head_conv_filters (int, default 256) – 框头中卷积层的过滤器数量。仅在批归一化未冻结时适用。

  • num_box_head_dense_filters (int, default 1024) – 框头中最后一个全连接层的隐藏单元数量。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.custom_mask_rcnn_fpn(classes, transfer=None, dataset='custom', pretrained_base=True, base_network_name='resnet18_v1b', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, sym_norm_layer=None, sym_norm_kwargs=None, num_fpn_filters=256, num_box_head_conv=4, num_box_head_conv_filters=256, num_box_head_dense_filters=1024, **kwargs)[source]

带有 resnet 基础网络和 FPN 的 Mask RCNN 模型,用于自定义数据集。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • transfer (str or None) – 用于迁移的数据集。如果不是 None,将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重,由参数指定。

  • dataset (str, default 'custom') – 附加到网络名称的数据集名称

  • pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • base_network_name (str, default 'resnet18_v1b') – Mask RCNN 的基础网络。目前支持:‘resnet18_v1b’、‘resnet50_v1b’ 和 ‘resnet101_v1d’

  • norm_layer (nn.HybridBlock, default nn.BatchNorm) – 要使用的 Gluon 归一化层。默认为冻结的批归一化层。

  • norm_kwargs (dict) – Gluon 归一化层的关键字参数

  • sym_norm_layer (nn.SymbolBlock, default None) – 在 FPN 中使用的符号归一化层。这是因为 FPN 是使用 SymbolBlock 实现的。默认为 None,表示在 FPN 中不使用归一化层。

  • sym_norm_kwargs (dict) – 在 FPN 中使用的符号归一化层的关键字参数。

  • num_fpn_filters (int, default 256) – FPN 输出层的过滤器数量。

  • num_box_head_conv (int, default 4) – 如果批归一化未冻结,框头中要使用的卷积层数量。

  • num_box_head_conv_filters (int, default 256) – 框头中卷积层的过滤器数量。仅在批归一化未冻结时适用。

  • num_box_head_dense_filters (int, default 1024) – 框头中最后一个全连接层的隐藏单元数量。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.custom_ssd(base_network_name, base_size, filters, sizes, ratios, steps, classes, dataset, pretrained_base, **kwargs)[source]

自定义 SSD 模型。

gluoncv.model_zoo.custom_yolov3(base_network_name, filters, anchors, strides, classes, dataset, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

自定义 YOLO 模型。

gluoncv.model_zoo.darknet53(**kwargs)[source]

Darknet v3 53 层网络。参考文献:https://arxiv.org/pdf/1804.02767.pdf

参数
  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

Darknet 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.densenet121(**kwargs)[source]

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 121 层模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.densenet161(**kwargs)[source]

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 161 层模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.densenet169(**kwargs)[source]

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 169 层模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.densenet201(**kwargs)[source]

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 201 层模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.doublehead_rcnn_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“(2019). Rethinking Classification and Localization for Object Detection.”的 Double Head Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_resnet101_v1d_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_resnet50_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest101_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest101_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest269_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest269_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest50_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest50_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnet101_v1d_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnet50_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数
  • pretrained (bool, optional, default is False) – 加载预训练权重。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet101_v1d_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_resnet101_v1d_custom(classes, transfer=None, pretrained_base=True, pretrained=False, **kwargs)[source]

带有 resnet101_v1d 基础网络的 Faster RCNN 模型,用于自定义数据集。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • transfer (str or None) – 如果不是 None,将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重。

  • pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.faster_rcnn_resnet101_v1d_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数
  • pretrained (bool, optional, default is False) – 加载预训练权重。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet101_v1d_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.faster_rcnn_resnet50_v1b_custom(classes, transfer=None, pretrained_base=True, pretrained=False, **kwargs)[source]

在自定义数据集上使用 resnet50_v1b 基础网络的 Faster RCNN 模型。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • transfer (str or None) – 如果不是 None,将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.faster_rcnn_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_Siam_RPN(base_name, bz=1, is_train=False, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

获取 Siam_RPN 网络,如果存在预训练模型则获取预训练模型

参数
  • base_name (str) – 骨干网络模型名称

  • bz (int) – 训练时的 batch size,测试时 bz = 1

  • is_train (str) – is_train 为 True 表示训练,False 表示测试

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

返回

一个 SiamRPN 跟踪网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_base_network(name, **kwargs)[source]

获取 CenterNet 基础网络

gluoncv.model_zoo.get_center_net(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

获取一个 CenterNet 实例。

参数
  • name (str or None) – 模型名称,如果使用 None,则必须指定 featuresHybridBlock

  • dataset (str) – 数据集名称。这用于标识模型名称,因为在不同数据集上训练的模型会非常不同。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_cifar_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数
  • version (int) – ResNet 的版本。选项有 1, 2。

  • num_layers (int) – 层数。必须是 6*n+2 形式的整数,例如 20, 56, 110, 164。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_cifar_wide_resnet(num_layers, width_factor=1, drop_rate=0.0, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数
  • num_layers (int) – 层数。必须是 6*n+2 形式的整数,例如 20, 56, 110, 164。

  • width_factor (int) – 应用于原始 resnet 通道数的宽度因子。

  • drop_rate (float) – dropout 的比率。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_darknet(darknet_version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

根据 versionnum_layers 信息获取 Darknet。

参数
  • darknet_version (str) – Darknet 版本,选项有 [‘v3’]。

  • num_layers (int) – 层数。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

Darknet 网络。

返回类型

mxnet.gluon.HybridBlock

示例

>>> model = get_darknet('v3', 53, pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

DeepLabV3 :param dataset: 模型预训练使用的数据集。(pascal_voc, pascal_aug, ade20k, coco, citys):type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)
gluoncv.model_zoo.get_deeplab_plus(dataset='pascal_voc', backbone='xception', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

DeepLabV3Plus :param dataset: 模型预训练使用的数据集。(pascal_voc, ade20k):type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='xception', pretrained=False)
>>> print(model)
gluoncv.model_zoo.get_deeplab_plus_xception_coco(**kwargs)[source]

DeepLabV3Plus :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_plus_xception_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnest101_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest101_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnest200_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest200_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnest269_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest269_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnest50_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest50_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet101_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet101_citys(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_citys(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet101_coco(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet101_voc(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet152_coco(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet152_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet152_voc(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet152_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet50_ade(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet50_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_resnet50_citys(**kwargs)[source]

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet50_citys(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplab_v3b_plus_wideresnet_citys(**kwargs)[source]

DeepLabV3Plus :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_v3b_plus_wideresnet_citys(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_deeplabv3b_plus(dataset='citys', backbone='wideresnet', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

DeepLabV3Plus :param dataset: 模型预训练使用的数据集。(pascal_voc, ade20k, citys):type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplabv3b_plus(dataset='citys', backbone='wideresnet', pretrained=False)
>>> print(model)
gluoncv.model_zoo.get_doublehead_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

返回 faster rcnn 网络的工具函数。

参数
  • name (str) – 模型名称。

  • dataset (str) – 数据集的名称。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

返回

DoubleHeadRCNN-RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_faster_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

返回 faster rcnn 网络的工具函数。

参数
  • name (str) – 模型名称。

  • dataset (str) – 数据集的名称。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

返回

Faster-RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_fastscnn(dataset='citys', ctx=cpu(0), pretrained=False, root='~/.mxnet/models', **kwargs)[source]

Fast-SCNN: 快速语义分割网络 :param dataset: :type dataset: str, 默认 cityscapes :param ctx: 加载预训练权重的 context。 :type ctx: Context, 默认 CPU :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数

root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fastscnn(dataset='citys')
>>> print(model)
gluoncv.model_zoo.get_fastscnn_citys(**kwargs)[source]

Fast-SCNN: 快速语义分割网络 :param dataset: :type dataset: str, 默认 cityscapes :param ctx: 加载预训练权重的 context。 :type ctx: Context, 默认 CPU

示例

>>> model = get_fastscnn_citys()
>>> print(model)
gluoncv.model_zoo.get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), pretrained_base=True, **kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的 FCN 模型

参数
  • dataset (str, default pascal_voc) – 模型预训练使用的数据集。(pascal_voc, ade20k)

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • pretrained_base (bool or str, default True) – 这将加载在 ImageNet 上训练的预训练骨干网络。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)
gluoncv.model_zoo.get_fcn_resnet101_ade(**kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_fcn_resnet101_coco(**kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet101_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_fcn_resnet101_voc(**kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet101_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_fcn_resnet50_ade(**kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_fcn_resnet50_voc(**kwargs)[source]

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_hrnet(model_name, stage_interp_type='nearest', purpose='cls', pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, num_classes=1000, **kwargs)[source]

来自论文 “Deep High-Resolution Representation Learning for Visual Recognition” 的 HRNet 模型。

参数
  • model_name (string) – HRNet 模型的名称:w18_small_v1/w18_small_v2/w30/w32/w40/w42/w48。

  • stage_interp_type (string) – 各阶段上采样使用的插值类型,支持 nearest、bilinear 和 bilinear_like。

  • purpose (string) – 模型用途,支持 cls 和 seg。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_mask_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

返回 mask rcnn 网络的工具函数。

参数
  • name (str) – 模型名称。

  • dataset (str) – 数据集的名称。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

返回

Mask RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_mobilenet(multiplier, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

参数
  • multiplier (float) – 控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_mobilenet_v2(multiplier, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

来自论文 “Inverted Residuals and Linear Bottlenecks” 的 MobileNetV2 模型。

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数
  • multiplier (float) – 控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_model(name, **kwargs)[source]

按名称返回预定义模型

参数
  • name (str) – 模型名称。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • classes (int) – 输出层的类别数量。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

该模型。

返回类型

HybridBlock

gluoncv.model_zoo.get_model_list()[source]

获取 model_zoo 中所有模型名称的完整列表。

返回

model_zoo 中所有模型名称的完整列表。

返回类型

字符串列表

gluoncv.model_zoo.get_monodepth2(backbone='resnet18', pretrained_base=True, scales=range(0, 4), num_output_channels=1, use_skips=True, root='~/.mxnet/models', ctx=cpu(0), pretrained=False, pretrained_model='kitti_stereo_640x192', **kwargs)[source]

MonoDepth2

参数
  • backbone (string, default:'resnet18') – 预训练的膨胀骨干网络类型(‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。

  • pretrained_base (bool or str, default: True) – 这将加载在 ImageNet 上训练的预训练骨干网络。

  • scales (list, default: range(4)) – 损失中使用的尺度。

  • num_output_channels (int, default: 1) – 输出通道数量。

  • use_skips (bool, default: True) – 这将在网络中使用跳跃连接结构。

  • ctx (Context, default: CPU) – 加载预训练权重的 context。

  • root (str, default: '~/.mxnet/models') – 保存模型参数的位置。

  • pretrained (bool or str, default: False) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • pretrained_model (string, default: kitti_stereo_640x192) – 模型预训练使用的数据集。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_mono_640x192(**kwargs)[source]

Monodepth2

参数

backbone (string) – 预训练的膨胀骨干网络类型(默认:’resnet18’)。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_mono_stereo_640x192(**kwargs)[source]

Monodepth2

参数

backbone (string) – 预训练的膨胀骨干网络类型(默认:’resnet18’)。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_stereo_640x192(**kwargs)[source]

Monodepth2

参数

backbone (string) – 预训练的膨胀骨干网络类型(默认:’resnet18’)。

gluoncv.model_zoo.get_monodepth2_resnet18_posenet_kitti_mono_640x192(**kwargs)[source]

Monodepth2 PoseNet

参数

backbone (string) – 预训练的膨胀骨干网络类型(默认:’resnet18’)。

gluoncv.model_zoo.get_monodepth2_resnet18_posenet_kitti_mono_stereo_640x192(**kwargs)[source]

Monodepth2 PoseNet

参数

backbone (string) – 预训练的膨胀骨干网络类型(默认:’resnet18’)。

gluoncv.model_zoo.get_monodepth2posenet(backbone='resnet18', pretrained_base=True, num_input_images=2, num_input_features=1, num_frames_to_predict_for=2, stride=1, root='~/.mxnet/models', ctx=cpu(0), pretrained=False, pretrained_model='kitti_stereo_640x192', **kwargs)[source]

Monodepth2

参数
  • backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。

  • pretrained_base (boolstr) – 指示骨干网络是否已预训练。如果为 True,则加载在 ImageNet 上训练的模型的权重。

  • num_input_images (int) – 输入序列的数量。深度编码器使用 1,姿态编码器大于 1。(默认值: 2)

  • num_input_features (int) – 来自姿态网络编码器的输入特征图数量。(默认值: 1)

  • num_frames_to_predict_for (int) – 预测帧间姿态的数量;如果为 None,则等于 num_input_features - 1。(默认值: 2)

  • stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)

  • ctx (Context, default: CPU) – 加载预训练权重的 context。

  • root (str, default: '~/.mxnet/models') – 保存模型参数的位置。

  • pretrained (bool or str, default: False) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。

  • pretrained_model (string, default: kitti_stereo_640x192) – 模型预训练使用的数据集。

gluoncv.model_zoo.get_nasnet(repeat=6, penultimate_filters=4032, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

NASNet A 模型,来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数
  • repeat (int) – 单元重复次数

  • penultimate_filters (int) – 网络倒数第二层中的滤波器数量

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_psp(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), pretrained_base=True, **kwargs)[source]

金字塔场景解析网络 :param dataset: 模型预训练使用的数据集。(pascal_voc, ade20k) :type dataset: str, default pascal_voc :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • pretrained_base (bool or str, default True) – 这将加载在 ImageNet 上训练的预训练骨干网络。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)
gluoncv.model_zoo.get_psp_resnet101_ade(**kwargs)[source]

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_psp_resnet101_citys(**kwargs)[source]

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_psp_resnet101_coco(**kwargs)[source]

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_psp_resnet101_voc(**kwargs)[source]

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_voc(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_psp_resnet50_ade(**kwargs)[source]

金字塔场景解析网络 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet50_ade(pretrained=True)
>>> print(model)
gluoncv.model_zoo.get_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', use_se=False, **kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数
  • version (int) – ResNet 的版本。选项有 1, 2。

  • num_layers (int) – 层数。选项有 18, 34, 50, 101, 152。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_resnext(num_layers, cardinality=32, bottleneck_width=4, use_se=False, deep_stem=False, avg_down=False, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

参数
  • num_layers (int) – 层数。选项有 50, 101。

  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_se_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

SE_ResNet V1 模型,来自 “Deep Residual Learning for Image Recognition” 论文。SE_ResNet V2 模型,来自 “Identity Mappings in Deep Residual Networks” 论文。

参数
  • version (int) – ResNet 的版本。选项有 1, 2。

  • num_layers (int) – 层数。选项有 18, 34, 50, 101, 152。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_ssd(name, base_size, features, filters, sizes, ratios, steps, classes, dataset, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', anchor_generator=<class 'gluoncv.model_zoo.ssd.anchor.SSDAnchorGenerator'>, **kwargs)[source]

获取 SSD 模型。

参数
  • name (str or None) – 模型名称,如果使用 None,则必须指定 featuresHybridBlock

  • base_size (int) – 训练时的基础图像尺寸,训练分配后该尺寸固定。固定的基础尺寸仍然允许您在测试时使用可变输入尺寸。

  • features (str 或 HybridBlock 的可迭代对象) – 网络内部输出名称列表,用于指定哪些层用于预测 bbox 值。如果 nameNone,则 features 必须是生成多个预测输出的 HybridBlock

  • filters (float 或 None 的可迭代对象) – 将附加到基础网络特征提取器上的卷积层通道列表。如果 nameNone,则忽略此参数。

  • sizes (float 可迭代对象) – 锚框的尺寸,这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如,一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90],然后分别转换为两个阶段的 [30, 60][60, 90]。更多详情,请参考原始论文。

  • ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。

  • steps (int 列表) – 每个输出层中锚框的步长。

  • classes (str 的可迭代对象) – 类别名称。

  • dataset (str) – 数据集名称。这用于标识模型名称,因为在不同数据集上训练的模型会非常不同。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_vgg(num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

VGG 模型,来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文。

参数
  • num_layers (int) – densenet 变体的层数。选项有 11, 13, 16, 19。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

gluoncv.model_zoo.get_vgg_atrous_extractor(num_layers, im_size, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

获取 VGG 空洞卷积特征提取网络。

参数
  • num_layers (int) – VGG 类型,可以是 11, 13, 16, 19。

  • im_size (int) – VGG 检测输入尺寸,可以是 300, 512。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (mx.Context) – 上下文,例如 mx.cpu(), mx.gpu(0)。

  • root (str) – 模型权重存储路径。

返回

返回的网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_xcetption(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

Xception 模型,来自

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_xcetption_71(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

Xception 模型,来自

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.get_yolov3(name, stages, filters, anchors, strides, classes, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

获取 YOLOV3 模型。 :param name: 模型名称。如果使用 None,则必须指定 featuresHybridBlock。 :type name: str or None :param stages: 网络内部输出名称列表,用于指定哪些层

用于预测 bbox 值。如果 nameNone,则 features 必须是生成多个预测输出的 HybridBlock

参数
  • filters (float 或 None 的可迭代对象) – 将附加到基础网络特征提取器上的卷积层通道列表。如果 nameNone,则忽略此参数。

  • sizes (float 可迭代对象) – 锚框的尺寸,这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如,一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90],然后分别转换为两个阶段的 [30, 60][60, 90]。更多详情,请参考原始论文。

  • ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。

  • steps (int 列表) – 每个输出层中锚框的步长。

  • classes (str 的可迭代对象) – 类别名称。

  • dataset (str) – 数据集名称。这用于标识模型名称,因为在不同数据集上训练的模型会非常不同。

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • is_train (str) – 如果训练则 is\_train 为 True,如果测试则为 False。

  • root (str) – 模型权重存储路径。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 YOLOV3 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.googlenet(classes=1000, pretrained=False, pretrained_base=True, ctx=cpu(0), dropout_ratio=0.4, aux_logits=False, root='~/.mxnet/models', partial_bn=False, **kwargs)[source]

来自 “Going Deeper with Convolutions” 论文的 GoogleNet 模型。以及 “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.gpu_iou(bbox_a_tensor, bbox_b_tensor)[source]
参数
  • bbox_a_tensor

  • bbox_b_tensor

gluoncv.model_zoo.hrnet_w18_c(**kwargs)[source]

hrnet_w18 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v1_c(**kwargs)[source]

hhrnet_w18_small_v1 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v1_s(**kwargs)[source]

hrnet_w18_small_v1 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w18_small_v2_c(**kwargs)[source]

hhrnet_w18_small_v2 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v2_s(**kwargs)[source]

hrnet_w18_small_v2 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w30_c(**kwargs)[source]

hhrnet_w30 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w32_c(**kwargs)[source]

hhrnet_w32 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w40_c(**kwargs)[source]

hhrnet_w40 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w44_c(**kwargs)[source]

hhrnet_w44 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w48_c(**kwargs)[source]

hhrnet_w48 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w48_s(**kwargs)[source]

hrnet_w48 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w64_c(**kwargs)[source]

hhrnet_w64 用于 Imagenet 分类

gluoncv.model_zoo.i3d_inceptionv1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

来自“Going Deeper with Convolutions”论文的、在Kinetics400数据集上训练的Inception v1模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_inceptionv3_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

来自“Rethinking the Inception Architecture for Computer Vision”论文的、在Kinetics400数据集上训练的Inception v3模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl10_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络和10个非局部块的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl10_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络和10个非局部块的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl5_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络和5个非局部块的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl5_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络和5个非局部块的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, bn_frozen=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_custom(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]

基于 ResNet50 主干的膨胀 3D 模型 (I3D)。为用户自己的数据集定制。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • use_kinetics_pretrain (bool.) – 是否加载 Kinetics-400 预训练模型权重。

gluoncv.model_zoo.i3d_resnet50_v1_hmdb51(nclass=51, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]

在HMDB51数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, bn_frozen=False, feat_ext=False, **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]

在Something-Something-V2数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_ucf101(nclass=101, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]

在UCF101数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.inception_v3(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', partial_bn=False, **kwargs)[source]

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层,除了第一层。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.inceptionv1_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在HMDB51数据集上训练的InceptionV1模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Kinetics400数据集上训练的InceptionV1模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv1_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Something-Something-V2数据集上训练的InceptionV1模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv1_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在UCF101数据集上训练的InceptionV1模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv3_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在HMDB51数据集上训练的InceptionV3模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv3_kinetics400(nclass=400, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Kinetics400数据集上训练的InceptionV3模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv3_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Something-Something-V2数据集上训练的InceptionV3模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.inceptionv3_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在UCF101数据集上训练的InceptionV3模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.mask_rcnn_fpn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_resnet101_v1d_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_fpn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, 默认为 300) – 在RPN测试中,经过NMS后返回靠前的候选框结果。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_resnet18_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_fpn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_fpn_syncbn_mobilenet1_0_coco(pretrained=False, pretrained_base=True, num_devices=0, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, 默认为 300) – 在RPN测试中,经过NMS后返回靠前的候选框结果。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_syncbn_mobilenet1_0_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_fpn_syncbn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, num_devices=0, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1,则使用所有可用设备。

  • rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, 默认为 300) – 在RPN测试中,经过NMS后返回靠前的候选框结果。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_syncbn_resnet18_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet101_v1d_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。

  • rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中,NMS 之前过滤掉排名靠前的建议框数量。

  • rpn_test_post_nms (int, 默认为 300) – 在RPN测试中,经过NMS后返回靠前的候选框结果。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet18_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mask_rcnn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

Mask RCNN 模型,来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络,额外层是随机初始化的。请注意,如果 pretrainedTrue,则此参数无效。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)
gluoncv.model_zoo.mobilenet0_25(**kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.25。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet0_5(**kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.5。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet0_75(**kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 0.75。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet1_0(**kwargs)[source]

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型,宽度乘数为 1.0。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet_v2_0_25(**kwargs)[source]

MobileNetV2 模型,来自 `”Inverted Residuals and Linear Bottlenecks

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet_v2_0_5(**kwargs)[source]

MobileNetV2 模型,来自 `”Inverted Residuals and Linear Bottlenecks

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet_v2_0_75(**kwargs)[source]

MobileNetV2 模型,来自 `”Inverted Residuals and Linear Bottlenecks

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.mobilenet_v2_1_0(**kwargs)[source]

MobileNetV2 模型,来自 `”Inverted Residuals and Linear Bottlenecks

用于分类、检测和分割的移动网络”

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.nasnet_4_1056(**kwargs)[source]

NASNet A 模型,来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数
  • repeat (int) – 单元重复次数

  • penultimate_filters (int) – 网络倒数第二层中的滤波器数量

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.nasnet_5_1538(**kwargs)[source]

NASNet A 模型,来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数
  • repeat (int) – 单元重复次数

  • penultimate_filters (int) – 网络倒数第二层中的滤波器数量

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.nasnet_6_4032(**kwargs)[source]

NASNet A 模型,来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数
  • repeat (int) – 单元重复次数

  • penultimate_filters (int) – 网络倒数第二层中的滤波器数量

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.nasnet_7_1920(**kwargs)[source]

NASNet A 模型,来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数
  • repeat (int) – 单元重复次数

  • penultimate_filters (int) – 网络倒数第二层中的滤波器数量

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.nms_fallback(boxes, thresh)[source]

执行非极大值抑制并返回索引 :param boxes: :type boxes: [[x, y, xmax, ymax, score]] :param 返回保留的框索引: :param ———

gluoncv.model_zoo.p3d_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的伪3D网络 (P3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.p3d_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络的伪3D网络 (P3D)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.pretrained_model_list()[source]

获取可用预训练权重的模型列表。

gluoncv.model_zoo.r2plus1d_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的R2Plus1D。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet152_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet152骨干网络的R2Plus1D。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet18_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet18骨干网络的R2Plus1D。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet34_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet34骨干网络的R2Plus1D。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络的R2Plus1D。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.residualattentionnet128(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet164(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet200(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet236(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet452(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet56(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入尺寸。选项有 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.residualattentionnet92(**kwargs)[source]

AttentionModel 模型,来自 “Residual Attention Network for Image Classification” 论文。

参数
  • input_size (int) – 网络输入大小。选项包括 32, 224。

  • num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。

  • pretrained (bool, 默认 False) – 是否加载模型的预训练权重。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnest101(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-101 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnest14(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-14 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnest200(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-200 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnest26(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-26 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnest269(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-269 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnest50(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNeSt-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet101_v1(**kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-101 V1 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet101_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-101 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet101_v1b_gn(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-50 GroupNorm 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet101_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet101模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet101_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Something-Something-V2数据集上训练的ResNet101模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet101_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1c-101 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet101_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1d-101 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet101_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1e-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet101_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1s-101 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet101_v2(**kwargs)[source]

来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet-101 V2 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet152_v1(**kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-152 V1 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet152_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-152 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet152_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet152模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet152_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Something-Something-V2数据集上训练的ResNet152模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet152_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1c-152 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet152_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1d-152 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet152_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1e-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet152_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1s-152 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet152_v2(**kwargs)[source]

来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet-152 V2 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet18_v1(**kwargs)[source]

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-18 V1 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet18_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-18 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet18_v1b_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, use_kinetics_pretrain=True, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet18模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet18_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet18模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet18_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Something-Something-V2数据集上训练的ResNet18模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet18_v2(**kwargs)[source]

ResNet-18 V2 模型,来自 “Identity Mappings in Deep Residual Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet34_v1(**kwargs)[source]

ResNet-34 V1 模型,来自 “Deep Residual Learning for Image Recognition” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet34_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-34 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet34_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet34模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet34_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Something-Something-V2数据集上训练的ResNet34模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet34_v2(**kwargs)[source]

ResNet-34 V2 模型,来自 “Identity Mappings in Deep Residual Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet50_v1(**kwargs)[source]

ResNet-50 V1 模型,来自 “Deep Residual Learning for Image Recognition” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnet50_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet50_v1b_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), use_kinetics_pretrain=True, **kwargs)[source]

为任何数据集定制的ResNet50模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • use_kinetics_pretrain (bool, 默认为 True。) – 是否加载在 Kinetics400 数据集上预训练的权重作为模型初始化。

gluoncv.model_zoo.resnet50_v1b_gn(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1b-50 GroupNorm 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。

  • use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息;如果使用 ImageNet 分类预训练模型进行微调,可以选择设置为 True。

gluoncv.model_zoo.resnet50_v1b_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在HMDB51数据集上训练的ResNet50模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet50_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的ResNet50模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet50_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Something-Something-V2数据集上训练的ResNet50模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet50_v1b_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在UCF101数据集上训练的ResNet50模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

gluoncv.model_zoo.resnet50_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1c-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet50_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1d-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet50_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1e-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet50_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

构建一个 ResNetV1s-50 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略,以产生步幅为 8 的模型。

  • norm_layer (object) – 使用的归一化层(默认为:mxnet.gluon.nn.BatchNorm)。可以是 mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

gluoncv.model_zoo.resnet50_v2(**kwargs)[source]

ResNet-50 V2 模型,来自 “Identity Mappings in Deep Residual Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnext101_32x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 32x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnext101_64x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 64x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnext101e_64x4d(**kwargs)[source]

ResNext101e 64x4d 模型,修改自 “Aggregated Residual Transformations for Deep Neural Network” 论文。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.resnext50_32x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt50 32x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet101_v1(**kwargs)[source]

SE-ResNet-101 V1 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet101_v2(**kwargs)[source]

SE-ResNet-101 V2 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet152_v1(**kwargs)[source]

SE-ResNet-152 V1 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet152_v2(**kwargs)[source]

SE-ResNet-152 V2 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet18_v1(**kwargs)[source]

SE-ResNet-18 V1 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet18_v2(**kwargs)[source]

SE-ResNet-18 V2 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet34_v1(**kwargs)[source]

SE-ResNet-34 V1 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet34_v2(**kwargs)[source]

SE-ResNet-34 V2 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet50_v1(**kwargs)[source]

SE-ResNet-50 V1 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnet50_v2(**kwargs)[source]

SE-ResNet-50 V2 模型,来自 “Squeeze-and-Excitation Networks” 论文。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnext101_32x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 32x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnext101_64x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 64x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnext101e_64x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 修改的 SE-ResNeXt101e 64x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.se_resnext50_32x4d(**kwargs)[source]

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt50 32x4d 模型。

参数
  • cardinality (int) – 组数

  • bottleneck_width (int) – 瓶颈块的宽度

  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

gluoncv.model_zoo.siamrpn_alexnet_v2_otb15(**kwargs)[source]

Alexnet 主干网络模型,来自 `”High Performance Visual Tracking with Siamese Region Proposal Network

Object tracking”

<http://openaccess.thecvf.com/content_cvpr_2018/papers/ Li_High_Performance_Visual_CVPR_2018_paper.pdf>`_ 论文。

gluoncv.model_zoo.simple_pose_resnet101_v1b(**kwargs)[source]

ResNet-101 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet101_v1d(**kwargs)[source]

ResNet-101-d 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet152_v1b(**kwargs)[source]

ResNet-152 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet152_v1d(**kwargs)[source]

ResNet-152-d 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet18_v1b(**kwargs)[source]

ResNet-18 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet50_v1b(**kwargs)[source]

ResNet-50 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet50_v1d(**kwargs)[source]

ResNet-50-d 主干网络模型,来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.slowfast_16x8_resnet101_50_50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast),但时间头用ResNet50结构 (3, 4, 6, 3) 初始化。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_16x8_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_4x16_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 4x16网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_4x16_resnet50_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, use_kinetics_pretrain=True, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

SlowFast 4x16 网络 (SlowFast),使用 ResNet50 主干网络。为用户的自定义数据集进行定制。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

  • use_kinetics_pretrain (bool.) – 是否加载 Kinetics-400 预训练模型权重。

gluoncv.model_zoo.slowfast_4x16_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_8x8_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 8x8网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_8x8_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 8x8网络 (SlowFast)。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

  • partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层,除了第一层。

  • feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.squeezenet1_0(**kwargs)[source]

来自论文 “SqueezeNet: AlexNet 级别精度,参数量减少 50 倍,模型大小 <0.5MB” 的 SqueezeNet 1.0 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.squeezenet1_1(**kwargs)[source]

SqueezeNet 1.1 模型,来自 SqueezeNet 官方仓库。 SqueezeNet 1.1 比 SqueezeNet 1.0 的计算量少 2.4 倍,参数量也略少,同时不牺牲准确性。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.ssd_300_mobilenet0_25_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

SSD 架构,使用 mobilenet0.25 主干网络,用于 COCO。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_mobilenet0_25_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

SSD 架构,使用 mobilenet0.25 300 主干网络,用于自定义数据集。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_mobilenet0_25_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_mobilenet0_25_custom(classes=['foo', 'bar'], transfer='voc')
gluoncv.model_zoo.ssd_300_mobilenet0_25_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

SSD 架构,使用 mobilenet0.25 主干网络。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_resnet34_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

SSD 架构,使用 ResNet v1b 34 层。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_resnet34_v1b_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

SSD 架构,使用 ResNet v1b 34 层,用于自定义数据集。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_resnet34_v1b_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_resnet34_v1b_custom(classes=['foo', 'bar'], transfer='coco')
gluoncv.model_zoo.ssd_300_resnet34_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

SSD 架构,使用 ResNet v1b 34 层。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_vgg16_atrous_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_vgg16_atrous_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_vgg16_atrous_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_vgg16_atrous_custom(classes=['foo', 'bar'], transfer='coco')
gluoncv.model_zoo.ssd_300_vgg16_atrous_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

用于 Pascal VOC 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_mobilenet1_0_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

用于COCO数据集的带mobilenet1.0基础网络的SSD架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_mobilenet1_0_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

用于自定义数据集的带mobilenet1.0 512基础网络的SSD架构。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_mobilenet1_0_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_mobilenet1_0_custom(classes=['foo', 'bar'], transfer='voc')
gluoncv.model_zoo.ssd_512_mobilenet1_0_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带mobilenet1.0基础网络的SSD架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet101_v2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带有 ResNet v2 101 层的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet152_v2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带有 ResNet v2 152 层的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet18_v1_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

带ResNet v1 18层网络的SSD架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet18_v1_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

用于COCO数据集的带ResNet18 v1 512基础网络的SSD架构。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_resnet18_v1_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_resnet18_v1_custom(classes=['foo', 'bar'], transfer='voc')
gluoncv.model_zoo.ssd_512_resnet18_v1_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带ResNet v1 18层网络的SSD架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet50_v1_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

用于 COCO 的带有 ResNet v1 50 层的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet50_v1_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

用于自定义数据集的带有 ResNet50 v1 512 基础网络的 SSD 架构。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_resnet50_v1_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_resnet50_v1_custom(classes=['foo', 'bar'], transfer='voc')
gluoncv.model_zoo.ssd_512_resnet50_v1_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带有 ResNet v1 50 层的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_vgg16_atrous_coco(pretrained=False, pretrained_base=True, **kwargs)[source]

用于 COCO 的带有 VGG16 空洞卷积层的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_vgg16_atrous_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数
  • classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

  • transfer (strNone) – 如果不是 None,将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_vgg16_atrous_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_vgg16_atrous_custom(classes=['foo', 'bar'], transfer='coco')
gluoncv.model_zoo.ssd_512_vgg16_atrous_voc(pretrained=False, pretrained_base=True, **kwargs)[source]

带有 VGG16 空洞卷积 512x512 基础网络的 SSD 架构。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络,额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.timeit(method)[source]

用于包装函数的计时装饰器

gluoncv.model_zoo.vgg11(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-11 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg11_bn(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-11 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg13(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-13 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg13_bn(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-13 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-16 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16_atrous_300(**kwargs)[source]

获取输入大小为 300 的 VGG 空洞卷积 16 层特征提取网络。

gluoncv.model_zoo.vgg16_atrous_512(**kwargs)[source]

获取输入大小为 512 的 VGG 空洞卷积 16 层特征提取网络。

gluoncv.model_zoo.vgg16_bn(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-16 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在HMDB51数据集上训练的VGG16模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

gluoncv.model_zoo.vgg16_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Kinetics400数据集上训练的VGG16模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

gluoncv.model_zoo.vgg16_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在Something-Something-V2数据集上训练的VGG16模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

gluoncv.model_zoo.vgg16_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]

在UCF101数据集上训练的VGG16模型。

参数
  • nclass (int.) – 数据集中类别的数量。

  • pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。

  • pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络,额外的层是随机初始化的。注意如果 pretrained 为 True,则此参数无效。

  • ctx (Context, default CPU.) – 加载预训练权重的上下文。

  • root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

  • num_segments (int, default is 1.) – 用于均匀分割视频的片段数。

  • num_crop (int, default is 1.) – 评估期间使用的裁剪数,选项为1、3或10。

gluoncv.model_zoo.vgg19(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-19 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg19_bn(**kwargs)[source]

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-19 模型。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • ctx (Context, 默认 CPU) – 加载预训练权重的上下文。

  • root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.yolo3_darknet53_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

用于COCO数据集的带darknet53基础网络的多尺度YOLO3。:param pretrained_base: 是否为基础网络获取并加载预训练权重。:type pretrained_base: boolean :param pretrained: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_darknet53_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

用于自定义数据集的带darknet53基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None,将尝试重用在其他YOLO网络上训练的预训练权重

数据集。

参数
  • pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_darknet53_voc(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

用于VOC数据集的带darknet53基础网络的多尺度YOLO3。:param pretrained_base: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_mobilenet0_25_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

用于COCO数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param pretrained_base: 布尔值,控制是否加载模型的默认预训练权重。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_mobilenet0_25_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

用于自定义数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None,将尝试重用在其他YOLO网络上训练的预训练权重

数据集。

参数
  • pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

数据集。

gluoncv.model_zoo.yolo3_mobilenet0_25_voc(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

字符串值表示特定版本预训练权重的哈希标签。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于VOC数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param pretrained_base: 布尔值,控制是否加载模型的默认预训练权重。

gluoncv.model_zoo.yolo3_mobilenet1_0_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

字符串值表示特定版本预训练权重的哈希标签。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于COCO数据集的带mobilenet基础网络的多尺度YOLO3。:param pretrained_base: 布尔值,控制是否加载模型的默认预训练权重。

gluoncv.model_zoo.yolo3_mobilenet1_0_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]

数据集。

参数
  • pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于自定义数据集的带mobilenet基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None,将尝试重用在其他YOLO网络上训练的预训练权重

数据集。

字符串值表示特定版本预训练权重的哈希标签。

参数
  • pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。

  • norm_layer (object) – 使用的归一化层(默认:mxnet.gluon.nn.BatchNorm)。可以是mxnet.gluon.nn.BatchNormmxnet.gluon.contrib.nn.SyncBatchNorm

  • norm_kwargs (dict) – 额外的norm\_layer参数,例如用于mxnet.gluon.contrib.nn.SyncBatchNormnum\_devices=4

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock