gluoncv.model_zoo¶

GluonCV 模型动物园

gluoncv.model_zoo.get_model¶

按名称返回预定义的 GluonCV 模型。

提示

这是获取预定义模型的推荐方法。

它也支持直接从 Gluon 模型动物园加载模型。

get_model

按名称返回预定义模型

图像分类¶

CIFAR¶

`get_cifar_resnet`	来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。
`cifar_resnet20_v1`	来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-20 V1 模型。
`cifar_resnet56_v1`	来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-56 V1 模型。
`cifar_resnet110_v1`	来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-110 V1 模型。
`cifar_resnet20_v2`	来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-20 V2 模型。
`cifar_resnet56_v2`	来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-56 V2 模型。
`cifar_resnet110_v2`	来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-110 V2 模型。
`get_cifar_wide_resnet`	来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。
`cifar_wideresnet16_10`	来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-16-10 模型。
`cifar_wideresnet28_10`	来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-28-10 模型。
`cifar_wideresnet40_8`	来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-40-8 模型。

ImageNet¶

我们将扩张策略应用于预训练的 ResNet 模型（步幅为 8）。请参阅 gluoncv.model_zoo.SegBaseModel 以了解如何使用它。

`ResNetV1b`	预训练的 ResNetV1b 模型，在 conv5 产生步幅为 8 的特征图。
`resnet18_v1b`	构建一个 ResNetV1b-18 模型。
`resnet34_v1b`	构建一个 ResNetV1b-34 模型。
`resnet50_v1b`	构建一个 ResNetV1b-50 模型。
`resnet101_v1b`	构建一个 ResNetV1b-101 模型。
`resnet152_v1b`	构建一个 ResNetV1b-152 模型。

ResNeXt¶

`ResNeXt`	来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。
`get_resnext`	来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。
`resnext50_32x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt50 32x4d 模型。
`resnext101_32x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 32x4d 模型。
`resnext101_64x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 64x4d 模型。
`se_resnext50_32x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt50 32x4d 模型。
`se_resnext101_32x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 32x4d 模型。
`se_resnext101_64x4d`	来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 64x4d 模型。
`se_resnext101e_64x4d`	来自论文 “用于深度神经网络的聚合残差变换” 修改的 SE-ResNeXt101e 64x4d 模型。

ResNeSt¶

`ResNeSt`	ResNeSt 模型 :param block: 残差块的类别。选项有 BasicBlockV1, BottleneckV1。:type block: Block :param layers: 每个块中的层数 :type layers: int 列表 :param classes: 分类类别数。:type classes: int, 默认 1000 :param dilated: 对预训练 ResNet 应用扩张策略以生成步幅为 8 的模型，通常用于语义分割。:type dilated: bool, 默认 False :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param last_gamma: 是否将每个 bottleneck 中最后一个 BatchNorm 层的 gamma 初始化为零。:type last_gamma: bool, 默认 False :param deep_stem: 是否用 3 个 3x3 卷积层替换 7x7 conv1。:type deep_stem: bool, 默认 False :param avg_down: 在阶段/下采样之间使用平均池化进行投影跳跃连接。:type avg_down: bool, 默认 False :param final_drop: 最终分类层之前的 Dropout 率。:type final_drop: float, 默认 0.0 :param use_global_stats: 是否强制 BatchNorm 使用全局统计信息而不是 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。:type use_global_stats: bool, 默认 False :param Reference: - He, Kaiming, et al. “用于图像识别的深度残差学习。” IEEE 计算机视觉和模式识别会议论文集。2016 年。- Yu, Fisher, and Vladlen Koltun。“通过扩张卷积进行多尺度上下文聚合。”。
`resnest14`	构建一个 ResNeSt-14 模型。
`resnest26`	构建一个 ResNeSt-26 模型。
`resnest50`	构建一个 ResNeSt-50 模型。
`resnest101`	构建一个 ResNeSt-101 模型。
`resnest200`	构建一个 ResNeSt-200 模型。
`resnest269`	构建一个 ResNeSt-269 模型。

MobileNet¶

`MobileNet`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。
`MobileNetV2`	来自论文 “倒残差和线性瓶颈：用于分类、检测和分割的移动网络” 的 MobileNetV2 模型。:param multiplier: 用于控制模型大小的宽度乘数。实际通道数等于原始通道数乘以该乘数。:type multiplier: float, 默认 1.0 :param classes: 输出层的类别数。:type classes: int, 默认 1000 :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。
`get_mobilenet`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。
`get_mobilenet_v2`	来自论文 “倒残差和线性瓶颈：用于分类、检测和分割的移动网络” 的 MobileNetV2 模型。
`mobilenet1_0`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 1.0。
`mobilenet0_75`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.75。
`mobilenet0_5`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.5。
`mobilenet0_25`	来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.25。

SqueezeNet¶

SqueezeNet

来自论文 “SqueezeNet: AlexNet 级别精度，参数量减少 50 倍，模型大小 <0.5MB” 的 SqueezeNet 模型。

squeezenet1_0

来自论文 “SqueezeNet: AlexNet 级别精度，参数量减少 50 倍，模型大小 <0.5MB” 的 SqueezeNet 1.0 模型。

squeezenet1_1

来自 SqueezeNet 官方仓库的 SqueezeNet 1.1 模型。

DenseNet¶

`DenseNet`	来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 模型。
`densenet121`	来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 121 层模型。
`densenet161`	来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 161 层模型。
`densenet169`	来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 169 层模型。
`densenet201`	来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 201 层模型。

目标检测¶

SSD¶

`SSD`	单次目标检测网络：https://arxiv.org/abs/1512.02325。
`get_ssd`	获取 SSD 模型。
`ssd_300_vgg16_atrous_voc`	用于 Pascal VOC 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。
`ssd_300_vgg16_atrous_coco`	用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。
`ssd_300_vgg16_atrous_custom`	用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。
`ssd_512_vgg16_atrous_voc`	带有 VGG16 空洞卷积 512x512 基础网络的 SSD 架构。
`ssd_512_vgg16_atrous_coco`	用于 COCO 的带有 VGG16 空洞卷积层的 SSD 架构。
`ssd_512_vgg16_atrous_custom`	用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。
`ssd_512_resnet50_v1_voc`	带有 ResNet v1 50 层的 SSD 架构。
`ssd_512_resnet50_v1_coco`	用于 COCO 的带有 ResNet v1 50 层的 SSD 架构。
`ssd_512_resnet50_v1_custom`	用于自定义数据集的带有 ResNet50 v1 512 基础网络的 SSD 架构。
`ssd_512_resnet101_v2_voc`	带有 ResNet v2 101 层的 SSD 架构。
`ssd_512_resnet152_v2_voc`	带有 ResNet v2 152 层的 SSD 架构。
`VGGAtrousExtractor`	VGG 空洞卷积多层特征提取器，产生多个输出特征图。
`get_vgg_atrous_extractor`	获取 VGG 空洞卷积特征提取网络。
`vgg16_atrous_300`	获取输入大小为 300 的 VGG 空洞卷积 16 层特征提取网络。
`vgg16_atrous_512`	获取输入大小为 512 的 VGG 空洞卷积 16 层特征提取网络。

Faster RCNN¶

`FasterRCNN`	Faster RCNN 网络。
`get_faster_rcnn`	返回 faster rcnn 网络的工具函数。
`faster_rcnn_resnet50_v1b_voc`	来自论文“Ren, S., He, K., Girshick, R., & Sun, J.” 的 Faster RCNN 模型。
`faster_rcnn_resnet50_v1b_coco`	来自论文“Ren, S., He, K., Girshick, R., & Sun, J.” 的 Faster RCNN 模型。
`faster_rcnn_resnet50_v1b_custom`	在自定义数据集上使用 resnet50_v1b 基础网络的 Faster RCNN 模型。

YOLOv3¶

`YOLOV3`	YOLO V3 检测网络。参考：https://arxiv.org/pdf/1804.02767.pdf。:param stages: 分阶段特征提取块。例如，原始论文中使用了 3 个阶段和 3 个 YOLO 输出层。:type stages: mxnet.gluon.HybridBlock :param channels: 每个附加阶段的卷积通道数。len(channels) 应与 len(stages) 匹配。:type channels: iterable :param num_class: 前景对象的数量。:type num_class: int :param anchors: 锚框设置。len(anchors) 应与 len(stages) 匹配。:type anchors: iterable :param strides: 特征图的步幅。len(strides) 应与 len(stages) 匹配。:type strides: iterable :param alloc_size: 供高级用户使用。定义 alloc_size 以生成足够大的锚框图，这些图稍后将保存在参数中。在推理过程中，我们支持通过裁剪锚框图中相应区域来处理任意输入图像。这使我们能够导出为符号，以便在 c++, Scalar 等环境运行。:type alloc_size: int 元组, 默认值为 (128, 128) :param nms_thresh: 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。:type nms_thresh: float, 默认值为 0.45。:param nms_topk: 对前 k 个检测结果应用 NMS，使用 -1 禁用，以便在 NMS 中使用每个检测结果。:type nms_topk: int, 默认值为 400 :param post_nms: 只返回前 post_nms 个检测结果，其余丢弃。该数量基于 COCO 数据集，该数据集每张图像最多有 100 个对象。如果预计有更多对象，可以调整此数量。可以使用 -1 返回所有检测结果。:type post_nms: int, 默认值为 100 :param pos_iou_thresh: 匹配实际对象的真实锚框的 IOU 阈值。未实现“pos_iou_thresh < 1”。:type pos_iou_thresh: float, 默认值为 1.0 :param ignore_iou_thresh: IOU 在 range(ignore_iou_thresh, pos_iou_thresh) 范围内的锚框不会因对象性得分而受到惩罚。:type ignore_iou_thresh: float :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。
`get_yolov3`	获取 YOLOV3 模型。:param name: 模型名称，如果使用 None，则必须指定 features 为 HybridBlock。:type name: str or None :param stages: 网络内部输出名称列表，用于指定哪些层用于预测 bbox 值。如果 name 为 None，features 必须是生成多个输出用于预测的 HybridBlock。:type stages: str 可迭代对象或 HybridBlock :param filters: 将附加到基础网络特征提取器的卷积层通道列表。如果 name 为 None，则忽略此参数。:type filters: float 可迭代对象或 None :param sizes: 锚框大小，这应该是一个 float 列表，按增量顺序排列。sizes 的长度必须等于 len(layers) + 1。例如，一个两阶段的 SSD 模型可以有 `sizes = [30, 60, 90]`，它将转换为 [30, 60] 和 [60, 90] 分别用于两个阶段。更多详情，请参阅原始论文。:type sizes: float 可迭代对象 :param ratios: 每个输出层的锚框的纵横比。其长度必须等于 SSD 输出层的数量。:type ratios: list 可迭代对象 :param steps: 每个输出层锚框的步长。:type steps: int 列表 :param classes: 类别名称。:type classes: str 可迭代对象 :param dataset: 数据集名称。这用于标识模型名称，因为在不同数据集上训练的模型差异很大。:type dataset: str :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param pretrained_base: 加载预训练基础网络，附加层是随机初始化的。注意，如果 pretrained 为 True，此参数无效。:type pretrained_base: bool or str, 可选, 默认值为 True :param ctx: 上下文，例如 mx.cpu(), mx.gpu(0)。:type ctx: mxnet.Context :param root: 模型权重存储路径。:type root: str :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。
`yolo3_darknet53_voc`	在 VOC 数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param pretrained_base: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained_base: bool or str :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。
`yolo3_darknet53_coco`	在 COCO 数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param pretrained_base: 是否获取并加载基础网络的预训练权重。:type pretrained_base: boolean :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。
`yolo3_darknet53_custom`	在自定义数据集上使用 darknet53 基础网络的多尺度 YOLO3。:param classes: 自定义前景类别名称。len(classes) 是前景类别数。:type classes: str 可迭代对象 :param transfer: 如果不是 None，将尝试重用在其他数据集上训练的 yolo 网络的预训练权重。:type transfer: str or None :param pretrained_base: 是否获取并加载基础网络的预训练权重。:type pretrained_base: boolean :param norm_layer: 使用的归一化层 (默认: `mxnet.gluon.nn.BatchNorm`) 可以是 `mxnet.gluon.nn.BatchNorm` 或 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_layer: object :param norm_kwargs: 额外的 norm_layer 参数，例如 num_devices=4 用于 `mxnet.gluon.contrib.nn.SyncBatchNorm`。:type norm_kwargs: dict。

实例分割¶

Mask RCNN¶

`MaskRCNN`	Mask RCNN 网络。
`get_mask_rcnn`	返回 mask rcnn 网络的工具函数。
`mask_rcnn_resnet50_v1b_coco`	来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R.” 的 Mask RCNN 模型。

语义分割¶

FCN¶

`FCN`	用于语义分割的全卷积网络
`get_fcn`	来自论文 “用于语义分割的全卷积网络” 的 FCN 模型
`get_fcn_resnet50_voc`	来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-50 基础网络的 FCN 模型
`get_fcn_resnet101_voc`	来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型
`get_fcn_resnet101_coco`	来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型
`get_fcn_resnet50_ade`	来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型
`get_fcn_resnet101_ade`	来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

PSPNet¶

`PSPNet`	金字塔场景解析网络
`get_psp`	金字塔场景解析网络 :param dataset: 模型预训练的数据集。(pascal_voc, ade20k) :type dataset: str, 默认 pascal_voc :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’ :param pretrained_base: 这将加载在 ImageNet 上训练的预训练骨干网络。:type pretrained_base: bool or str, 默认 True。
`get_psp_resnet101_coco`	金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。
`get_psp_resnet101_voc`	金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。
`get_psp_resnet50_ade`	金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。
`get_psp_resnet101_ade`	金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。:type pretrained: bool or str :param ctx: 加载预训练权重的上下文。:type ctx: Context, 默认 CPU :param root: 保存模型参数的位置。:type root: str, 默认 ‘~/.mxnet/models’。

DeepLabV3¶

`DeepLabV3`	:param nclass: 训练数据集的类别数。
`get_deeplab`	DeepLabV3 :param dataset: 模型预训练使用的数据集。(pascal_voc, pascal_aug, ade20k, coco, citys) :type dataset: str, default pascal_voc :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。
`get_deeplab_resnet101_coco`	DeepLabV3 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。
`get_deeplab_resnet101_voc`	DeepLabV3 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。
`get_deeplab_resnet50_ade`	DeepLabV3 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。
`get_deeplab_resnet101_ade`	DeepLabV3 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。 :type pretrained: bool or str :param ctx: 加载预训练权重的上下文。 :type ctx: Context, default CPU :param root: 保存模型参数的位置。 :type root: str, default ‘~/.mxnet/models’。

动作识别¶

TSN¶

`vgg16_ucf101`	在UCF101数据集上训练的VGG16模型。
`vgg16_hmdb51`	在HMDB51数据集上训练的VGG16模型。
`vgg16_kinetics400`	在Kinetics400数据集上训练的VGG16模型。
`vgg16_sthsthv2`	在Something-Something-V2数据集上训练的VGG16模型。
`inceptionv1_ucf101`	在UCF101数据集上训练的InceptionV1模型。
`inceptionv1_hmdb51`	在HMDB51数据集上训练的InceptionV1模型。
`inceptionv1_kinetics400`	在Kinetics400数据集上训练的InceptionV1模型。
`inceptionv1_sthsthv2`	在Something-Something-V2数据集上训练的InceptionV1模型。
`inceptionv3_ucf101`	在UCF101数据集上训练的InceptionV3模型。
`inceptionv3_hmdb51`	在HMDB51数据集上训练的InceptionV3模型。
`inceptionv3_kinetics400`	在Kinetics400数据集上训练的InceptionV3模型。
`inceptionv3_sthsthv2`	在Something-Something-V2数据集上训练的InceptionV3模型。
`resnet18_v1b_sthsthv2`	在Something-Something-V2数据集上训练的ResNet18模型。
`resnet34_v1b_sthsthv2`	在Something-Something-V2数据集上训练的ResNet34模型。
`resnet50_v1b_sthsthv2`	在Something-Something-V2数据集上训练的ResNet50模型。
`resnet101_v1b_sthsthv2`	在Something-Something-V2数据集上训练的ResNet101模型。
`resnet152_v1b_sthsthv2`	在Something-Something-V2数据集上训练的ResNet152模型。
`resnet18_v1b_kinetics400`	在Kinetics400数据集上训练的ResNet18模型。
`resnet34_v1b_kinetics400`	在Kinetics400数据集上训练的ResNet34模型。
`resnet50_v1b_kinetics400`	在Kinetics400数据集上训练的ResNet50模型。
`resnet101_v1b_kinetics400`	在Kinetics400数据集上训练的ResNet101模型。
`resnet152_v1b_kinetics400`	在Kinetics400数据集上训练的ResNet152模型。
`resnet50_v1b_ucf101`	在UCF101数据集上训练的ResNet50模型。
`resnet50_v1b_hmdb51`	在HMDB51数据集上训练的ResNet50模型。
`resnet50_v1b_custom`	为任何数据集定制的ResNet50模型。

C3D¶

`C3D`	卷积3D网络 (C3D)。
`c3d_kinetics400`	在Kinetics400数据集上训练的卷积3D网络 (C3D)。

I3D¶

`I3D_InceptionV1`	来自“Going Deeper with Convolutions”论文的Inception v1模型。
`i3d_inceptionv1_kinetics400`	来自“Going Deeper with Convolutions”论文的、在Kinetics400数据集上训练的Inception v1模型。
`I3D_InceptionV3`	来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。
`i3d_inceptionv3_kinetics400`	来自“Rethinking the Inception Architecture for Computer Vision”论文的、在Kinetics400数据集上训练的Inception v3模型。
`I3D_ResNetV1`	ResNet_I3D骨干网络。
`i3d_resnet50_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。
`i3d_resnet101_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的膨胀3D模型 (I3D)。
`i3d_nl5_resnet50_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络和5个非局部块的膨胀3D模型 (I3D)。
`i3d_nl10_resnet50_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络和10个非局部块的膨胀3D模型 (I3D)。
`i3d_nl5_resnet101_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络和5个非局部块的膨胀3D模型 (I3D)。
`i3d_nl10_resnet101_v1_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络和10个非局部块的膨胀3D模型 (I3D)。
`i3d_resnet50_v1_sthsthv2`	在Something-Something-V2数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。
`i3d_resnet50_v1_hmdb51`	在HMDB51数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。
`i3d_resnet50_v1_ucf101`	在UCF101数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。
`i3d_resnet50_v1_custom`	使用ResNet50骨干网络的膨胀3D模型 (I3D)。

P3D¶

`P3D`	伪3D网络 (P3D)。
`p3d_resnet50_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络的伪3D网络 (P3D)。
`p3d_resnet101_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的伪3D网络 (P3D)。

R2+1D¶

`R2Plus1D`	R2+1D网络。
`r2plus1d_resnet18_kinetics400`	在Kinetics400数据集上训练的、使用ResNet18骨干网络的R2Plus1D。
`r2plus1d_resnet34_kinetics400`	在Kinetics400数据集上训练的、使用ResNet34骨干网络的R2Plus1D。
`r2plus1d_resnet50_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络的R2Plus1D。
`r2plus1d_resnet101_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的R2Plus1D。
`r2plus1d_resnet152_kinetics400`	在Kinetics400数据集上训练的、使用ResNet152骨干网络的R2Plus1D。

SlowFast¶

`SlowFast`	来自“SlowFast Networks for Video Recognition”论文的SlowFast网络 (SlowFast)。
`slowfast_4x16_resnet50_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。
`slowfast_8x8_resnet50_kinetics400`	在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 8x8网络 (SlowFast)。
`slowfast_4x16_resnet101_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 4x16网络 (SlowFast)。
`slowfast_8x8_resnet101_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 8x8网络 (SlowFast)。
`slowfast_16x8_resnet101_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)。
`slowfast_16x8_resnet101_50_50_kinetics400`	在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)，但时间头用ResNet50结构 (3, 4, 6, 3) 初始化。
`slowfast_4x16_resnet50_custom`	使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。

API参考¶

GluonCV模型的网络定义

GluonCV 模型动物园

class gluoncv.model_zoo.ABC[source]¶: 提供使用继承创建ABC的标准方法的辅助类。

class gluoncv.model_zoo.AlexNet(classes=1000, **kwargs)[source]¶

来自“One weird trick…”论文的AlexNet模型。

参数: classes (int, default 1000) – 输出层的类别数。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BaseAnchorBasedTracktor[source]¶

abstract anchors()[source]¶

abstract clean_up()[source]¶: 运行一个视频后进行清理

abstract detect_and_track(frame, tracking_anchor_indices, tracking_anchor_weights, tracking_classes)[source]¶

对新帧执行检测和跟踪

参数

frame (HxWx3 RGB image) –
tracking_anchor_indices (NxM ndarray) –
NxM ndarray (tracking_anchor_weights) –
tracking_classes (Nx1 ndarray of the class ids of the tracked object) – 被跟踪对象的类别ID的Nx1 ndarray
Returns – detection\_bounding\_boxes: 所有检测结果，格式为 (x0, y0, x1, y1, confidence, cls) detection\_source: 每个检测结果对应的源锚框索引 tracking\_boxes: 所有跟踪结果，格式为 (x0, y0, x1, y1, confidence) extract\_info: 从跟踪器中提取的额外信息，例如地标，一个字典
------- –

abstract prepare_for_frame(frame)[source]¶

此方法应在运动预测之前运行任何所需的操作。它可以准备检测器，甚至运行骨干网络特征提取。它还可以为运动预测提供数据。 :param frame: 帧数据，与 detect\_and\_track 方法中的相同。 :type frame: the frame data, the same as in the detect\_and\_track method

返回: motion_predict_data
返回类型: 提供给运动预测的可选数据，如果未提供数据，则返回 None

class gluoncv.model_zoo.BasicBlockV1(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Deep Residual Learning for Image Recognition”论文的BasicBlock V1。用于ResNet V1的18层和34层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BasicBlockV1b(planes, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, **kwargs)[source]¶

ResNetV1b BasicBlockV1b

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BasicBlockV2(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Identity Mappings in Deep Residual Networks”论文的BasicBlock V2。用于ResNet V2的18层和34层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Block(channels, cardinality, bottleneck_width, stride, downsample=False, last_gamma=False, use_se=False, avg_down=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Aggregated Residual Transformations for Deep Neural Network”论文的Bottleneck Block。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Bottleneck(channels, cardinality=1, bottleneck_width=64, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, last_gamma=False, dropblock_prob=0, input_size=None, use_splat=False, radix=2, avd=False, avd_first=False, in_channels=None, split_drop_ratio=0, **kwargs)[source]¶

ResNeSt瓶颈块

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV1(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Deep Residual Learning for Image Recognition”论文的Bottleneck V1。用于ResNet V1的50、101、152层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV1b(planes, strides=1, dilation=1, downsample=None, previous_dilation=1, norm_layer=None, norm_kwargs=None, last_gamma=False, **kwargs)[source]¶

ResNetV1b BottleneckV1b

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.BottleneckV2(channels, stride, downsample=False, in_channels=0, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Identity Mappings in Deep Residual Networks”论文的Bottleneck V2。用于ResNet V2的50、101、152层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.C3D(nclass, dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, **kwargs)[source]¶

卷积3D网络 (C3D)。学习时空特征与3D卷积网络。ICCV, 2015. https://arxiv.org/abs/1412.0767

参数

nclass (int) – 训练数据集中的类别数。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
dropout_ratio (float) – 密集层后用于避免过拟合的Dropout值。
init_std (float) – 初始化密集层的默认标准差值。
ctx (str) – 上下文，默认为CPU。加载预训练权重的上下文。

hybrid_forward(F, x)[source]¶: C3D网络的Hybrid forward

class gluoncv.model_zoo.COCODetection(root='~/.mxnet/datasets/coco', splits=('instances_val2017'), transform=None, min_object_area=0, skip_empty=True, use_crowd=True)[source]¶

MS COCO检测数据集。

参数

root (str, default '~/.mxnet/datasets/coco') – 存储数据集的文件夹路径。
splits (list of str, default ['instances_val2017']) – Json标注文件名。可选值包括：instances\_val2017, instances\_train2017。
transform (callable, default None) –
一个接受数据和标签并对其进行转换的函数。示例请参阅./transforms。

对象检测的转换函数应考虑标签，因为任何几何修改都需要修改标签。
min_object_area (float) – 最小接受的真实区域，如果对象的区域小于此值，将被忽略。
skip_empty (bool, default is True) – 是否跳过没有有效对象的图像。在训练中应为True，否则会导致未定义的行为。
use_crowd (bool, default is True) – 是否使用标注为crowd实例的框。

property annotation_dir¶: 标注子目录。默认是'annotations' (coco默认)。例如，coco格式的json文件将在'root/annotation\_dir/xxx.json'中搜索。如果自定义数据集不遵循此模式，可以重写。

property classes¶: 类别名称。

property coco¶: 返回用于评估的pycocotools对象。

get_im_aspect_ratio()[source]¶: 返回原始数据顺序中每张图像的宽高比。

class gluoncv.model_zoo.CenterNet(base_network, heads, classes, head_conv_channel=0, scale=4.0, topk=100, flip_test=False, nms_thresh=0, nms_topk=400, post_nms=100, **kwargs)[source]¶

Objects as Points. https://arxiv.org/abs/1904.07850v2

参数

base_network (mxnet.gluon.nn.HybridBlock) – 基础特征提取网络。
heads (OrderedDict) –
OrderedDict，包含每个头的规格。例如：OrderedDict([

(‘heatmap’, {‘num\_output’: len(classes), ‘bias’: -2.19}), (‘wh’, {‘num\_output’: 2}), (‘reg’, {‘num\_output’: 2}) ])
classes (list of str) – 类别名称。
head_conv_channel (int, default is 0) – 如果 > 0，将在每个实际头部之前使用一个额外的卷积层。
scale (float, default is 4.0) – 整个网络的下采样比例。
topk (int, default is 100) – 输出数量。
flip_test (bool) – 是否在推理时应用翻转测试（训练模式不受影响）。
nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。
nms_topk (int, default is 400) –

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection
结果都用于NMS。
post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。

hybrid_forward(F, x)[source]¶: Center net的Hybrid forward

property num_classes¶

返回前景类别的数量。

返回: 前景类别数
返回类型: int

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。

参数

classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。
reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典，或 {new\_name : old\_name} 映射字典，或者如果类别名称不变，则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('center_net_resnet50_v1b_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

detector.reset_class(['apple', 'orange'])

set_nms(nms_thresh=0, nms_topk=400, post_nms=100)[source]¶

参数

设置非极大值抑制参数。
nms_topk (int, default is 400) –

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection
结果都用于NMS。
post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。

返回

返回类型

nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

None

class gluoncv.model_zoo.DUC(planes, upscale_factor=2, **kwargs)[source]¶

使用像素混洗的上采样层

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

class gluoncv.model_zoo.DarknetV3(layers, channels, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

参数

Darknet v3。
layers (iterable) – 参数layers的描述。
channels (iterable) – 参数channels的描述。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

classes (int, default is 1000) – 类别数，决定了密集层输出通道数。

features¶

特征提取层。: 类型

mxnet.gluon.nn.HybridSequential

output¶

特征提取层。: 一个 classes(1000) 路的全连接层。

mxnet.gluon.nn.Dense

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
nclass (int) – 训练数据集的类别数。
backbone (string) – 预训练的膨胀骨干网络类型（默认：'resnet50'；'resnet50'、'resnet101'或'resnet152'）。
norm_layer (object) – 骨干网络中使用的归一化层（默认：mxnet.gluon.nn.BatchNorm；用于同步跨GPU批量归一化）。

aux (bool) – 辅助损失。

Chen, Liang-Chieh, et al. “Rethinking atrous convolution for semantic image segmentation.” arXiv preprint arXiv:1706.05587 (2017).

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
class gluoncv.model_zoo.DeepLabV3Plus(nclass, backbone='xception', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=576, crop_size=512, dilated=True, **kwargs)[source]¶
backbone (string) – 预训练的膨胀骨干网络类型（默认：'resnet50'；'resnet50'、'resnet101'或'resnet152'）。
norm_layer (object) – 骨干网络中使用的归一化层（默认：mxnet.gluon.nn.BatchNorm；用于同步跨GPU批量归一化）。

aux (bool) – 辅助损失。

Chen, Liang-Chieh, et al. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.”: evaluate(x)[source]¶

使用输入和目标评估网络

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
class gluoncv.model_zoo.DeepLabWV3Plus(nclass, backbone='wideresnet', aux=False, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, dilated=True, **kwargs)[source]¶
backbone (string) – 预训练的膨胀骨干网络类型（默认：'resnet50'；'resnet50'、'resnet101'或'resnet152'）。
norm_layer (object) – 骨干网络中使用的归一化层（默认：mxnet.gluon.nn.BatchNorm；用于同步跨GPU批量归一化）。
backbone (string) – 预训练的膨胀骨干网络类型（默认：'wideresnet'）。

Reference – Chen, Liang-Chieh, et al. “Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation.”, https://arxiv.org/abs/1802.02611, ECCV 2018

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 模型。

参数

class gluoncv.model_zoo.DenseNet(num_init_features, growth_rate, block_config, bn_size=4, dropout=0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶
num_init_features (int) – 第一个卷积层中学习的滤波器数量。
growth_rate (int) – 每层添加的滤波器数量（论文中的k）。
block_config (list of int) – 每个池化块中的层数列表。
bn_size (int, default 4) – 瓶颈层数量的乘数因子。（即瓶颈层中的bn\_size \* k个特征）
dropout (float, default 0) – 每个密集层后的dropout率。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

classes (int, default 1000) – 分类类别数。

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, x)[source]¶

class gluoncv.model_zoo.DepthDecoder(num_ch_enc, scales=range(0, 4), num_output_channels=1, use_skips=True)[source]¶

参数

Monodepth2的解码器
num_ch_enc (list) – 编码器的通道数。
scales (list) – 损失函数中使用的尺度。（默认：range(4)）
num_output_channels (int) – 输出通道数。（默认：1）

use_skips (bool) – 这将在网络中使用跳跃连接结构。（默认：True）

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybrid_forward(F, input_features)[source]¶

class gluoncv.model_zoo.DepthwiseRPN(bz=1, is_train=False, ctx=cpu(0), anchor_num=5, out_channels=256)[source]¶

参数

通过z\_f和x\_f获取cls和loc
bz (int) – 训练的批处理大小，测试时 bz = 1。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
ctx (mxnet.Context) – 上下文，例如 mx.cpu(), mx.gpu(0)。
anchor_num (int) – 锚框数量。

hybrid_forward(F, z_f, x_f)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.DoubleHeadRCNN(features, top_features, classes, box_features=None, short=600, max_size=1000, min_stage=4, max_stage=4, train_patterns=None, nms_thresh=0.3, nms_topk=400, post_nms=100, roi_mode='align', roi_size=(14, 14), strides=16, clip=None, rpn_channel=1024, base_size=16, scales=(8, 16, 32), ratios=(0.5, 1, 2), alloc_size=(128, 128), rpn_nms_thresh=0.7, rpn_train_pre_nms=12000, rpn_train_post_nms=2000, rpn_test_pre_nms=6000, rpn_test_post_nms=300, rpn_min_size=16, per_device_batch_size=1, num_sample=128, pos_iou_thresh=0.5, pos_ratio=0.25, max_num_gt=300, additional_output=False, force_nms=False, minimal_opset=False, **kwargs)[source]¶

Double Head RCNN 网络。

参数

features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。
top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。
classes (iterable of str) – 类别名称，其长度为 num_class。
box_features (gluon.HybridBlock, default is None) – 用于转换共享 ROI 输出（top_features）以进行边界框预测的特征头部。如果设置为 None，将使用全局平均池化。
short (int, default is 600.) – 输入图像的短边尺寸。
max_size (int, default is 1000.) – 输入图像长边的最大尺寸。
min_stage (int, default is 4) – FPN 阶段的最小阶段编号。
max_stage (int, default is 4) – FPN 阶段的最大阶段编号。
train_patterns (str, default is None.) – 可训练参数的匹配模式。
nms_thresh (float, default is 0.3.) – 非极大值抑制（NMS）阈值。可以指定 < 0 或 > 1 来禁用 NMS。
nms_topk (int, default is 400) – 对前 k 个检测结果应用 NMS，使用 -1 来禁用，以便在 NMS 中使用所有检测结果。
roi_mode (str, default is align) – ROI 池化模式。当前支持 ‘pool’ 和 ‘align’。
roi_size (tuple of int, length 2, default is (14, 14)) – ROI 区域的（高度，宽度）。
strides (int/tuple of ints, default is 16) – 相对于原始图像的特征图步幅。这通常是原始图像尺寸与特征图尺寸的比率。对于 FPN，使用整数元组。
clip (float, default is None) – 裁剪边界框预测以防止指数运算溢出。
rpn_channel (int, default is 1024) – RPN 卷积层中使用的通道数。
base_size (int) – 参考锚框的宽度（和高度）。
scales (iterable of float, default is (8, 16, 32)) –
锚框的面积。我们使用以下公式计算锚框的形状

\[width_{anchor} = size_{base} \times scale \times \sqrt{ 1 / ratio} height_{anchor} = size_{base} \times scale \times \sqrt{ratio}\]
ratios (iterable of float, default is (0.5, 1, 2)) – 锚框的纵横比。我们期望它是一个列表或元组。
alloc_size (tuple of int) – 锚框的分配大小，格式为 (H, W)。通常我们为较大的特征图生成足够的锚框，例如 128x128。之后在推理时，我们可以有可变的输入尺寸，此时我们可以从这个大的锚框图中裁剪出相应的锚框，这样就可以跳过为每个输入重新生成锚框的过程。
rpn_train_pre_nms (int, default is 12000) – 在 RPN 训练中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_train_post_nms (int, default is 2000) – 在 RPN 训练中，NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_train_pre_nms，则会设置为 rpn_train_pre_nms。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, default is 300) – 在 RPN 测试中，NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_test_pre_nms，则会设置为 rpn_test_pre_nms。
rpn_nms_thresh (float, default is 0.7) – NMS 的 IOU 阈值。用于移除重叠的建议框。
rpn_num_sample (int, default is 256) – RPN 目标的样本数量。
rpn_pos_iou_thresh (float, default is 0.7) – IOU 大于 pos_iou_thresh 的锚框被视为正样本。
rpn_neg_iou_thresh (float, default is 0.3) – IOU 小于 neg_iou_thresh 的锚框被视为负样本。IOU 介于 pos_iou_thresh 和 neg_iou_thresh 之间的锚框被忽略。
rpn_pos_ratio (float, default is 0.5) – pos_ratio 定义了要采样多少正样本（pos_ratio * num_sample）。
rpn_box_norm (array-like of size 4, default is (1., 1., 1., 1.)) – 从编码值中除以的标准差值。
rpn_min_size (int, default is 16) – 尺寸小于 min_size 的建议框将被丢弃。
per_device_batch_size (int, default is 1) – 训练期间每个设备的批量大小。
num_sample (int, default is 128) – RCNN 目标的样本数量。
pos_iou_thresh (float, default is 0.5) – IOU 大于 pos_iou_thresh 的建议框被视为正样本。
pos_ratio (float, default is 0.25) – pos_ratio 定义了要采样多少正样本（pos_ratio * num_sample）。
max_num_gt (int, default is 300) – 每个样本的最大真值（ground-truth）数量。这只是一个上限，不一定非常精确。但是，使用非常大的数字可能会影响训练速度。
additional_output (boolean, default is False) – additional_output 仅用于 Mask R-CNN 获取内部输出。
force_nms (bool, default is False) – 对所有类别应用 NMS，这是为了避免来自不同类别的重叠检测结果。
minimal_opset (bool, default is False) – 有时我们会添加特殊的运算符来加速训练/推理，但是，为了导出到第三方编译器，我们希望利用最广泛使用的运算符。如果 minimal_opset 为 True，网络将使用最少的运算符集，适用于例如 TVM。

classes¶

类别名称，其长度为 num_class。

特征提取层。: iterable of str

num_class¶

正样本类别的数量。

特征提取层。: int

short¶

输入图像的短边尺寸。

特征提取层。: int

max_size¶

输入图像长边的最大尺寸。

特征提取层。: int

train_patterns¶

可训练参数的匹配模式。

特征提取层。: str

nms_thresh¶

非极大值抑制（NMS）阈值。可以指定 < 0 或 > 1 来禁用 NMS。

特征提取层。: float

nms_topk¶

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection: 结果都用于NMS。

特征提取层。: int

force_nms¶

对所有类别应用 NMS，这是为了避免来自不同类别的重叠检测结果。

特征提取层。: bool

rpn_target_generator¶

生成包含 cls_target、box_target 和 box_mask 的训练目标。

特征提取层。: gluon.Block

target_generator¶

生成包含 boxes、samples、matches、gt_label 和 gt_box 的训练目标。

特征提取层。: gluon.Block

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]¶

前向传播 DoubleHeadRCNN-RCNN 网络。

训练和推理期间的行为不同。

参数

x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。
gt_box (type, only required during training) – 真值边界框张量，形状为 (B, N, 4)。仅在训练期间需要。
gt_label (type, only required during training) – 真值标签张量，形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间，返回最终的类别 ID、置信度得分和边界框。

返回类型

(ids, scores, bboxes)

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。

参数

classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。
reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典，或 {new\_name : old\_name} 映射字典，或者如果类别名称不变，则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('faster_rcnn_resnet50_v1b_coco', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

property target_generator¶

返回存储的目标生成器

返回: RCNN 目标生成器
返回类型: mxnet.gluon.HybridBlock

class gluoncv.model_zoo.DummyMotionEstimator[source]¶

initialize(first_frame, first_frame_motion_pred_data)[source]¶

通过输入第一帧来初始化运动估计器

参数

first_frame (data of the first frame) – 第一帧的数据
first_frame_motion_pred_data (additional data for motion prediction) – 用于运动预测的额外数据
Returns – 缓存信息
------- –

predict_new_locations(prev_frame_cache: numpy.ndarray, prev_bboxes: numpy.ndarray, new_frame: numpy.ndarray, skip: bool = False, **kwargs)[source]¶

用于预测给定两帧的边界框运动的抽象方法。 :param prev_frame_cache: :type prev_frame_cache: 运动估计缓存的图像，numpy.ndarray :param prev_bboxes: :type prev_bboxes: Nx4 numpy.ndarray，边界框格式为 (left, top, right, bottom) :param new_frame: :type new_frame: BGR 图像，numpy.ndarray :param new_frame_motion_pred_data: :type new_frame_motion_pred_data: 用于运动预测的额外数据 :param tracked_boxes_anchor_indices: :type tracked_boxes_anchor_indices: 用于构建 prev_bboxes 的锚点索引 :param tracked_boxes_anchor_weights: :type tracked_boxes_anchor_weights: 用于构建 prev_bboxes 的锚点的投票权重 :param skip: :type skip: 是否跳过当前帧的运动估计 :param kwargs: :type kwargs: 其他信息 :param Returns: new_boxes: Nx4 numpy.ndarray

参数: ------- –

class gluoncv.model_zoo.FCN(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, base_size=520, crop_size=480, **kwargs)[source]¶

用于语义分割的全卷积网络

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
nclass (int) – 训练数据集的类别数。
norm_layer (object) – 主干网络中使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm);
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。
pretrained_base (bool or str) – 指 FCN 主干或编码器是否已预训练。如果为 True，则加载在 ImageNet 上训练过的模型的权重。

aux (bool) – 辅助损失。

示例

>>> model = FCN(nclass=21, backbone='resnet50')
>>> print(model)

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.FarneBeckFlowMotionEstimator(flow_scale=256)[source]¶

使用 Farnebeck 算法进行基于光流的运动估计

compute_flow(prev_frame_cache, prepared_new_frame)[source]¶

计算稠密光流 :param prev_frame_cache: :param prepared_new_frame: :param Returns: flow_map: NxMx2 的映射。每个空间位置包含一个 2 元素的向量

参数: ------- –

class gluoncv.model_zoo.FastSCNN(nclass, aux=True, ctx=cpu(0), pretrained_base=False, height=None, width=None, base_size=2048, crop_size=1024, **kwargs)[source]¶

Fast-SCNN: 快速语义分割网络

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
norm_layer (object) – 主干网络中使用的归一化层 (默认: mxnet.gluon.nn.BatchNorm)。
norm_layer (object) – 骨干网络中使用的归一化层（默认：mxnet.gluon.nn.BatchNorm；用于同步跨GPU批量归一化）。

aux (bool) – 辅助损失。

demo(x)[source]¶: fastscnn 演示

evaluate(x)[source]¶: evaluate(x)[source]¶

hybrid_forward(F, x)[source]¶: Fast SCNN 的混合前向计算

predict(x)[source]¶: fastscnn 预测

class gluoncv.model_zoo.FasterRCNN(features, top_features, classes, box_features=None, short=600, max_size=1000, min_stage=4, max_stage=4, train_patterns=None, nms_thresh=0.3, nms_topk=400, post_nms=100, roi_mode='align', roi_size=(14, 14), strides=16, clip=None, rpn_channel=1024, base_size=16, scales=(8, 16, 32), ratios=(0.5, 1, 2), alloc_size=(128, 128), rpn_nms_thresh=0.7, rpn_train_pre_nms=12000, rpn_train_post_nms=2000, rpn_test_pre_nms=6000, rpn_test_post_nms=300, rpn_min_size=16, per_device_batch_size=1, num_sample=128, pos_iou_thresh=0.5, pos_ratio=0.25, max_num_gt=300, additional_output=False, force_nms=False, minimal_opset=False, **kwargs)[source]¶

Faster RCNN 网络。

参数

features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。
top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。
classes (iterable of str) – 类别名称，其长度为 num_class。
box_features (gluon.HybridBlock, default is None) – 用于转换共享 ROI 输出（top_features）以进行边界框预测的特征头部。如果设置为 None，将使用全局平均池化。
short (int, default is 600.) – 输入图像的短边尺寸。
max_size (int, default is 1000.) – 输入图像长边的最大尺寸。
min_stage (int, default is 4) – FPN 阶段的最小阶段编号。
max_stage (int, default is 4) – FPN 阶段的最大阶段编号。
train_patterns (str, default is None.) – 可训练参数的匹配模式。
nms_thresh (float, default is 0.3.) – 非极大值抑制（NMS）阈值。可以指定 < 0 或 > 1 来禁用 NMS。
nms_topk (int, default is 400) – 对前 k 个检测结果应用 NMS，使用 -1 来禁用，以便在 NMS 中使用所有检测结果。
roi_mode (str, default is align) – ROI 池化模式。当前支持 ‘pool’ 和 ‘align’。
roi_size (tuple of int, length 2, default is (14, 14)) – ROI 区域的（高度，宽度）。
strides (int/tuple of ints, default is 16) – 相对于原始图像的特征图步幅。这通常是原始图像尺寸与特征图尺寸的比率。对于 FPN，使用整数元组。
clip (float, default is None) – 裁剪边界框预测以防止指数运算溢出。
rpn_channel (int, default is 1024) – RPN 卷积层中使用的通道数。
base_size (int) – 参考锚框的宽度（和高度）。
scales (iterable of float, default is (8, 16, 32)) –
锚框的面积。我们使用以下公式计算锚框的形状

\[width_{anchor} = size_{base} \times scale \times \sqrt{ 1 / ratio} height_{anchor} = size_{base} \times scale \times \sqrt{ratio}\]
ratios (iterable of float, default is (0.5, 1, 2)) – 锚框的纵横比。我们期望它是一个列表或元组。
alloc_size (tuple of int) – 锚框的分配大小，格式为 (H, W)。通常我们为较大的特征图生成足够的锚框，例如 128x128。之后在推理时，我们可以有可变的输入尺寸，此时我们可以从这个大的锚框图中裁剪出相应的锚框，这样就可以跳过为每个输入重新生成锚框的过程。
rpn_train_pre_nms (int, default is 12000) – 在 RPN 训练中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_train_post_nms (int, default is 2000) – 在 RPN 训练中，NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_train_pre_nms，则会设置为 rpn_train_pre_nms。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, default is 300) – 在 RPN 测试中，NMS 之后返回排名靠前的建议框结果数量。如果大于 rpn_test_pre_nms，则会设置为 rpn_test_pre_nms。
rpn_nms_thresh (float, default is 0.7) – NMS 的 IOU 阈值。用于移除重叠的建议框。
rpn_num_sample (int, default is 256) – RPN 目标的样本数量。
rpn_pos_iou_thresh (float, default is 0.7) – IOU 大于 pos_iou_thresh 的锚框被视为正样本。
rpn_neg_iou_thresh (float, default is 0.3) – IOU 小于 neg_iou_thresh 的锚框被视为负样本。IOU 介于 pos_iou_thresh 和 neg_iou_thresh 之间的锚框被忽略。
rpn_pos_ratio (float, default is 0.5) – pos_ratio 定义了要采样多少正样本（pos_ratio * num_sample）。
rpn_box_norm (array-like of size 4, default is (1., 1., 1., 1.)) – 从编码值中除以的标准差值。
rpn_min_size (int, default is 16) – 尺寸小于 min_size 的建议框将被丢弃。
per_device_batch_size (int, default is 1) – 训练期间每个设备的批量大小。
num_sample (int, default is 128) – RCNN 目标的样本数量。
pos_iou_thresh (float, default is 0.5) – IOU 大于 pos_iou_thresh 的建议框被视为正样本。
pos_ratio (float, default is 0.25) – pos_ratio 定义了要采样多少正样本（pos_ratio * num_sample）。
max_num_gt (int, default is 300) – 每个样本的最大真值（ground-truth）数量。这只是一个上限，不一定非常精确。但是，使用非常大的数字可能会影响训练速度。
additional_output (boolean, default is False) – additional_output 仅用于 Mask R-CNN 获取内部输出。
force_nms (bool, default is False) – 对所有类别应用 NMS，这是为了避免来自不同类别的重叠检测结果。
minimal_opset (bool, default is False) – 有时我们会添加特殊的运算符来加速训练/推理，但是，为了导出到第三方编译器，我们希望利用最广泛使用的运算符。如果 minimal_opset 为 True，网络将使用最少的运算符集，适用于例如 TVM。

classes¶

类别名称，其长度为 num_class。

特征提取层。: iterable of str

num_class¶

正样本类别的数量。

特征提取层。: int

short¶

输入图像的短边尺寸。

特征提取层。: int

max_size¶

输入图像长边的最大尺寸。

特征提取层。: int

train_patterns¶

可训练参数的匹配模式。

特征提取层。: str

nms_thresh¶

非极大值抑制（NMS）阈值。可以指定 < 0 或 > 1 来禁用 NMS。

特征提取层。: float

nms_topk¶

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection: 结果都用于NMS。

特征提取层。: int

force_nms¶

对所有类别应用 NMS，这是为了避免来自不同类别的重叠检测结果。

特征提取层。: bool

rpn_target_generator¶

生成包含 cls_target、box_target 和 box_mask 的训练目标。

特征提取层。: gluon.Block

target_generator¶

生成包含 boxes、samples、matches、gt_label 和 gt_box 的训练目标。

特征提取层。: gluon.Block

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]¶

前向传播 Faster-RCNN 网络。

训练和推理期间的行为不同。

参数

x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。
gt_box (type, only required during training) – 真值边界框张量，形状为 (B, N, 4)。仅在训练期间需要。
gt_label (type, only required during training) – 真值标签张量，形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间，返回最终的类别 ID、置信度得分和边界框。

返回类型

(ids, scores, bboxes)

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。

参数

classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。
reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典，或 {new\_name : old\_name} 映射字典，或者如果类别名称不变，则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('faster_rcnn_resnet50_v1b_coco', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

property target_generator¶

返回存储的目标生成器

返回: RCNN 目标生成器
返回类型: mxnet.gluon.HybridBlock

class gluoncv.model_zoo.ForwardBackwardTask(net, optimizer, rpn_cls_loss, rpn_box_loss, rcnn_cls_loss, rcnn_box_loss, rcnn_mask_loss, amp_enabled)[source]¶

Mask R-CNN 训练任务，可以使用 Parallel 并发调度。 :param net: Faster R-CNN 网络。 :type net: gluon.HybridBlock :param optimizer: 训练优化器。 :type optimizer: gluon.Trainer :param rpn_cls_loss: RPN 边界框分类损失。 :type rpn_cls_loss: gluon.loss :param rpn_box_loss: RPN 边界框回归损失。 :type rpn_box_loss: gluon.loss :param rcnn_cls_loss: R-CNN 边界框头部分类损失。 :type rcnn_cls_loss: gluon.loss :param rcnn_box_loss: R-CNN 边界框头部回归损失。 :type rcnn_box_loss: gluon.loss :param rcnn_mask_loss: R-CNN Mask 头部分割损失。 :type rcnn_mask_loss: gluon.loss :param amp_enabled: 是否启用自动混合精度（Automatic Mixed Precision）。 :type amp_enabled: bool

forward_backward(x)[source]¶: 前向和后向计算。

class gluoncv.model_zoo.GluonSSDMultiClassTracktor(gpu_id=0, detector_thresh=0.5, model_name='', use_pretrained=False, param_path='', data_shape=512)[source]¶

基于对象检测器启动一个 tracktor。

anchors()[source]¶

clean_up()[source]¶: 运行一个视频后进行清理

prepare_for_frame(frame)[source]¶

此方法应在运动预测之前运行任何所需的操作。它可以准备检测器，甚至运行骨干网络特征提取。它还可以为运动预测提供数据。 :param frame: 帧数据，与 detect\_and\_track 方法中的相同。 :type frame: the frame data, the same as in the detect\_and\_track method

返回: motion_predict_data
返回类型: 提供给运动预测的可选数据，如果未提供数据，则返回 None

class gluoncv.model_zoo.GoogLeNet(classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, dropout_ratio=0.4, aux_logits=False, norm_kwargs=None, partial_bn=False, pretrained_base=True, ctx=None, **kwargs)[source]¶

来自 “Going Deeper with Convolutions” 论文的 GoogleNet 模型。以及 “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift” 论文。

参数

dropout (float, default 0) – 每个密集层后的dropout率。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。
partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层，除了第一层。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.HybridBlock(prefix=None, params=None)[source]¶

HybridBlock 同时支持使用 Symbol 和 NDArray 进行前向计算。

HybridBlock 与 Block 类似，但有一些区别

import mxnet as mx
from mxnet.gluon import HybridBlock, nn

class Model(HybridBlock):
    def __init__(self, **kwargs):
        super(Model, self).__init__(**kwargs)
        # use name_scope to give child Blocks appropriate names.
        with self.name_scope():
            self.dense0 = nn.Dense(20)
            self.dense1 = nn.Dense(20)

    def hybrid_forward(self, F, x):
        x = F.relu(self.dense0(x))
        return F.relu(self.dense1(x))

model = Model()
model.initialize(ctx=mx.cpu(0))
model.hybridize()
model(mx.nd.zeros((10, 10), ctx=mx.cpu(0)))

HybridBlock 中的前向计算必须是静态的，以便与 Symbol 一起工作，即不能在张量上调用 NDArray.asnumpy(), NDArray.shape, NDArray.dtype, NDArray 索引 (x[i]) 等。此外，不能使用基于非恒定表达式（如随机数或中间结果）的分支或循环逻辑，因为它们会改变每次迭代的图结构。

在使用 hybridize() 激活之前，HybridBlock 的工作方式与普通 Block 完全一样。激活后，HybridBlock 将创建一个表示前向计算的符号图并缓存它。在随后的前向计算中，将使用缓存的图而不是 hybrid_forward()。

详细教程请参阅参考资料。

参考资料

Hybrid - 更快的训练和简便的部署

cast(dtype)[source]¶

将此 Block 转换为使用另一种数据类型。

参数: dtype (str or numpy.dtype) – 新的数据类型。

export(path, epoch=0, remove_amp_cast=True)[source]¶

将 HybridBlock 导出为 json 格式，该格式可以被 gluon.SymbolBlock.imports、mxnet.mod.Module 或 C++ 接口加载。

注意

当只有一个输入时，其名称将是 data。当输入多于一个时，它们将被命名为 data0、data1 等。

参数

path (str) – 保存模型的路径。将创建两个文件 path-symbol.json 和 path-xxxx.params，其中 xxxx 是 4 位数的 epoch 编号。
epoch (int) – 保存模型的 epoch 编号。

forward(x, *args)[source]¶: 定义前向计算。参数可以是 NDArray 或 Symbol。

hybrid_forward(F, x, *args, **kwargs)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

hybridize(active=True, backend=None, backend_opts=None, **kwargs)[source]¶

递归地激活或停用 HybridBlock。对非混合子块无效。

参数

active (bool, default True) – 是否开启或关闭 hybrid 模式。
backend (str) – 后端名称，已注册在 SubgraphBackendRegistry 中，默认为 None
backend_opts (dict of user-specified options to pass to the backend for partitioning, optional) – 传递给 SubgraphProperty 的 PrePartition 和 PostPartition 函数的用户指定选项字典。
static_alloc (bool, default False) – 静态分配内存以提高速度。内存使用量可能会增加。
static_shape (bool, default False) – 对迭代之间的不变输入形状进行优化。同时必须将 static_alloc 设置为 True。输入形状的变化仍然允许，但速度较慢。

infer_shape(*args)[source]¶: 从输入推断 Parameters 的形状。

infer_type(*args)[source]¶: 从输入推断 Parameters 的数据类型。

optimize_for(x, *args, backend=None, backend_opts=None, **kwargs)[source]¶

对当前 HybridBlock 进行分区并为给定的后端进行优化，而不执行前向传播。原地修改 HybridBlock。

立即使用指定的后端对 HybridBlock 进行分区。结合了 hybridize API 中完成的工作和前向传播中一部分工作（不调用 CachedOp）。可以替代 hybridize 使用，之后可以调用 export 或运行推理。更多详情请参见 example/extensions/lib_subgraph/README.md 中的 README.md。

示例

# 分区然后导出到文件 block.optimize_for(x, backend=’myPart’) block.export(‘partitioned’)

# 分区然后运行推理 block.optimize_for(x, backend=’myPart’) block(x)

参数

x (NDArray) – 模型的第一个输入
*args (NDArray) – 模型的其他输入
backend (str) – 后端名称，已注册在 SubgraphBackendRegistry 中，默认为 None
backend_opts (dict of user-specified options to pass to the backend for partitioning, optional) – 传递给 SubgraphProperty 的 PrePartition 和 PostPartition 函数的用户指定选项字典。
static_alloc (bool, default False) – 静态分配内存以提高速度。内存使用量可能会增加。
static_shape (bool, default False) – 对迭代之间的不变输入形状进行优化。同时必须将 static_alloc 设置为 True。输入形状的变化仍然允许，但速度较慢。

register_child(block, name=None)[source]¶: 将 block 注册为 self 的子块。作为 self 属性分配的 Block 将自动注册。

register_op_hook(callback, monitor_all=False)[source]¶

递归地为 block 安装操作钩子。

参数

callback (function) – 接收一个字符串和一个 NDArrayHandle。
monitor_all (bool, default False) – 如果为 true，则同时监视输入和输出，否则仅监视输出。

class gluoncv.model_zoo.I3D_InceptionV1(nclass=1000, pretrained=False, pretrained_base=True, num_segments=1, num_crop=1, feat_ext=False, dropout_ratio=0.5, init_std=0.01, partial_bn=False, ctx=None, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Going Deeper with Convolutions”论文的Inception v1模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。由于填充原因，此实现与原始实现略有不同。

参数

nclass (int) – 训练数据集中的类别数。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.I3D_InceptionV3(nclass=1000, pretrained=False, pretrained_base=True, num_segments=1, num_crop=1, feat_ext=False, dropout_ratio=0.5, init_std=0.01, partial_bn=False, ctx=None, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

此模型定义文件由 Brais 编写并由 Yi 修改。

参数

nclass (int) – 训练数据集中的类别数。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.I3D_ResNetV1(nclass, depth, num_stages=4, pretrained=False, pretrained_base=True, feat_ext=False, num_segments=1, num_crop=1, spatial_strides=(1, 2, 2, 2), temporal_strides=(1, 1, 1, 1), dilations=(1, 1, 1, 1), out_indices=(0, 1, 2, 3), conv1_kernel_t=5, conv1_stride_t=2, pool1_kernel_t=1, pool1_stride_t=2, inflate_freq=(1, 1, 1, 1), inflate_stride=(1, 1, 1, 1), inflate_style='3x1x1', nonlocal_stages=(-1, ), nonlocal_freq=(0, 1, 1, 0), nonlocal_cfg=None, bn_eval=True, bn_frozen=False, partial_bn=False, frozen_stages=-1, dropout_ratio=0.5, init_std=0.01, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]¶

ResNet_I3D 主干网络。来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
depth (int, default is 50.) – ResNet 的深度，取值范围为 {18, 34, 50, 101, 152}。
num_stages (int, default is 4.) – ResNet 中阶段的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
spatial_strides (tuple of int.) – 每个阶段第一个块在空间维度上的步幅。
temporal_strides (tuple of int.) – 每个阶段第一个块在时间维度上的步幅。
dilations (tuple of int.) – 每个阶段的扩张率。
out_indices (tuple of int.) – 从 ResNet 的选定阶段收集特征，通常用于特征提取或辅助损失。
conv1_kernel_t (int, default is 5.) – ResNet 中第一个卷积层的核大小。
conv1_stride_t (int, default is 2.) – ResNet 中第一个卷积层的步幅。
pool1_kernel_t (int, default is 1.) – ResNet 中第一个池化层的核大小。
pool1_stride_t (int, default is 2.) – ResNet 中第一个池化层的步幅。
inflate_freq (tuple of int.) – 选择每个阶段中将哪些 2D 卷积层膨胀为 3D 卷积层。
inflate_stride (tuple of int.) – 每个阶段膨胀层的步幅。
inflate_style (str, default is '3x1x1'.) – 如何膨胀 2D 核，可以是 ‘3x1x1’ 或 ‘1x3x3’。
nonlocal_stages (tuple of int.) – 选择需要非局部块的阶段。
nonlocal_freq (tuple of int.) – 选择每个阶段插入非局部块的位置。
nonlocal_cfg (dict.) – 额外的 non-local 参数，例如 nonlocal_type=’gaussian’。
bn_eval (bool.) – 是否将 BN 层设置为 eval 模式，即冻结运行统计量（均值和方差）。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
frozen_stages (int.) – 需要冻结（所有参数固定）的阶段。-1 表示不冻结任何参数。
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。
ctx (Context, default CPU.) – 加载预训练权重的上下文。

hybrid_forward(F, x)[source]¶: I3D 网络的混合前向计算

init_weights(ctx)[source]¶: 使用其 2D 预训练权重初始化 I3D 网络。

class gluoncv.model_zoo.Inception3(classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, partial_bn=False, **kwargs)[source]¶

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

参数

dropout (float, default 0) – 每个密集层后的dropout率。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MaskRCNN(features, top_features, classes, mask_channels=256, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, target_roi_scale=1, num_fcn_convs=0, norm_layer=None, norm_kwargs=None, **kwargs)[source]¶

Mask RCNN 网络。

参数

features (gluon.HybridBlock) – 特征池化层之前的基础特征提取器。
top_features (gluon.HybridBlock) – 特征池化层之后的尾部特征提取器。
classes (iterable of str) – 类别名称，其长度为 num_class。
mask_channels (int, 默认值是 256) – 掩码预测中的通道数
rcnn_max_dets (int, 默认值是 1000) – RCNN 中保留的 ROI 数量。上限由 rpn_test_pre_nms 和 rpn_test_post_nms 中的较小者决定。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, 默认值是 1000) – 在 RPN 测试中，NMS 后返回的顶部提议结果数量。如果该值大于 rpn_test_pre_nms，则会被设置为 rpn_test_pre_nms。
target_roi_scale (int, 默认值 1) – 掩码输出 ROI / 输入 ROI 的比例。对于带有 FPN 的模型，此值通常为 2。
num_fcn_convs (int, 默认值 0) – 反卷积层之前的卷积块数量。对于 FPN 网络，此值通常为 4。

hybrid_forward(F, x, gt_box=None, gt_label=None)[source]¶

前向计算 Mask RCNN 网络。

训练和推理期间的行为不同。

参数

x (mxnet.nd.NDArray or mxnet.symbol) – 网络输入张量。
gt_box (type, 仅在训练期间需要) – 形状为 (1, N, 4) 的真实边界框张量。
gt_label (type, only required during training) – 真值标签张量，形状为 (B, 1, 4)。仅在训练期间需要。

返回

在推理期间，返回最终的类别 ID、置信度分数、边界框、分割掩码。

返回类型

(ids, scores, bboxes, masks)

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。

参数

classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。
reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典，或 {new\_name : old\_name} 映射字典，或者如果类别名称不变，则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('mask_rcnn_resnet50_v1b_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the first category in COCO
>>> net.reset_class(classes=['person'], reuse_weights={0:0})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':0})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

class gluoncv.model_zoo.MobileNet(multiplier=1.0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

参数

multiplier (float, 默认值 1.0) – 用于控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。
classes (int, default 1000) – 输出层的类别数。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MobileNetV2(multiplier=1.0, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

MobileNetV2 模型，出自`”倒残差和线性瓶颈

<https://arxiv.org/abs/1801.04381>`_ paper. :param multiplier: 控制模型大小的宽度乘数。实际通道数

参数

classes (int, default 1000) – 输出层的类别数。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MobilePose(base_name, base_attrs=('features'), num_joints=17, pretrained_base=False, pretrained_ctx=cpu(0), **kwargs)[source]¶

用于移动设备的姿态估计

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MonoDepth2(backbone, pretrained_base, num_input_images=1, scales=range(0, 4), num_output_channels=1, use_skips=True, ctx=cpu(0), **kwargs)[source]¶

Monodepth2

参数

backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。
pretrained_base (bool 或 str) – 指示骨干网络是否已预训练。如果为 True，则加载在 ImageNet 上训练的模型的权重。
num_input_images (int) – 输入序列的数量。深度编码器使用 1，姿态编码器大于 1。(默认值: 1)
num_ch_enc (list) – 编码器的通道数。
scales (list) – 损失函数中使用的尺度。（默认：range(4)）
num_output_channels (int) – 输出通道数。（默认：1）
Reference – Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow。“深入研究自监督单目深度估计。” ICCV, 2019

示例

>>> model = MonoDepth2(backbone='resnet18', pretrained_base=True)
>>> print(model)

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.MonoDepth2PoseNet(backbone, pretrained_base, num_input_images=2, num_input_features=1, num_frames_to_predict_for=2, stride=1, ctx=cpu(0), **kwargs)[source]¶

Monodepth2

参数

backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。
pretrained_base (bool 或 str) – 指示骨干网络是否已预训练。如果为 True，则加载在 ImageNet 上训练的模型的权重。
num_input_images (int) – 输入序列的数量。深度编码器使用 1，姿态编码器大于 1。(默认值: 2)
num_input_features (int) – 来自姿态网络编码器的输入特征图数量。(默认值: 1)
num_frames_to_predict_for (int) – 预测帧间姿态的数量；如果为 None，则等于 num_input_features - 1。(默认值: 2)
stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)
Reference – Clement Godard, Oisin Mac Aodha, Michael Firman, Gabriel Brostow。“深入研究自监督单目深度估计。” ICCV, 2019

示例

>>> model = MonoDepth2PoseNet(backbone='resnet18', pretrained_base=True)
>>> print(model)

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.P3D(nclass, block, layers, shortcut_type='B', block_design=('A', 'B', 'C'), dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, partial_bn=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

伪三维网络 (P3D)。使用伪三维残差网络学习时空表示。ICCV, 2017。 https://arxiv.org/abs/1711.10305

参数

nclass (int) – 训练数据集中的类别数。
block (Block, 默认值是 Bottleneck。) – 残差块的类。
layers (int 列表) – 每个块中的层数
block_design (str 元组。) – 每个块的不同设计，可以是 ‘A’、‘B’ 或 ‘C’。
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶: P3D 网络的 Hybrid 前向计算

class gluoncv.model_zoo.PSPNet(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, base_size=520, crop_size=480, **kwargs)[source]¶

金字塔场景解析网络

参数

class gluoncv.model_zoo.DeepLabV3(nclass, backbone='resnet50', aux=True, ctx=cpu(0), pretrained_base=True, height=None, width=None, base_size=520, crop_size=480, **kwargs)[source]¶
nclass (int) – 训练数据集的类别数。
backbone (string) – 预训练的膨胀骨干网络类型（默认：'resnet50'；'resnet50'、'resnet101'或'resnet152'）。
norm_layer (object) – 骨干网络中使用的归一化层（默认：mxnet.gluon.nn.BatchNorm；用于同步跨GPU批量归一化）。

aux (bool) – 辅助损失。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.PoseDecoder(num_ch_enc, num_input_features, num_frames_to_predict_for=2, stride=1)[source]¶

Monodepth2 PoseNet 的解码器

参数

Monodepth2的解码器
num_input_features (int) – 输入序列的数量。深度编码器使用 1，姿态编码器大于 1。(默认值: 2)
num_frames_to_predict_for (int) – 预测帧间姿态的数量；如果为 None，则等于 num_input_features - 1。(默认值: 2)
stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)

hybrid_forward(F, input_features)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.R2Plus1D(nclass, block, layers, dropout_ratio=0.5, num_segments=1, num_crop=1, feat_ext=False, init_std=0.001, ctx=None, partial_bn=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

R2+1D 网络。更近距离观察用于动作识别的时空卷积。CVPR, 2018。 https://arxiv.org/abs/1711.11248

参数

nclass (int) – 训练数据集中的类别数。
block (Block, 默认值是 Bottleneck。) – 残差块的类。
layers (int 列表) – 每个块中的层数
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶: R2+1D 网络的 Hybrid 前向计算

class gluoncv.model_zoo.RCNNTargetGenerator(num_class, max_pos=128, per_device_batch_size=1, means=(0.0, 0.0, 0.0, 0.0), stds=(0.1, 0.1, 0.2, 0.2))[source]¶

RCNN 目标编码器，用于生成匹配目标和回归目标值。

参数

num_class (int) – 正类别总数。
max_pos (int, 默认值是 128) – 正样本数量的上限。
per_device_batch_size (int, 默认值是 1) – 每个设备的批处理大小
means (float 可迭代对象, 默认值是 (0., 0., 0., 0.)) – 需要从回归目标中减去的均值。
stds (float 可迭代对象, 默认值是 (1, 1, 2, 2)) – 需要从回归目标中除以的标准差。

hybrid_forward(F, roi, samples, matches, gt_label, gt_box)[source]¶

组件可以处理批量图像

参数

roi ((B, N, 4), 输入提议) –
samples ((B, N), 值 +1: 正样本 / -1: 负样本。) –
matches ((B, N), 值 [0, M), 对应于 gt_label 和 gt_box 的索引。) –
gt_label ((B, M), 值 [0, num_class), 不包含背景类别。) –
gt_box ((B, M, 4), 输入的真实边界框角点坐标。) –

返回

cls_target ((B, N), 值 [0, num_class + 1), 包含背景类别。)
box_target ((B, N, C, 4), 只有前景类别有非零目标。)
box_weight ((B, N, C, 4), 只有前景类别有非零权重。)

class gluoncv.model_zoo.RCNNTargetSampler(num_image, num_proposal, num_sample, pos_iou_thresh, pos_ratio, max_num_gt)[source]¶

从 RCNN 提议中选择正/负样本的采样器

参数

num_image (int) – 输入图像数量。
num_proposal (int) – 输入提议数量。
num_sample (int) – RCNN 目标的样本数量。
pos_iou_thresh (float) – IOU 大于 pos_iou_thresh 的提议被视为正样本。IOU 小于 pos_iou_thresh 的提议被视为负样本。
pos_ratio (float) – pos_ratio 定义了要采样的正样本数量（pos_ratio * num_sample）。
max_num_gt (int) – 每个示例的最大真实框数量。这只是一个上限，不一定非常精确。但是，使用非常大的数字可能会影响训练速度。

hybrid_forward(F, rois, scores, gt_boxes)[source]¶

通过 for 循环处理 B=self._num_image。

参数

rois ((B, self._num_proposal, 4) 编码格式为 (x1, y1, x2, y2)) –
scores ((B, self._num_proposal, 1), 值范围 [0, 1] ，忽略值为 -1。) –
gt_boxes ((B, M, 4) 编码格式为 (x1, y1, x2, y2), 无效框的面积应为 0。) –

返回

rois ((B, self._num_sample, 4), 从提议中随机抽取)
samples ((B, self._num_sample), 值 +1: 正样本 / 0: 忽略 / -1: 负样本。)
matches ((B, self._num_sample), 值在 [0, M) 之间)

class gluoncv.model_zoo.ResNeSt(block, layers, cardinality=1, bottleneck_width=64, classes=1000, dilated=False, dilation=1, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, last_gamma=False, deep_stem=False, stem_width=32, avg_down=False, final_drop=0.0, use_global_stats=False, name_prefix='', dropblock_prob=0, input_size=224, use_splat=False, radix=2, avd=False, avd_first=False, split_drop_ratio=0)[source]¶

ResNeSt 模型 :param block: 残差块的类。选项包括 BasicBlockV1, BottleneckV1。 :type block: Block :param layers: 每个块中的层数 :type layers: int 列表 :param classes: 分类类别数量。 :type classes: int, 默认值 1000 :param dilated: 对预训练的 ResNet 应用扩张策略，产生步幅为 8 的模型，

参数

norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。
avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。
final_drop (float, 默认值 0.0) – 最终分类层之前的 Dropout 比率。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。
Reference –
- He, Kaiming, et al。“用于图像识别的深度残差学习。”
Proceedings of the IEEE conference on computer vision and pattern recognition. 2016. - Yu, Fisher, and Vladlen Koltun。“通过扩张卷积进行多尺度上下文聚合。”

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV1(block, layers, channels, classes=1000, thumbnail=False, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自论文 “用于图像识别的深度残差学习” 的 ResNet V1 模型。

参数

block (HybridBlock) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。
layers (int 列表) – 每个块中的层数
channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。
dropout (float, default 0) – 每个密集层后的dropout率。
thumbnail (bool, 默认值 False) – 启用缩略图。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV1b(block, layers, classes=1000, dilated=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, last_gamma=False, deep_stem=False, stem_width=32, avg_down=False, final_drop=0.0, use_global_stats=False, name_prefix='', **kwargs)[source]¶

预训练的 ResNetV1b 模型，在 conv5 产生步幅为 8 的特征图。

参数

block (Block) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。
layers (int 列表) – 每个块中的层数
dropout (float, default 0) – 每个密集层后的dropout率。
dilated (bool, 默认值 False) – 对预训练的 ResNet 应用扩张策略，产生步幅为 8 的模型，通常用于语义分割。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。
avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。
final_drop (float, 默认值 0.0) – 最终分类层之前的 Dropout 比率。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

aux (bool) – 辅助损失。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNetV2(block, layers, channels, classes=1000, thumbnail=False, last_gamma=False, use_se=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

ResNet V2 模型，出自“深度残差网络中的恒等映射” 论文。

参数

block (HybridBlock) – 残差块的类。选项包括 BasicBlockV1, BottleneckV1。
layers (int 列表) – 每个块中的层数
channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。
dropout (float, default 0) – 每个密集层后的dropout率。
thumbnail (bool, 默认值 False) – 启用缩略图。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResNet_SlowFast(num_classes, depth, pretrained=None, pretrained_base=True, feat_ext=False, num_segments=1, num_crop=1, num_stages=4, spatial_strides=(1, 2, 2, 2), temporal_strides=(1, 1, 1, 1), dilations=(1, 1, 1, 1), out_indices=(0, 1, 2, 3), conv1_kernel_t=1, conv1_stride_t=1, pool1_kernel_t=1, pool1_stride_t=1, frozen_stages=-1, inflate_freq=(0, 0, 1, 1), inflate_stride=(1, 1, 1, 1), inflate_style='3x1x1', nonlocal_stages=(-1, ), nonlocal_freq=(0, 0, 0, 0), nonlocal_cfg=None, bn_eval=False, bn_frozen=False, partial_bn=False, dropout_ratio=0.5, init_std=0.01, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]¶

ResNe(x)t_SlowFast 骨干网络。 :param depth: Resnet 的深度，可选择 {50, 101, 152}。 :type depth: int :param num_stages: Resnet 阶段数，通常为 4。 :type num_stages: int :param strides: 每个阶段第一个块的步幅。 :type strides: Sequence[int] :param dilations: 每个阶段的扩张率。 :type dilations: Sequence[int] :param out_indices: 输出来自哪些阶段。 :type out_indices: Sequence[int] :param frozen_stages: 需要冻结的阶段（所有参数固定）。-1 表示

参数

bn_eval (bool) – 是否将 BN 层设置为评估模式，即冻结运行统计数据（均值和方差）。
bn_frozen (bool) – 是否冻结 BN 层的权重和偏置。

hybrid_forward(F, x)[source]¶: I3D_slow 网络的 Hybrid 前向计算

init_weights(ctx)[source]¶: 初始化 I3D_slow 网络。

class gluoncv.model_zoo.ResNext(layers, cardinality, bottleneck_width, classes=1000, last_gamma=False, use_se=False, deep_stem=False, avg_down=False, stem_width=64, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

参数

layers (int 列表) – 每个块中的层数
cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
dropout (float, default 0) – 每个密集层后的dropout率。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
deep_stem (bool, 默认值 False) – 是否用 3 个 3x3 卷积层替换 7x7 conv1 层。
stem_width (int, 默认值 64) – stem 中间层的宽度。
avg_down (bool, default False) – 是否使用平均池化进行阶段/下采样之间的投影跳跃连接。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResidualAttentionModel(scale, m, classes=1000, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

AttentionModel 模型，出自“用于图像分类的残差注意力网络” 论文。输入尺寸为 224 x 224。

参数

scale (tuple) – 网络尺度 p, t, r。
m (tuple) – 网络尺度 m。网络尺度定义为 36m + 20。通常情况下，m 是一个 (m-1, m, m+1) 的元组，但 m==1 时为 (1, 1, 1)。
dropout (float, default 0) – 每个密集层后的dropout率。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.ResnetEncoder(backbone, pretrained, num_input_images=1, root='/root/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

Monodepth2 的编码器

参数

backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。
pretrained (bool 或 str) – 指示骨干网络是否已预训练。如果为 True，则加载在 ImageNet 上训练的模型的权重。
num_input_images (int) – 输入序列的数量。深度编码器使用 1，姿态编码器大于 1。(默认值: 1)
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

hybrid_forward(F, input_image)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BasicBlockV1(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

BasicBlock V1，出自“用于图像识别的深度残差学习” 论文。这用于 SE_ResNet V1 的 18、34 层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BasicBlockV2(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

BasicBlock V2，出自“深度残差网络中的恒等映射” 论文。这用于 SE_ResNet V2 的 18、34 层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BottleneckV1(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

Bottleneck V1，出自“用于图像识别的深度残差学习” 论文。这用于 SE_ResNet V1 的 50, 101, 152 层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_BottleneckV2(channels, stride, downsample=False, in_channels=0, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

Bottleneck V2，出自“深度残差网络中的恒等映射” 论文。这用于 SE_ResNet V2 的 50, 101, 152 层。

参数

channels (int) – 输出通道数。
stride (int) – 步长大小。
downsample (bool, default False) – 是否对输入进行下采样。
in_channels (int, default 0) – 输入通道数。默认值为0，从图中推断。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_ResNetV1(block, layers, channels, classes=1000, thumbnail=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

SE_ResNet V1 模型，出自“用于图像识别的深度残差学习” 论文。

参数

block (HybridBlock) – 残差块的类。选项包括 SE_BasicBlockV1, SE_BottleneckV1。
layers (int 列表) – 每个块中的层数
channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。
dropout (float, default 0) – 每个密集层后的dropout率。
thumbnail (bool, 默认值 False) – 启用缩略图。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SE_ResNetV2(block, layers, channels, classes=1000, thumbnail=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

SE_ResNet V2 模型，出自“深度残差网络中的恒等映射” 论文。

参数

block (HybridBlock) – 残差块的类。选项包括 SE_BasicBlockV1, SE_BottleneckV1。
layers (int 列表) – 每个块中的层数
channels (int 列表) – 每个块中的通道数。长度应比 layers 列表大一。
dropout (float, default 0) – 每个密集层后的dropout率。
thumbnail (bool, 默认值 False) – 启用缩略图。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SMOTTracker(motion_model='no', anchor_array=None, use_motion=True, tracking_classes=[], match_top_k=10, track_keep_alive_thresh=0.1, new_track_iou_thresh=0.3, track_nms_thresh=0.5, gpu_id=0, anchor_assignment_method='iou', joint_linking=False, tracktor=None)[source]¶

SMOT 跟踪器的实现。使用跟踪器的步骤如下： 0. 从 SSD 设置锚框 1. 首先调用 tracker.predict(new_frame) 2. 然后获取跟踪锚框信息 3. 使用跟踪锚框信息运行检测器（detractor） 4. 运行 tracker.update(new_detection, track_info)。

process_frame_sequence(frame_iterator, tracktor)[source]¶

参数

frame_iterator (每一步输出一个元组，包含 (frame_id, frame_data)) –
tracktor –

返回

results_iter

返回类型

一个响应迭代器，每帧包含一个元组 (frame_id, frame_rst)

class gluoncv.model_zoo.SSD(network, base_size, features, num_filters, sizes, ratios, steps, classes, use_1x1_transition=True, use_bn=True, reduce_ratio=1.0, min_depth=128, global_pool=False, pretrained=False, stds=(0.1, 0.1, 0.2, 0.2), nms_thresh=0.45, nms_topk=400, post_nms=100, anchor_alloc_size=128, ctx=cpu(0), norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, root='~/.mxnet/models', minimal_opset=False, predictors_kernel=(3, 3), predictors_pad=(1, 1), anchor_generator=<class 'gluoncv.model_zoo.ssd.anchor.SSDAnchorGenerator'>, **kwargs)[source]¶

单次目标检测网络：https://arxiv.org/abs/1512.02325。

参数

network (string 或 None) – 基础网络的名称，如果使用 None，将直接从 features 实例化基础网络，而不是组合。
base_size (int) – 基础输入尺寸，指定此参数是为了使 SSD 支持动态输入形状。
features (str 列表 或 mxnet.gluon.HybridBlock) – 要提取的中间特征或一个多输出网络。如果 network 为 None，则 features 应是一个多输出网络。
num_filters (int 列表) – 附加层的通道数，如果 network 为 None 则忽略此参数。
sizes (float 可迭代对象) – 锚框的尺寸，这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如，一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90]，然后分别转换为两个阶段的 [30, 60] 和 [60, 90]。更多详情，请参考原始论文。
ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。
steps (int 列表) – 每个输出层中锚框的步长。
classes (str 可迭代对象) – 所有类别的名称。
use_1x1_transition (bool) – 是否使用 1x1 卷积作为附加层之间的过渡层，这有助于有效减少模型容量。
use_bn (bool) – 是否在每个附加的卷积层后使用 BatchNorm 层。
reduce_ratio (float) – 过渡层的通道缩减比率 (0, 1)。
min_depth (int) – 过渡层的最小通道数。
global_pool (bool) – 是否将全局平均池化层作为最后一个输出层。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
stds (tuple of float, default is (0.1, 0.1, 0.2, 0.2)) – 用于除/乘编码框值的标准差值。
nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。
nms_topk (int, default is 400) –

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection
结果都用于NMS。
post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。
anchor_alloc_size (tuple of int, default is (128, 128)) – 供高级用户使用。定义 anchor_alloc_size 以生成足够大的锚点图，该图稍后会保存在参数中。在推理过程中，我们通过裁剪锚点图的相应区域来支持任意输入图像。这使得我们可以导出符号，以便在 c++、scalar 等环境运行。
ctx (mx.Context) – 网络上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。这仅适用于指定了 norm_layer 的基础网络，如果基础网络（例如 VGG）不接受此参数则忽略。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。
root (str) – 模型存储的根路径，默认为 ‘~/.mxnet/models’
minimal_opset (bool) – 我们有时会添加特殊的运算符来加速训练/推理，但是，为了导出到第三方编译器，我们希望利用最广泛使用的运算符。如果 minimal_opset 为 True，网络将使用一组最小化的运算符，例如适用于 TVM。
predictor_kernel (tuple of int. default is (3,3)) – 预测器核的维度
predictor_pad (tuple of int. default is (1,1)) – 预测器核卷积的填充。
anchor_generator (default is SSDAnchorGenerator) – 要使用的锚点生成器。默认是 SSDAnchorGenerator，对应于 SSD 发布文章。此参数可用于其他自定义锚点生成器，例如 LiteAnchorGenerator。

hybrid_forward(F, x)[source]¶: 混合前向

property num_classes¶

返回前景类别的数量。

返回: 前景类别数
返回类型: int

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。

参数

classes (iterable of str) – 新的类别。例如[‘apple’, ‘orange’]。
reuse_weights (dict) – 一个 {new\_integer : old\_integer} 或映射字典，或 {new\_name : old\_name} 映射字典，或者如果类别名称不变，则为 [name0, name1,...] 列表。这允许新的预测器重用指定的先前训练过的权重。

示例

>>> net = gluoncv.model_zoo.get_model('ssd_512_resnet50_v1_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

set_nms(nms_thresh=0.45, nms_topk=400, post_nms=100)[source]¶

set_nms(nms_thresh=0, nms_topk=400, post_nms=100)[source]¶

参数

nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。
nms_topk (int, default is 400) –

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection
结果都用于NMS。
post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。

返回

返回类型

nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

class gluoncv.model_zoo.SiamRPN(bz=1, is_train=False, ctx=cpu(0), **kwargs)[source]¶

hybrid_forward(F, template, search)[source]¶: 仅用于训练的 SiamRPN 网络混合前向。

template(zinput)[source]¶: 模板 z 分支

track(xinput)[source]¶

跟踪 x 分支

参数: xinput (np.ndarray) – 预测帧
返回: 预测帧结果
返回类型: 字典

class gluoncv.model_zoo.SimplePoseResNet(base_name='resnet50_v1b', pretrained_base=False, pretrained_ctx=cpu(0), num_joints=17, num_deconv_layers=3, num_deconv_filters=(256, 256, 256), num_deconv_kernels=(4, 4, 4), final_conv_kernel=1, deconv_with_bias=False, **kwargs)[source]¶

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.SlowFast(nclass, block=<class 'gluoncv.model_zoo.action_recognition.slowfast.Bottleneck'>, layers=None, num_block_temp_kernel_fast=None, num_block_temp_kernel_slow=None, pretrained=False, pretrained_base=False, feat_ext=False, num_segments=1, num_crop=1, bn_eval=True, bn_frozen=False, partial_bn=False, frozen_stages=-1, dropout_ratio=0.5, init_std=0.01, alpha=8, beta_inv=8, fusion_conv_channel_ratio=2, fusion_kernel_size=5, width_per_group=64, num_groups=1, slow_temporal_stride=16, fast_temporal_stride=2, slow_frames=4, fast_frames=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, ctx=None, **kwargs)[source]¶

来自“SlowFast Networks for Video Recognition”论文的SlowFast网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
block (HybridBlock 类型) – ResNet 的构建块，可以是 Basic 或 Bottleneck。
layers (list 或 tuple, 默认 None) – ResNet 中的阶段数量，例如 ResNet50 中的 [3, 4, 6, 3]。
num_block_temp_kernel_fast (int, 默认 None) – 如果当前块包含超过 NUM_BLOCK_TEMP_KERNEL 的块，则其余块使用 temporal kernel 为 1。
num_block_temp_kernel_slow (int, 默认 None) – 如果当前块包含超过 NUM_BLOCK_TEMP_KERNEL 的块，则其余块使用 temporal kernel 为 1。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
bn_eval (bool.) – 是否将 BN 层设置为 eval 模式，即冻结运行统计量（均值和方差）。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
frozen_stages (int.) – 需要冻结（所有参数固定）的阶段。-1 表示不冻结任何参数。
dropout_ratio (float, default is 0.5.) – dropout 层的 dropout 率。值越大，防止过拟合的能力越强。
init_std (float, default is 0.001.) – 初始化全连接层时的标准差值。
alpha (int, 默认 8) – 对应于慢速和快速路径之间的帧率降低比例。
beta_inv (int, 默认 8) – 对应于慢速和快速路径之间的通道减少比例的倒数。
fusion_conv_channel_ratio (int, 默认 2) – 慢速和快速路径之间的通道维度比例。
fusion_kernel_size (int, 默认 5) – 用于将信息从快速路径融合到慢速路径的卷积核维度。
width_per_group (int, 默认 64) – 每组的宽度 (64 -> ResNet; 4 -> ResNeXt)。
num_groups (int, 默认 1) – 卷积的组数。Num_groups=1 表示标准 ResNet 类网络，num_groups>1 表示 ResNeXt 类网络。
slow_temporal_stride (int, 默认 16) – SlowFast 网络慢速分支中视频帧稀疏采样的时序步长。
fast_temporal_stride (int, 默认 2) – SlowFast 网络快速分支中视频帧稀疏采样的时序步长。
slow_frames (int, 默认 4) – 用作慢速分支输入的帧数。
fast_frames (int, 默认 32) – 用作快速分支输入的帧数。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。
ctx (Context, default CPU.) – 加载预训练权重的上下文。

FastPath(F, x)[source]¶: 快速分支的混合前向

SlowPath(F, x, lateral)[source]¶: 慢速分支的混合前向

hybrid_forward(F, x)[source]¶: SlowFast 网络的混合前向

class gluoncv.model_zoo.SqueezeNet(version, classes=1000, **kwargs)[source]¶

SqueezeNet 模型，来自 “SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size” 论文。SqueezeNet 1.1 模型，来自官方 SqueezeNet 仓库。SqueezeNet 1.1 计算量比 SqueezeNet 1.0 少 2.4 倍，参数略少，且不牺牲精度。

参数

version (str) – SqueezeNet 版本。选项包括 ‘1.0’, ‘1.1’。
dropout (float, default 0) – 每个密集层后的dropout率。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Track(mean, track_id, source, keep_alive_thresh=0.1, max_missing=30, attributes=None, class_id=0, linked_id=None)[source]¶

此类代表 SMOT 跟踪器中使用的轨迹/轨迹片段。它具有以下属性：

mean：代表跟踪对象当前状态（位置）的 4 元组（x0, y0, x1, y1） track_id：轨迹的数值 ID age：自首次出现以来的时间步长 time_since_update：自上次更新其位置状态以来的时间步长 state：轨迹的状态，可以是 TrackState 中的一种 confidence_score：当前时间步的跟踪置信度

source：一个包含 (anchor_indices, anchor_weights) 的元组 attributes：对象的附加属性的 np.ndarray ***************************************************

它还具有以下配置： keep_alive_thresh：维持轨迹处于 Active 状态的最小跟踪/检测置信度 max_missing：当轨迹丢失时，我们在将其标记为已删除之前，最多会搜索的时间步长 ***************************************************

is_active()[source]¶: 如果此轨迹已确认，则返回 True。

is_deleted()[source]¶: 如果此轨迹已死亡且应被删除，则返回 True。

is_mising()[source]¶: 如果此轨迹是暂定的（未确认），则返回 True。

mark_missed()[source]¶: 将此轨迹标记为丢失（在当前时间步没有关联）。

predict(motion_model=None)[source]¶

参数: motion_model (如果不为 None，则根据其历史预测此轨迹的运动) –

update(bbx, source=None, attributes=None)[source]¶: 更新轨迹的状态。我们将覆盖预测的轨迹位置。更新轨迹将保持或翻转其状态为 Active。如果检测置信度低于 keep_alive_threshold，我们将此轨迹标记为丢失。 ———- bbx : 此对象的新检测位置 attributes：此对象在此帧的一些有用属性，例如关键点

class gluoncv.model_zoo.VGG(layers, filters, classes=1000, batch_norm=False, **kwargs)[source]¶

VGG 模型，来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文。

参数

layers (list of int) – 每个特征块中的层数。
filters (list of int) – 每个特征块中的滤波器数量。列表长度应与层数匹配。
dropout (float, default 0) – 每个密集层后的dropout率。
batch_norm (bool, 默认 False) – 是否使用批归一化。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.VGGAtrousExtractor(layers, filters, extras, batch_norm=False, **kwargs)[source]¶

VGG 空洞卷积多层特征提取器，产生多个输出特征图。

参数

layers (list of int) – VGG 基础网络的层数。
filters (list of int) – 每层的卷积滤波器数量。
extras (list of list) – 额外层配置。
batch_norm (bool) – 如果为 True，将使用 BatchNorm 层。

hybrid_forward(F, x, init_scale)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Xception65(classes=1000, output_stride=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None)[source]¶

修改后的对齐 Xception

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.Xception71(classes=1000, output_stride=32, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None)[source]¶

修改后的对齐 Xception

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

class gluoncv.model_zoo.YOLOV3(stages, channels, anchors, strides, classes, alloc_size=(128, 128), nms_thresh=0.45, nms_topk=400, post_nms=100, pos_iou_thresh=1.0, ignore_iou_thresh=0.7, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

YOLO V3 检测网络。参考：https://arxiv.org/pdf/1804.02767.pdf。:param stages: 分阶段的特征提取块。

参数

channels (iterable) – 每个附加阶段的卷积通道数。len(channels) 应与 len(stages) 匹配。
num_class (int) – 前景对象的数量。
anchors (iterable) – 锚点设置。len(anchors) 应与 len(stages) 匹配。
strides (iterable) – 特征图的步长。len(strides) 应与 len(stages) 匹配。
alloc_size (tuple of int, 默认值 (128, 128)) – 供高级用户使用。定义 alloc_size 以生成足够大的锚点图，该图稍后将保存在参数中。在推理过程中，我们通过裁剪锚点图的相应区域来支持任意输入图像。这使得我们可以导出符号，以便在 c++、Scalar 等环境运行。
nms_thresh (float, default is 0.45.) – 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。
nms_topk (int, default is 400) –

对前k个检测结果应用NMS，使用-1禁用，以便每个Detection
结果都用于NMS。
post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。
pos_iou_thresh (float, 默认值 1.0) – 与真实对象匹配的真锚点的 IOU 阈值。未实现 ‘pos_iou_thresh < 1’。
ignore_iou_thresh (float) – IOU 在 range(ignore_iou_thresh, pos_iou_thresh) 范围内的锚点不会受到目标性分数的惩罚。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

property classes¶: 返回（非背景）类别的名称。:returns: （非背景）类别的名称。:rtype: iterable of str

hybrid_forward(F, x, *args)[source]¶

YOLOV3 网络混合前向。:param F: 如果已混合则是 mxnet.sym，否则是 mxnet.nd。:type F: mxnet.nd or mxnet.sym :param x: 输入数据。:type x: mxnet.nd.NDArray :param *args: 在训练期间，需要额外的输入

返回: 在推理期间，以 (B, N, 6) 的形状返回检测结果，格式为 (cid, score, xmin, ymin, xmax, ymax)。在训练期间，仅返回损失：(obj_loss, center_loss, scale_loss, cls_loss)。
返回类型: (tuple of) mxnet.nd.NDArray

property num_class¶: （非背景）类别的数量。:returns: （非背景）类别的数量。:rtype: int

reset_class(classes, reuse_weights=None)[source]¶

重置类别和类别预测器。:param classes: 新的类别。例如 [‘apple’, ‘orange’]。:type classes: iterable of str :param reuse_weights: 一个 {new_integer : old_integer} 或映射字典，或 {new_name : old_name} 映射字典，

示例

>>> net = gluoncv.model_zoo.get_model('yolo3_darknet53_voc', pretrained=True)
>>> # use direct name to name mapping to reuse weights
>>> net.reset_class(classes=['person'], reuse_weights={'person':'person'})
>>> # or use interger mapping, person is the 14th category in VOC
>>> net.reset_class(classes=['person'], reuse_weights={0:14})
>>> # you can even mix them
>>> net.reset_class(classes=['person'], reuse_weights={'person':14})
>>> # or use a list of string if class name don't change
>>> net.reset_class(classes=['person'], reuse_weights=['person'])

set_nms(nms_thresh=0.45, nms_topk=400, post_nms=100)[source]¶

设置非极大值抑制参数。:param nms_thresh: 非极大值抑制阈值。您可以指定 < 0 或 > 1 来禁用 NMS。:type nms_thresh: float, 默认值 0.45。:param nms_topk

参数: post_nms (int, default is 100) – 只返回前post\_nms个检测结果，其余丢弃。此数量基于COCO数据集，每张图像最多有100个对象。如果预期更多对象，可以调整此数量。可以使用-1返回所有检测结果。
返回
返回类型: nms_thresh (float, default is 0.) – 非极大值抑制阈值。可以指定 < 0 或 > 1 来禁用NMS。默认情况下禁用NMS。

gluoncv.model_zoo.abstractmethod(funcobj)[source]¶

一个指示抽象方法的装饰器。

要求元类是 ABCMeta 或其派生类。具有派生自 ABCMeta 的元类的类除非所有抽象方法都被覆盖，否则无法实例化。抽象方法可以使用任何正常的“super”调用机制来调用。

用法

gluoncv.model_zoo.alexnet(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

来自“One weird trick…”论文的AlexNet模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

gluoncv.model_zoo.alexnetlegacy(**kwargs)[source]¶: Alexnetlegacy

gluoncv.model_zoo.bbox_iou(bbox_a, bbox_b, offset=0)[source]¶

计算两个边界框的交并比 (IOU)。

参数

bbox_a (numpy.ndarray) – 形状为 $(N, 4)$ 的 ndarray。
bbox_b (numpy.ndarray) – 形状为 $(M, 4)$ 的 ndarray。
offset (float or int, 默认值 0) – offset 用于控制宽度（或高度）是否计算为 (right - left + offset)。请注意，对于归一化的边界框，其范围在 [0, 1] 内，offset 必须为 0。

返回

形状为 $(N, M)$ 的 ndarray，表示 bbox_a 和 bbox_b 中每对边界框之间的 IOU。

返回类型

numpy.ndarray

gluoncv.model_zoo.c3d_kinetics400(nclass=400, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, **kwargs)[source]¶

在 Kinetics400 数据集上训练的卷积 3D 网络 (C3D)。Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV, 2015. https://arxiv.org/abs/1412.0767

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.center_net_dla34_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 dla34 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形 v2 卷积层的 dla34 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形卷积层的 dla34 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_dla34_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 dla34 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_large_duc_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 mobilenetv3_large 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_large_duc_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 mobilenetv3_large 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_small_duc_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 mobilenetv3_small 为基础网络，带有 DUC 层，在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_mobilenetv3_small_duc_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 mobilenetv3_small 为基础网络，带有 DUC 层，在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet101_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形 v2 卷积层的 resnet101_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形卷积层的 resnet101_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet101_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet101_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet18_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形 v2 卷积层的 resnet18_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形 v2 卷积层的 resnet18_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet18_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet18_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet50_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_dcnv2_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形 v2 卷积层的 resnet50_v1b 为基础网络在 coco 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_dcnv2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以带有可变形卷积层的 resnet50_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.center_net_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

以 resnet50_v1b 为基础网络在 voc 数据集上的 Center net。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

class gluoncv.model_zoo.cifar_ResidualAttentionModel(scale, m, classes=10, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。输入大小为 32 x 32。

参数

scale (tuple) – 网络尺度 p, t, r。
m (tuple) – 网络尺度 m。网络尺度定义为 36m + 20。通常情况下，m 是一个 (m-1, m, m+1) 的元组，但 m==1 时为 (1, 1, 1)。
classes (int, 默认 10) – 分类类别数量。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

hybrid_forward(F, x)[source]¶

重写以构造此Block的符号图。

参数

x (Symbol or NDArray) – 第一个输入张量。
\*args (list of Symbol or list of NDArray) – 额外的输入张量。

gluoncv.model_zoo.cifar_residualattentionnet452(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_residualattentionnet56(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_residualattentionnet92(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet110_v1(**kwargs)[source]¶

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-110 V1 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet110_v2(**kwargs)[source]¶

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-110 V2 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet20_v1(**kwargs)[source]¶

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-20 V1 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet20_v2(**kwargs)[source]¶

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-20 V2 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet56_v1(**kwargs)[source]¶

来自论文 “用于图像识别的深度残差学习” 的 CIFAR10 的 ResNet-56 V1 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_resnet56_v2(**kwargs)[source]¶

来自论文 “深度残差网络中的 Identity Mappings” 的 CIFAR10 的 ResNet-56 V2 模型。

参数

pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_wideresnet16_10(**kwargs)[source]¶

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-16-10 模型。

参数

drop_rate (float) – dropout 的比率。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_wideresnet28_10(**kwargs)[source]¶

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-28-10 模型。

参数

drop_rate (float) – dropout 的比率。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cifar_wideresnet40_8(**kwargs)[source]¶

来自论文 “Wide Residual Networks” 的 CIFAR10 的 WideResNet-40-8 模型。

参数

drop_rate (float) – dropout 的比率。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.cpu(device_id=0)[source]¶

返回一个 CPU context。

这个函数是 Context('cpu', device_id) 的一个快捷方式。对于大多数操作，如果未指定 context，则默认 context 为 cpu()。

示例

>>> with mx.cpu():
...     cpu_array = mx.nd.ones((2, 3))
>>> cpu_array.context
cpu(0)
>>> cpu_array = mx.nd.ones((2, 3), ctx=mx.cpu())
>>> cpu_array.context
cpu(0)

参数: device_id (int, optional) – 设备的设备 ID。对于 CPU，不需要 device_id。包含此参数是为了使接口与 GPU 兼容。
返回: context – 相应的 CPU context。
返回类型: Context

gluoncv.model_zoo.custom_faster_rcnn_fpn(classes, transfer=None, dataset='custom', pretrained_base=True, base_network_name='resnet18_v1b', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, sym_norm_layer=None, sym_norm_kwargs=None, num_fpn_filters=256, num_box_head_conv=4, num_box_head_conv_filters=256, num_box_head_dense_filters=1024, **kwargs)[source]¶

带有 resnet 基础网络和 FPN 的 Faster RCNN 模型，用于自定义数据集。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
transfer (str or None) – 用于迁移的数据集。如果不是 None，将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重，由参数指定。
dataset (str, default 'custom') – 附加到网络名称的数据集名称
pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
base_network_name (str, default 'resnet18_v1b') – Mask RCNN 的基础网络。目前支持：‘resnet18_v1b’、‘resnet50_v1b’ 和 ‘resnet101_v1d’
norm_layer (nn.HybridBlock, default nn.BatchNorm) – 要使用的 Gluon 归一化层。默认为冻结的批归一化层。
norm_kwargs (dict) – Gluon 归一化层的关键字参数
sym_norm_layer (nn.SymbolBlock, default None) – 在 FPN 中使用的符号归一化层。这是因为 FPN 是使用 SymbolBlock 实现的。默认为 None，表示在 FPN 中不使用归一化层。
sym_norm_kwargs (dict) – 在 FPN 中使用的符号归一化层的关键字参数。
num_fpn_filters (int, default 256) – FPN 输出层的过滤器数量。
num_box_head_conv (int, default 4) – 如果批归一化未冻结，框头中要使用的卷积层数量。
num_box_head_conv_filters (int, default 256) – 框头中卷积层的过滤器数量。仅在批归一化未冻结时适用。
num_box_head_dense_filters (int, default 1024) – 框头中最后一个全连接层的隐藏单元数量。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.custom_mask_rcnn_fpn(classes, transfer=None, dataset='custom', pretrained_base=True, base_network_name='resnet18_v1b', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, sym_norm_layer=None, sym_norm_kwargs=None, num_fpn_filters=256, num_box_head_conv=4, num_box_head_conv_filters=256, num_box_head_dense_filters=1024, **kwargs)[source]¶

带有 resnet 基础网络和 FPN 的 Mask RCNN 模型，用于自定义数据集。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
transfer (str or None) – 用于迁移的数据集。如果不是 None，将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重，由参数指定。
dataset (str, default 'custom') – 附加到网络名称的数据集名称
pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
base_network_name (str, default 'resnet18_v1b') – Mask RCNN 的基础网络。目前支持：‘resnet18_v1b’、‘resnet50_v1b’ 和 ‘resnet101_v1d’
norm_layer (nn.HybridBlock, default nn.BatchNorm) – 要使用的 Gluon 归一化层。默认为冻结的批归一化层。
norm_kwargs (dict) – Gluon 归一化层的关键字参数
sym_norm_layer (nn.SymbolBlock, default None) – 在 FPN 中使用的符号归一化层。这是因为 FPN 是使用 SymbolBlock 实现的。默认为 None，表示在 FPN 中不使用归一化层。
sym_norm_kwargs (dict) – 在 FPN 中使用的符号归一化层的关键字参数。
num_fpn_filters (int, default 256) – FPN 输出层的过滤器数量。
num_box_head_conv (int, default 4) – 如果批归一化未冻结，框头中要使用的卷积层数量。
num_box_head_conv_filters (int, default 256) – 框头中卷积层的过滤器数量。仅在批归一化未冻结时适用。
num_box_head_dense_filters (int, default 1024) – 框头中最后一个全连接层的隐藏单元数量。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.custom_ssd(base_network_name, base_size, filters, sizes, ratios, steps, classes, dataset, pretrained_base, **kwargs)[source]¶: 自定义 SSD 模型。

gluoncv.model_zoo.custom_yolov3(base_network_name, filters, anchors, strides, classes, dataset, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶: 自定义 YOLO 模型。

gluoncv.model_zoo.darknet53(**kwargs)[source]¶

Darknet v3 53 层网络。参考文献：https://arxiv.org/pdf/1804.02767.pdf。

参数

norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

Darknet 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.densenet121(**kwargs)[source]¶

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 121 层模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.densenet161(**kwargs)[source]¶

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 161 层模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.densenet169(**kwargs)[source]¶

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 169 层模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.densenet201(**kwargs)[source]¶

来自论文 “Densely Connected Convolutional Networks” 的 DenseNet-BC 201 层模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.doublehead_rcnn_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“(2019). Rethinking Classification and Localization for Object Detection.”的 Double Head Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_resnet101_v1d_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_resnet50_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest101_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]¶

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest101_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest269_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]¶

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest269_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnest50_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]¶

使用 ResNeSt 的 Faster R-CNN。ResNeSt: Split Attention Network”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnest50_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnet101_v1d_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_fpn_syncbn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, num_devices=0, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”和“Lin, T., Dollar, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2016). Feature Pyramid Networks for Object Detection”的带有 FPN 的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_fpn_syncbn_resnet50_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数

pretrained (bool, optional, default is False) – 加载预训练权重。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet101_v1d_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_resnet101_v1d_custom(classes, transfer=None, pretrained_base=True, pretrained=False, **kwargs)[source]¶

带有 resnet101_v1d 基础网络的 Faster RCNN 模型，用于自定义数据集。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
transfer (str or None) – 如果不是 None，将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重。
pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.faster_rcnn_resnet101_v1d_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数

pretrained (bool, optional, default is False) – 加载预训练权重。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet101_v1d_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.faster_rcnn_resnet50_v1b_custom(classes, transfer=None, pretrained_base=True, pretrained=False, **kwargs)[source]¶

在自定义数据集上使用 resnet50_v1b 基础网络的 Faster RCNN 模型。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
transfer (str or None) – 如果不是 None，将尝试重用在其他数据集上训练的 Faster RCNN 网络的预训练权重。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

混合型 Faster RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.faster_rcnn_resnet50_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

来自论文“Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks”的 Faster RCNN 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_faster_rcnn_resnet50_v1b_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_Siam_RPN(base_name, bz=1, is_train=False, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

获取 Siam_RPN 网络，如果存在预训练模型则获取预训练模型

参数

base_name (str) – 骨干网络模型名称
bz (int) – 训练时的 batch size，测试时 bz = 1
is_train (str) – is_train 为 True 表示训练，False 表示测试
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。

返回

一个 SiamRPN 跟踪网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_base_network(name, **kwargs)[source]¶: 获取 CenterNet 基础网络

gluoncv.model_zoo.get_center_net(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

获取一个 CenterNet 实例。

参数

name (str or None) – 模型名称，如果使用 None，则必须指定 features 为 HybridBlock。
dataset (str) – 数据集名称。这用于标识模型名称，因为在不同数据集上训练的模型会非常不同。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。

返回

一个 CenterNet 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_cifar_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数

version (int) – ResNet 的版本。选项有 1, 2。
num_layers (int) – 层数。必须是 6*n+2 形式的整数，例如 20, 56, 110, 164。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_cifar_wide_resnet(num_layers, width_factor=1, drop_rate=0.0, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数

num_layers (int) – 层数。必须是 6*n+2 形式的整数，例如 20, 56, 110, 164。
width_factor (int) – 应用于原始 resnet 通道数的宽度因子。
drop_rate (float) – dropout 的比率。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_darknet(darknet_version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

根据 version 和 num_layers 信息获取 Darknet。

参数

darknet_version (str) – Darknet 版本，选项有 [‘v3’]。
num_layers (int) – 层数。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

Darknet 网络。

返回类型

mxnet.gluon.HybridBlock

示例

>>> model = get_darknet('v3', 53, pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

DeepLabV3 :param dataset: 模型预训练使用的数据集。（pascal_voc, pascal_aug, ade20k, coco, citys）:type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)

gluoncv.model_zoo.get_deeplab_plus(dataset='pascal_voc', backbone='xception', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

DeepLabV3Plus :param dataset: 模型预训练使用的数据集。（pascal_voc, ade20k）:type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='xception', pretrained=False)
>>> print(model)

gluoncv.model_zoo.get_deeplab_plus_xception_coco(**kwargs)[source]¶

DeepLabV3Plus :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_plus_xception_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnest101_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest101_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnest200_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest200_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnest269_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest269_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnest50_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnest50_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet101_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet101_citys(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_citys(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet101_coco(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet101_voc(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet101_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet152_coco(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet152_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet152_voc(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet152_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet50_ade(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet50_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_resnet50_citys(**kwargs)[source]¶

DeepLabV3 :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_resnet50_citys(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplab_v3b_plus_wideresnet_citys(**kwargs)[source]¶

DeepLabV3Plus :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplab_v3b_plus_wideresnet_citys(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_deeplabv3b_plus(dataset='citys', backbone='wideresnet', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

DeepLabV3Plus :param dataset: 模型预训练使用的数据集。（pascal_voc, ade20k, citys）:type dataset: str, 默认 pascal_voc :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_deeplabv3b_plus(dataset='citys', backbone='wideresnet', pretrained=False)
>>> print(model)

gluoncv.model_zoo.get_doublehead_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

返回 faster rcnn 网络的工具函数。

参数

name (str) – 模型名称。
dataset (str) – 数据集的名称。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。

返回

DoubleHeadRCNN-RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_faster_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

返回 faster rcnn 网络的工具函数。

参数

name (str) – 模型名称。
dataset (str) – 数据集的名称。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。

返回

Faster-RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_fastscnn(dataset='citys', ctx=cpu(0), pretrained=False, root='~/.mxnet/models', **kwargs)[source]¶

Fast-SCNN: 快速语义分割网络 :param dataset: :type dataset: str, 默认 cityscapes :param ctx: 加载预训练权重的 context。 :type ctx: Context, 默认 CPU :param pretrained: 布尔值控制是否加载模型的默认预训练权重。

参数: root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fastscnn(dataset='citys')
>>> print(model)

gluoncv.model_zoo.get_fastscnn_citys(**kwargs)[source]¶

Fast-SCNN: 快速语义分割网络 :param dataset: :type dataset: str, 默认 cityscapes :param ctx: 加载预训练权重的 context。 :type ctx: Context, 默认 CPU

示例

>>> model = get_fastscnn_citys()
>>> print(model)

gluoncv.model_zoo.get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), pretrained_base=True, **kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的 FCN 模型

参数

dataset (str, default pascal_voc) – 模型预训练使用的数据集。（pascal_voc, ade20k）
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
pretrained_base (bool or str, default True) – 这将加载在 ImageNet 上训练的预训练骨干网络。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)

gluoncv.model_zoo.get_fcn_resnet101_ade(**kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_fcn_resnet101_coco(**kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet101_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_fcn_resnet101_voc(**kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-101 基础网络的 FCN 模型

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet101_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_fcn_resnet50_ade(**kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的在 ADE20K 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_fcn_resnet50_voc(**kwargs)[source]¶

来自论文 “用于语义分割的全卷积网络” 的在 Pascal VOC 数据集上预训练的 ResNet-50 基础网络的 FCN 模型

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_fcn_resnet50_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_hrnet(model_name, stage_interp_type='nearest', purpose='cls', pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, num_classes=1000, **kwargs)[source]¶

来自论文 “Deep High-Resolution Representation Learning for Visual Recognition” 的 HRNet 模型。

参数

model_name (string) – HRNet 模型的名称：w18_small_v1/w18_small_v2/w30/w32/w40/w42/w48。
stage_interp_type (string) – 各阶段上采样使用的插值类型，支持 nearest、bilinear 和 bilinear_like。
purpose (string) – 模型用途，支持 cls 和 seg。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_mask_rcnn(name, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

返回 mask rcnn 网络的工具函数。

参数

name (str) – 模型名称。
dataset (str) – 数据集的名称。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。

返回

Mask RCNN 网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_mobilenet(multiplier, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型。

参数

multiplier (float) – 控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_mobilenet_v2(multiplier, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

来自论文 “Inverted Residuals and Linear Bottlenecks” 的 MobileNetV2 模型。

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数

multiplier (float) – 控制模型大小的宽度乘数。仅支持不小于 0.25 的乘数。实际通道数等于原始通道数乘以该乘数。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_model(name, **kwargs)[source]¶

按名称返回预定义模型

参数

name (str) – 模型名称。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
classes (int) – 输出层的类别数量。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

返回

该模型。

返回类型

HybridBlock

gluoncv.model_zoo.get_model_list()[source]¶

获取 model_zoo 中所有模型名称的完整列表。

返回: model_zoo 中所有模型名称的完整列表。
返回类型: 字符串列表

gluoncv.model_zoo.get_monodepth2(backbone='resnet18', pretrained_base=True, scales=range(0, 4), num_output_channels=1, use_skips=True, root='~/.mxnet/models', ctx=cpu(0), pretrained=False, pretrained_model='kitti_stereo_640x192', **kwargs)[source]¶

MonoDepth2

参数

backbone (string, default:'resnet18') – 预训练的膨胀骨干网络类型（‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’）。
pretrained_base (bool or str, default: True) – 这将加载在 ImageNet 上训练的预训练骨干网络。
scales (list, default: range(4)) – 损失中使用的尺度。
num_output_channels (int, default: 1) – 输出通道数量。
use_skips (bool, default: True) – 这将在网络中使用跳跃连接结构。
ctx (Context, default: CPU) – 加载预训练权重的 context。
root (str, default: '~/.mxnet/models') – 保存模型参数的位置。
pretrained (bool or str, default: False) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
pretrained_model (string, default: kitti_stereo_640x192) – 模型预训练使用的数据集。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_mono_640x192(**kwargs)[source]¶

Monodepth2

参数: backbone (string) – 预训练的膨胀骨干网络类型（默认：’resnet18’）。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_mono_stereo_640x192(**kwargs)[source]¶

Monodepth2

参数: backbone (string) – 预训练的膨胀骨干网络类型（默认：’resnet18’）。

gluoncv.model_zoo.get_monodepth2_resnet18_kitti_stereo_640x192(**kwargs)[source]¶

Monodepth2

参数: backbone (string) – 预训练的膨胀骨干网络类型（默认：’resnet18’）。

gluoncv.model_zoo.get_monodepth2_resnet18_posenet_kitti_mono_640x192(**kwargs)[source]¶

Monodepth2 PoseNet

参数: backbone (string) – 预训练的膨胀骨干网络类型（默认：’resnet18’）。

gluoncv.model_zoo.get_monodepth2_resnet18_posenet_kitti_mono_stereo_640x192(**kwargs)[source]¶

Monodepth2 PoseNet

参数: backbone (string) – 预训练的膨胀骨干网络类型（默认：’resnet18’）。

gluoncv.model_zoo.get_monodepth2posenet(backbone='resnet18', pretrained_base=True, num_input_images=2, num_input_features=1, num_frames_to_predict_for=2, stride=1, root='~/.mxnet/models', ctx=cpu(0), pretrained=False, pretrained_model='kitti_stereo_640x192', **kwargs)[source]¶

Monodepth2

参数

backbone (string) – 预训练的扩张骨干网络类型 (‘resnet18’、‘resnet34’、‘resnet50’、‘resnet101’ 或 ‘resnet152’)。
pretrained_base (bool 或 str) – 指示骨干网络是否已预训练。如果为 True，则加载在 ImageNet 上训练的模型的权重。
num_input_images (int) – 输入序列的数量。深度编码器使用 1，姿态编码器大于 1。(默认值: 2)
num_input_features (int) – 来自姿态网络编码器的输入特征图数量。(默认值: 1)
num_frames_to_predict_for (int) – 预测帧间姿态的数量；如果为 None，则等于 num_input_features - 1。(默认值: 2)
stride (int) – 姿态解码器中 Conv 的步幅数量。(默认值: 1)
ctx (Context, default: CPU) – 加载预训练权重的 context。
root (str, default: '~/.mxnet/models') – 保存模型参数的位置。
pretrained (bool or str, default: False) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的哈希标签。
pretrained_model (string, default: kitti_stereo_640x192) – 模型预训练使用的数据集。

gluoncv.model_zoo.get_nasnet(repeat=6, penultimate_filters=4032, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

NASNet A 模型，来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数

repeat (int) – 单元重复次数
penultimate_filters (int) – 网络倒数第二层中的滤波器数量
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_psp(dataset='pascal_voc', backbone='resnet50', pretrained=False, root='~/.mxnet/models', ctx=cpu(0), pretrained_base=True, **kwargs)[source]¶

金字塔场景解析网络 :param dataset: 模型预训练使用的数据集。(pascal_voc, ade20k) :type dataset: str, default pascal_voc :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
pretrained_base (bool or str, default True) – 这将加载在 ImageNet 上训练的预训练骨干网络。

示例

>>> model = get_fcn(dataset='pascal_voc', backbone='resnet50', pretrained=False)
>>> print(model)

gluoncv.model_zoo.get_psp_resnet101_ade(**kwargs)[source]¶

金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_psp_resnet101_citys(**kwargs)[source]¶

金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_psp_resnet101_coco(**kwargs)[source]¶

金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_psp_resnet101_voc(**kwargs)[source]¶

金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet101_voc(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_psp_resnet50_ade(**kwargs)[source]¶

金字塔场景解析网络 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = get_psp_resnet50_ade(pretrained=True)
>>> print(model)

gluoncv.model_zoo.get_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', use_se=False, **kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet V1 模型。来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet V2 模型。

参数

version (int) – ResNet 的版本。选项有 1, 2。
num_layers (int) – 层数。选项有 18, 34, 50, 101, 152。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
use_se (bool, default False) – 是否使用Squeeze-and-Excitation模块
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_resnext(num_layers, cardinality=32, bottleneck_width=4, use_se=False, deep_stem=False, avg_down=False, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt 模型。

参数

num_layers (int) – 层数。选项有 50, 101。
cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_se_resnet(version, num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

SE_ResNet V1 模型，来自 “Deep Residual Learning for Image Recognition” 论文。SE_ResNet V2 模型，来自 “Identity Mappings in Deep Residual Networks” 论文。

参数

version (int) – ResNet 的版本。选项有 1, 2。
num_layers (int) – 层数。选项有 18, 34, 50, 101, 152。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_ssd(name, base_size, features, filters, sizes, ratios, steps, classes, dataset, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', anchor_generator=<class 'gluoncv.model_zoo.ssd.anchor.SSDAnchorGenerator'>, **kwargs)[source]¶

获取 SSD 模型。

参数

name (str or None) – 模型名称，如果使用 None，则必须指定 features 为 HybridBlock。
base_size (int) – 训练时的基础图像尺寸，训练分配后该尺寸固定。固定的基础尺寸仍然允许您在测试时使用可变输入尺寸。
features (str 或 HybridBlock 的可迭代对象) – 网络内部输出名称列表，用于指定哪些层用于预测 bbox 值。如果 name 为 None，则 features 必须是生成多个预测输出的 HybridBlock。
filters (float 或 None 的可迭代对象) – 将附加到基础网络特征提取器上的卷积层通道列表。如果 name 为 None，则忽略此参数。
sizes (float 可迭代对象) – 锚框的尺寸，这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如，一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90]，然后分别转换为两个阶段的 [30, 60] 和 [60, 90]。更多详情，请参考原始论文。
ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。
steps (int 列表) – 每个输出层中锚框的步长。
classes (str 的可迭代对象) – 类别名称。
dataset (str) – 数据集名称。这用于标识模型名称，因为在不同数据集上训练的模型会非常不同。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.get_vgg(num_layers, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

VGG 模型，来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文。

参数

num_layers (int) – densenet 变体的层数。选项有 11, 13, 16, 19。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。

gluoncv.model_zoo.get_vgg_atrous_extractor(num_layers, im_size, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

获取 VGG 空洞卷积特征提取网络。

参数

num_layers (int) – VGG 类型，可以是 11, 13, 16, 19。
im_size (int) – VGG 检测输入尺寸，可以是 300, 512。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (mx.Context) – 上下文，例如 mx.cpu(), mx.gpu(0)。
root (str) – 模型权重存储路径。

返回

返回的网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.get_xcetption(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

Xception 模型，来自

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_xcetption_71(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

Xception 模型，来自

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.get_yolov3(name, stages, filters, anchors, strides, classes, dataset, pretrained=False, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

获取 YOLOV3 模型。 :param name: 模型名称。如果使用 None，则必须指定 features 为 HybridBlock。 :type name: str or None :param stages: 网络内部输出名称列表，用于指定哪些层

参数

filters (float 或 None 的可迭代对象) – 将附加到基础网络特征提取器上的卷积层通道列表。如果 name 为 None，则忽略此参数。
sizes (float 可迭代对象) – 锚框的尺寸，这应该是一个按递增顺序排列的 float 列表。sizes 的长度必须是 len(layers) + 1。例如，一个两阶段的 SSD 模型可以有 sizes = [30, 60, 90]，然后分别转换为两个阶段的 [30, 60] 和 [60, 90]。更多详情，请参考原始论文。
ratios (list 可迭代对象) – 每个输出层中锚框的纵横比。其长度必须等于 SSD 输出层的数量。
steps (int 列表) – 每个输出层中锚框的步长。
classes (str 的可迭代对象) – 类别名称。
dataset (str) – 数据集名称。这用于标识模型名称，因为在不同数据集上训练的模型会非常不同。
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
is_train (str) – 如果训练则 is\_train 为 True，如果测试则为 False。
root (str) – 模型权重存储路径。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 YOLOV3 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.googlenet(classes=1000, pretrained=False, pretrained_base=True, ctx=cpu(0), dropout_ratio=0.4, aux_logits=False, root='~/.mxnet/models', partial_bn=False, **kwargs)[source]¶

来自 “Going Deeper with Convolutions” 论文的 GoogleNet 模型。以及 “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.gpu_iou(bbox_a_tensor, bbox_b_tensor)[source]¶

参数

bbox_a_tensor –
bbox_b_tensor –

gluoncv.model_zoo.hrnet_w18_c(**kwargs)[source]¶: hrnet_w18 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v1_c(**kwargs)[source]¶: hhrnet_w18_small_v1 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v1_s(**kwargs)[source]¶: hrnet_w18_small_v1 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w18_small_v2_c(**kwargs)[source]¶: hhrnet_w18_small_v2 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w18_small_v2_s(**kwargs)[source]¶: hrnet_w18_small_v2 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w30_c(**kwargs)[source]¶: hhrnet_w30 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w32_c(**kwargs)[source]¶: hhrnet_w32 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w40_c(**kwargs)[source]¶: hhrnet_w40 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w44_c(**kwargs)[source]¶: hhrnet_w44 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w48_c(**kwargs)[source]¶: hhrnet_w48 用于 Imagenet 分类

gluoncv.model_zoo.hrnet_w48_s(**kwargs)[source]¶: hrnet_w48 用于 Cityscapes 分割

gluoncv.model_zoo.hrnet_w64_c(**kwargs)[source]¶: hhrnet_w64 用于 Imagenet 分类

gluoncv.model_zoo.i3d_inceptionv1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

来自“Going Deeper with Convolutions”论文的、在Kinetics400数据集上训练的Inception v1模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_inceptionv3_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

来自“Rethinking the Inception Architecture for Computer Vision”论文的、在Kinetics400数据集上训练的Inception v3模型。

来自 “Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset” 论文的 Inflated 3D 模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl10_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络和10个非局部块的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl10_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络和10个非局部块的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl5_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络和5个非局部块的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_nl5_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络和5个非局部块的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet101_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, bn_frozen=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_custom(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]¶

基于 ResNet50 主干的膨胀 3D 模型 (I3D)。为用户自己的数据集定制。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
use_kinetics_pretrain (bool.) – 是否加载 Kinetics-400 预训练模型权重。

gluoncv.model_zoo.i3d_resnet50_v1_hmdb51(nclass=51, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]¶

在HMDB51数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, bn_frozen=False, feat_ext=False, **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, **kwargs)[source]¶

在Something-Something-V2数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.i3d_resnet50_v1_ucf101(nclass=101, pretrained=False, pretrained_base=True, ctx=cpu(0), root='~/.mxnet/models', use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, use_kinetics_pretrain=True, feat_ext=False, **kwargs)[source]¶

在UCF101数据集上训练的、使用ResNet50骨干网络的膨胀3D模型 (I3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
bn_frozen (bool.) – 是否冻结 BN 层的权重和偏置。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.inception_v3(pretrained=False, ctx=cpu(0), root='~/.mxnet/models', partial_bn=False, **kwargs)[source]¶

来自“Rethinking the Inception Architecture for Computer Vision”论文的Inception v3模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
partial_bn (bool, default False) – 在训练期间冻结所有批量归一化层，除了第一层。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.inceptionv1_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在HMDB51数据集上训练的InceptionV1模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv1_kinetics400(nclass=400, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Kinetics400数据集上训练的InceptionV1模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv1_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Something-Something-V2数据集上训练的InceptionV1模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv1_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在UCF101数据集上训练的InceptionV1模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv3_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在HMDB51数据集上训练的InceptionV3模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv3_kinetics400(nclass=400, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Kinetics400数据集上训练的InceptionV3模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv3_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Something-Something-V2数据集上训练的InceptionV3模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.inceptionv3_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=True, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在UCF101数据集上训练的InceptionV3模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.mask_rcnn_fpn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_resnet101_v1d_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_fpn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, 默认为 300) – 在RPN测试中，经过NMS后返回靠前的候选框结果。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_resnet18_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_fpn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_fpn_syncbn_mobilenet1_0_coco(pretrained=False, pretrained_base=True, num_devices=0, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, 默认为 300) – 在RPN测试中，经过NMS后返回靠前的候选框结果。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_syncbn_mobilenet1_0_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_fpn_syncbn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, num_devices=0, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
num_devices (int, default is 0) – 同步批归一化层的设备数量。如果小于 1，则使用所有可用设备。
rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, 默认为 300) – 在RPN测试中，经过NMS后返回靠前的候选框结果。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_fpn_syncbn_resnet18_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_resnet101_v1d_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet101_v1d_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_resnet18_v1b_coco(pretrained=False, pretrained_base=True, rcnn_max_dets=1000, rpn_test_pre_nms=6000, rpn_test_post_nms=1000, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
rcnn_max_dets (int, 默认为 1000) – 在RCNN中保留的ROI数量。
rpn_test_pre_nms (int, default is 6000) – 在 RPN 测试中，NMS 之前过滤掉排名靠前的建议框数量。
rpn_test_post_nms (int, 默认为 300) – 在RPN测试中，经过NMS后返回靠前的候选框结果。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet18_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mask_rcnn_resnet50_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

Mask RCNN 模型，来自论文“He, K., Gkioxari, G., Doll&ar, P., & Girshick, R. (2017). Mask R-CNN”

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, optional, default is True) – 加载预训练的基础网络，额外层是随机初始化的。请注意，如果 pretrained 为 True，则此参数无效。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。

示例

>>> model = mask_rcnn_resnet50_v1b_coco(pretrained=True)
>>> print(model)

gluoncv.model_zoo.mobilenet0_25(**kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.25。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet0_5(**kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.5。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet0_75(**kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 0.75。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet1_0(**kwargs)[source]¶

来自论文 “MobileNets: 用于移动视觉应用的高效卷积神经网络” 的 MobileNet 模型，宽度乘数为 1.0。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet_v2_0_25(**kwargs)[source]¶

MobileNetV2 模型，来自 `”Inverted Residuals and Linear Bottlenecks

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet_v2_0_5(**kwargs)[source]¶

MobileNetV2 模型，来自 `”Inverted Residuals and Linear Bottlenecks

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet_v2_0_75(**kwargs)[source]¶

MobileNetV2 模型，来自 `”Inverted Residuals and Linear Bottlenecks

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.mobilenet_v2_1_0(**kwargs)[source]¶

MobileNetV2 模型，来自 `”Inverted Residuals and Linear Bottlenecks

<https://arxiv.org/abs/1801.04381>`_ 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.nasnet_4_1056(**kwargs)[source]¶

NASNet A 模型，来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数

repeat (int) – 单元重复次数
penultimate_filters (int) – 网络倒数第二层中的滤波器数量
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.nasnet_5_1538(**kwargs)[source]¶

NASNet A 模型，来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数

repeat (int) – 单元重复次数
penultimate_filters (int) – 网络倒数第二层中的滤波器数量
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.nasnet_6_4032(**kwargs)[source]¶

NASNet A 模型，来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数

repeat (int) – 单元重复次数
penultimate_filters (int) – 网络倒数第二层中的滤波器数量
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.nasnet_7_1920(**kwargs)[source]¶

NASNet A 模型，来自 “Learning Transferable Architectures for Scalable Image Recognition” 论文

参数

repeat (int) – 单元重复次数
penultimate_filters (int) – 网络倒数第二层中的滤波器数量
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.nms_fallback(boxes, thresh)[source]¶: 执行非极大值抑制并返回索引 :param boxes: :type boxes: [[x, y, xmax, ymax, score]] :param 返回保留的框索引: :param ———

gluoncv.model_zoo.p3d_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的伪3D网络 (P3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.p3d_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络的伪3D网络 (P3D)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.pretrained_model_list()[source]¶: 获取可用预训练权重的模型列表。

gluoncv.model_zoo.r2plus1d_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的R2Plus1D。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet152_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet152骨干网络的R2Plus1D。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet18_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet18骨干网络的R2Plus1D。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet34_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet34骨干网络的R2Plus1D。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.r2plus1d_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, root='~/.mxnet/models', num_segments=1, num_crop=1, feat_ext=False, ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络的R2Plus1D。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.residualattentionnet128(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet164(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet200(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet236(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet452(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet56(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入尺寸。选项有 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.residualattentionnet92(**kwargs)[source]¶

AttentionModel 模型，来自 “Residual Attention Network for Image Classification” 论文。

参数

input_size (int) – 网络输入大小。选项包括 32, 224。
num_layers (int) – 层数。选项包括 56, 92, 128, 164, 200, 236, 452。
pretrained (bool, 默认 False) – 是否加载模型的预训练权重。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnest101(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-101 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnest14(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-14 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnest200(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-200 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnest26(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-26 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnest269(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-269 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnest50(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNeSt-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNeSt 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet101_v1(**kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-101 V1 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet101_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-101 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet101_v1b_gn(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-50 GroupNorm 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet101_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet101模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet101_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Something-Something-V2数据集上训练的ResNet101模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet101_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1c-101 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet101_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1d-101 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet101_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1e-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet101_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1s-101 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet101_v2(**kwargs)[source]¶

来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet-101 V2 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet152_v1(**kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-152 V1 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet152_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-152 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet152_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet152模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet152_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Something-Something-V2数据集上训练的ResNet152模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet152_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1c-152 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet152_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1d-152 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet152_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1e-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet152_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1s-152 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet152_v2(**kwargs)[source]¶

来自论文 “Identity Mappings in Deep Residual Networks” 的 ResNet-152 V2 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet18_v1(**kwargs)[source]¶

来自论文 “Deep Residual Learning for Image Recognition” 的 ResNet-18 V1 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet18_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-18 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet18_v1b_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, use_kinetics_pretrain=True, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet18模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet18_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet18模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet18_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Something-Something-V2数据集上训练的ResNet18模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet18_v2(**kwargs)[source]¶

ResNet-18 V2 模型，来自 “Identity Mappings in Deep Residual Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet34_v1(**kwargs)[source]¶

ResNet-34 V1 模型，来自 “Deep Residual Learning for Image Recognition” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet34_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-34 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet34_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet34模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet34_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Something-Something-V2数据集上训练的ResNet34模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet34_v2(**kwargs)[source]¶

ResNet-34 V2 模型，来自 “Identity Mappings in Deep Residual Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet50_v1(**kwargs)[source]¶

ResNet-50 V1 模型，来自 “Deep Residual Learning for Image Recognition” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnet50_v1b(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet50_v1b_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), use_kinetics_pretrain=True, **kwargs)[source]¶

为任何数据集定制的ResNet50模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
use_kinetics_pretrain (bool, 默认为 True。) – 是否加载在 Kinetics400 数据集上预训练的权重作为模型初始化。

gluoncv.model_zoo.resnet50_v1b_gn(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1b-50 GroupNorm 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
last_gamma (bool, default False) – 是否将每个瓶颈块中最后一个BatchNorm层的gamma初始化为零。
use_global_stats (bool, 默认值 False) – 是否强制 BatchNorm 使用全局统计信息而非 minibatch 统计信息；如果使用 ImageNet 分类预训练模型进行微调，可以选择设置为 True。

gluoncv.model_zoo.resnet50_v1b_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在HMDB51数据集上训练的ResNet50模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet50_v1b_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的ResNet50模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet50_v1b_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Something-Something-V2数据集上训练的ResNet50模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet50_v1b_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, partial_bn=False, num_segments=1, num_crop=1, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在UCF101数据集上训练的ResNet50模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。

gluoncv.model_zoo.resnet50_v1c(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1c-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet50_v1d(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1d-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet50_v1e(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1e-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet50_v1s(pretrained=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

构建一个 ResNetV1s-50 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
dilated (bool, 默认为 False) – 是否对 ResNetV1b 应用空洞策略，以产生步幅为 8 的模型。
norm_layer (object) – 使用的归一化层（默认为：mxnet.gluon.nn.BatchNorm）。可以是 mxnet.gluon.nn.BatchNorm 或 mxnet.gluon.contrib.nn.SyncBatchNorm。

gluoncv.model_zoo.resnet50_v2(**kwargs)[source]¶

ResNet-50 V2 模型，来自 “Identity Mappings in Deep Residual Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnext101_32x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 32x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnext101_64x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt101 64x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnext101e_64x4d(**kwargs)[source]¶

ResNext101e 64x4d 模型，修改自 “Aggregated Residual Transformations for Deep Neural Network” 论文。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.resnext50_32x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 ResNeXt50 32x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet101_v1(**kwargs)[source]¶

SE-ResNet-101 V1 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet101_v2(**kwargs)[source]¶

SE-ResNet-101 V2 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet152_v1(**kwargs)[source]¶

SE-ResNet-152 V1 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet152_v2(**kwargs)[source]¶

SE-ResNet-152 V2 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet18_v1(**kwargs)[source]¶

SE-ResNet-18 V1 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet18_v2(**kwargs)[source]¶

SE-ResNet-18 V2 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet34_v1(**kwargs)[source]¶

SE-ResNet-34 V1 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet34_v2(**kwargs)[source]¶

SE-ResNet-34 V2 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet50_v1(**kwargs)[source]¶

SE-ResNet-50 V1 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnet50_v2(**kwargs)[source]¶

SE-ResNet-50 V2 模型，来自 “Squeeze-and-Excitation Networks” 论文。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnext101_32x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 32x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnext101_64x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt101 64x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnext101e_64x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 修改的 SE-ResNeXt101e 64x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.se_resnext50_32x4d(**kwargs)[source]¶

来自论文 “用于深度神经网络的聚合残差变换” 的 SE-ResNeXt50 32x4d 模型。

参数

cardinality (int) – 组数
bottleneck_width (int) – 瓶颈块的宽度
pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, 默认值 '~/.mxnet/models') – 保存模型参数的位置。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

gluoncv.model_zoo.siamrpn_alexnet_v2_otb15(**kwargs)[source]¶

Alexnet 主干网络模型，来自 `”High Performance Visual Tracking with Siamese Region Proposal Network

<http://openaccess.thecvf.com/content_cvpr_2018/papers/ Li_High_Performance_Visual_CVPR_2018_paper.pdf>`_ 论文。

gluoncv.model_zoo.simple_pose_resnet101_v1b(**kwargs)[source]¶

ResNet-101 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet101_v1d(**kwargs)[source]¶

ResNet-101-d 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet152_v1b(**kwargs)[source]¶

ResNet-152 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet152_v1d(**kwargs)[source]¶

ResNet-152-d 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet18_v1b(**kwargs)[source]¶

ResNet-18 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet50_v1b(**kwargs)[source]¶

ResNet-50 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.simple_pose_resnet50_v1d(**kwargs)[source]¶

ResNet-50-d 主干网络模型，来自 “Simple Baselines for Human Pose Estimation and Tracking” 论文。 :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.slowfast_16x8_resnet101_50_50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)，但时间头用ResNet50结构 (3, 4, 6, 3) 初始化。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_16x8_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 16x8网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_4x16_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 4x16网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_4x16_resnet50_custom(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, use_kinetics_pretrain=True, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

SlowFast 4x16 网络 (SlowFast)，使用 ResNet50 主干网络。为用户的自定义数据集进行定制。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。
use_kinetics_pretrain (bool.) – 是否加载 Kinetics-400 预训练模型权重。

gluoncv.model_zoo.slowfast_4x16_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 4x16网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_8x8_resnet101_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet101骨干网络的SlowFast 8x8网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.slowfast_8x8_resnet50_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, partial_bn=False, feat_ext=False, root='~/.mxnet/models', ctx=cpu(0), **kwargs)[source]¶

在Kinetics400数据集上训练的、使用ResNet50骨干网络的SlowFast 8x8网络 (SlowFast)。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。
partial_bn (bool, default False.) – 在训练期间冻结所有批量归一化层，除了第一层。
feat_ext (bool.) – 是否在密集分类层之前提取特征或进行完整的正向传播。

gluoncv.model_zoo.squeezenet1_0(**kwargs)[source]¶

来自论文 “SqueezeNet: AlexNet 级别精度，参数量减少 50 倍，模型大小 <0.5MB” 的 SqueezeNet 1.0 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.squeezenet1_1(**kwargs)[source]¶

SqueezeNet 1.1 模型，来自 SqueezeNet 官方仓库。 SqueezeNet 1.1 比 SqueezeNet 1.0 的计算量少 2.4 倍，参数量也略少，同时不牺牲准确性。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.ssd_300_mobilenet0_25_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

SSD 架构，使用 mobilenet0.25 主干网络，用于 COCO。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_mobilenet0_25_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

SSD 架构，使用 mobilenet0.25 300 主干网络，用于自定义数据集。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_mobilenet0_25_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_mobilenet0_25_custom(classes=['foo', 'bar'], transfer='voc')

gluoncv.model_zoo.ssd_300_mobilenet0_25_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

SSD 架构，使用 mobilenet0.25 主干网络。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_resnet34_v1b_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

SSD 架构，使用 ResNet v1b 34 层。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_resnet34_v1b_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

SSD 架构，使用 ResNet v1b 34 层，用于自定义数据集。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_resnet34_v1b_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_resnet34_v1b_custom(classes=['foo', 'bar'], transfer='coco')

gluoncv.model_zoo.ssd_300_resnet34_v1b_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

SSD 架构，使用 ResNet v1b 34 层。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_vgg16_atrous_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_300_vgg16_atrous_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_300_vgg16_atrous_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_300_vgg16_atrous_custom(classes=['foo', 'bar'], transfer='coco')

gluoncv.model_zoo.ssd_300_vgg16_atrous_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

用于 Pascal VOC 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_mobilenet1_0_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

用于COCO数据集的带mobilenet1.0基础网络的SSD架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_mobilenet1_0_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

用于自定义数据集的带mobilenet1.0 512基础网络的SSD架构。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_mobilenet1_0_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_mobilenet1_0_custom(classes=['foo', 'bar'], transfer='voc')

gluoncv.model_zoo.ssd_512_mobilenet1_0_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带mobilenet1.0基础网络的SSD架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet101_v2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带有 ResNet v2 101 层的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet152_v2_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带有 ResNet v2 152 层的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet18_v1_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带ResNet v1 18层网络的SSD架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet18_v1_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

用于COCO数据集的带ResNet18 v1 512基础网络的SSD架构。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_resnet18_v1_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_resnet18_v1_custom(classes=['foo', 'bar'], transfer='voc')

gluoncv.model_zoo.ssd_512_resnet18_v1_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带ResNet v1 18层网络的SSD架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet50_v1_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

用于 COCO 的带有 ResNet v1 50 层的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_resnet50_v1_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

用于自定义数据集的带有 ResNet50 v1 512 基础网络的 SSD 架构。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_resnet50_v1_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_resnet50_v1_custom(classes=['foo', 'bar'], transfer='voc')

gluoncv.model_zoo.ssd_512_resnet50_v1_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带有 ResNet v1 50 层的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_vgg16_atrous_coco(pretrained=False, pretrained_base=True, **kwargs)[source]¶

用于 COCO 的带有 VGG16 空洞卷积层的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.ssd_512_vgg16_atrous_custom(classes, pretrained_base=True, pretrained=False, transfer=None, **kwargs)[source]¶

用于 COCO 的带有 VGG16 空洞卷积 300x300 基础网络的 SSD 架构。

参数

classes (iterable of str) – 自定义前景类别的名称。len(classes) 是前景类别的数量。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。
transfer (str 或 None) – 如果不是 None，将尝试重用在其他数据集上训练的 SSD 网络的预训练权重。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

示例

>>> net = ssd_512_vgg16_atrous_custom(classes=['a', 'b', 'c'], pretrained_base=True)
>>> net = ssd_512_vgg16_atrous_custom(classes=['foo', 'bar'], transfer='coco')

gluoncv.model_zoo.ssd_512_vgg16_atrous_voc(pretrained=False, pretrained_base=True, **kwargs)[source]¶

带有 VGG16 空洞卷积 512x512 基础网络的 SSD 架构。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
pretrained_base (bool or str, 可选, 默认值 True) – 加载预训练的基础网络，额外的层是随机初始化的。

返回

一个 SSD 检测网络。

返回类型

HybridBlock

gluoncv.model_zoo.timeit(method)[source]¶: 用于包装函数的计时装饰器

gluoncv.model_zoo.vgg11(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-11 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg11_bn(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-11 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg13(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-13 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg13_bn(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-13 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-16 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16_atrous_300(**kwargs)[source]¶: 获取输入大小为 300 的 VGG 空洞卷积 16 层特征提取网络。

gluoncv.model_zoo.vgg16_atrous_512(**kwargs)[source]¶: 获取输入大小为 512 的 VGG 空洞卷积 16 层特征提取网络。

gluoncv.model_zoo.vgg16_bn(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-16 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg16_hmdb51(nclass=51, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在HMDB51数据集上训练的VGG16模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。

gluoncv.model_zoo.vgg16_kinetics400(nclass=400, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Kinetics400数据集上训练的VGG16模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。

gluoncv.model_zoo.vgg16_sthsthv2(nclass=174, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在Something-Something-V2数据集上训练的VGG16模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。

gluoncv.model_zoo.vgg16_ucf101(nclass=101, pretrained=False, pretrained_base=True, use_tsn=False, num_segments=1, num_crop=1, ctx=cpu(0), root='~/.mxnet/models', **kwargs)[source]¶

在UCF101数据集上训练的VGG16模型。

参数

nclass (int.) – 数据集中类别的数量。
pretrained (bool or str.) – 布尔值控制是否加载模型的默认预训练权重。字符串值表示特定版本预训练权重的标签。
pretrained_base (bool or str, optional, default is True.) – 加载预训练的基础网络，额外的层是随机初始化的。注意如果 pretrained 为 True，则此参数无效。
ctx (Context, default CPU.) – 加载预训练权重的上下文。
root (str, 默认 $MXNET_HOME/models) – 模型参数的存放位置。
num_segments (int, default is 1.) – 用于均匀分割视频的片段数。
num_crop (int, default is 1.) – 评估期间使用的裁剪数，选项为1、3或10。

gluoncv.model_zoo.vgg19(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的 VGG-19 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.vgg19_bn(**kwargs)[source]¶

来自 “Very Deep Convolutional Networks for Large-Scale Image Recognition” 论文的带批归一化的 VGG-19 模型。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
ctx (Context, 默认 CPU) – 加载预训练权重的上下文。
root (str, default '$MXNET_HOME/models') – 保存模型参数的位置。

gluoncv.model_zoo.yolo3_darknet53_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

用于COCO数据集的带darknet53基础网络的多尺度YOLO3。:param pretrained_base: 是否为基础网络获取并加载预训练权重。:type pretrained_base: boolean :param pretrained: 布尔值，控制是否加载模型的默认预训练权重。

参数

norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_darknet53_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

用于自定义数据集的带darknet53基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None，将尝试重用在其他YOLO网络上训练的预训练权重

参数

pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_darknet53_voc(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

用于VOC数据集的带darknet53基础网络的多尺度YOLO3。:param pretrained_base: 布尔值，控制是否加载模型的默认预训练权重。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_mobilenet0_25_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

用于COCO数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param pretrained_base: 布尔值，控制是否加载模型的默认预训练权重。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

gluoncv.model_zoo.yolo3_mobilenet0_25_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

用于自定义数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None，将尝试重用在其他YOLO网络上训练的预训练权重

参数

pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

数据集。

gluoncv.model_zoo.yolo3_mobilenet0_25_voc(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于VOC数据集的带mobilenet0.25基础网络的多尺度YOLO3。:param pretrained_base: 布尔值，控制是否加载模型的默认预训练权重。

gluoncv.model_zoo.yolo3_mobilenet1_0_coco(pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于COCO数据集的带mobilenet基础网络的多尺度YOLO3。:param pretrained_base: 布尔值，控制是否加载模型的默认预训练权重。

gluoncv.model_zoo.yolo3_mobilenet1_0_custom(classes, transfer=None, pretrained_base=True, pretrained=False, norm_layer=<class 'mxnet.gluon.nn.basic_layers.BatchNorm'>, norm_kwargs=None, **kwargs)[source]¶

参数

pretrained_base (布尔值) – 是否为基础网络获取并加载预训练权重。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock

用于自定义数据集的带mobilenet基础网络的多尺度YOLO3。:param classes: 自定义前景类别的名称。len(classes) 是前景类别的数量。:type classes: iterable of str :param transfer: 如果不是 None，将尝试重用在其他YOLO网络上训练的预训练权重

数据集。

参数

pretrained (bool or str) – 布尔值控制是否加载模型的默认预训练权重。字符串值代表特定版本预训练权重的哈希标签。
norm_layer (object) – 使用的归一化层（默认：mxnet.gluon.nn.BatchNorm）。可以是mxnet.gluon.nn.BatchNorm或mxnet.gluon.contrib.nn.SyncBatchNorm。
norm_kwargs (dict) – 额外的norm\_layer参数，例如用于mxnet.gluon.contrib.nn.SyncBatchNorm的num\_devices=4。

返回

完全混合的yolo3网络。

返回类型

mxnet.gluon.HybridBlock