准备 20BN-something-something Dataset V2

Something-something-v2 是一个真实动作视频的动作识别数据集,从 YouTube 收集。它包含 220,847 个短视频片段,涵盖 174 个动作类别,是研究社区中用于衡量最先进视频动作识别模型性能的最大、最广泛使用的数据集之一。本教程将介绍为 GluonCV 准备此数据集的步骤。

下载

请访问官方网站下载视频。视频数据以一个大型 TGZ 压缩包提供,分割成最大 1 GB 的部分(共 20 个部分)。总下载大小为 19.4 GB。压缩包包含使用 VP9 编解码器的 webm 文件。文件编号从 1 到 220847。请使用提供的 md5sum 检查下载的部分是否完整。

文件名

大小

20bn-something-something-v2-00

1 GB

20bn-something-something-v2-01

1 GB

20bn-something-something-v2-02

1 GB

20bn-something-something-v2-03

1 GB

20bn-something-something-v2-04

1 GB

20bn-something-something-v2-05

1 GB

20bn-something-something-v2-06

1 GB

20bn-something-something-v2-07

1 GB

20bn-something-something-v2-08

1 GB

20bn-something-something-v2-09

1 GB

20bn-something-something-v2-10

1 GB

20bn-something-something-v2-11

1 GB

20bn-something-something-v2-12

1 GB

20bn-something-something-v2-13

1 GB

20bn-something-something-v2-14

1 GB

20bn-something-something-v2-15

1 GB

20bn-something-something-v2-16

1 GB

20bn-something-something-v2-17

1 GB

20bn-something-something-v2-18

1 GB

20bn-something-something-v2-19

445 MB

确认后,您可以使用以下命令解压视频。

cat 20bn-something-something-v2-?? | tar zx

假设您的数据根目录默认为 ROOT=~/.mxnet/datasets/somethingsomethingv2,所有视频现在将存储在 ROOT/20bn-something-something-v2。然后,下载注释文件并将它们放入文件夹 ROOT/annotations

文件名

大小

something-something-v2-labels.json

9 KB

something-something-v2-train.json

26 MB

something-something-v2-validation.json

3.7 MB

something-something-v2-test.json

448 KB

预处理

准备数据集最简单的方法是下载辅助脚本 somethingsomethingv2.py 并运行以下命令

python somethingsomethingv2.py

此脚本将帮助您将视频解码为原始帧,并生成用于标准数据加载的训练文件。视频帧将保存到 ROOT/20bn-something-something-v2-frames。训练文件将保存到 ROOT/annotations。数据准备过程可能需要一些时间。准备数据集的总时间取决于您的机器。例如,在带有 EBS 的 AWS EC2 实例上大约需要 6 小时。

脚本完成后,您就可以开始在 something-something-v2 数据集上训练您的动作识别模型了。

脚本总运行时间: ( 0 分钟 0.000 秒)

由 Sphinx-Gallery 生成的图库