准备 20BN-something-something Dataset V2¶

Something-something-v2 是一个真实动作视频的动作识别数据集，从 YouTube 收集。它包含 220,847 个短视频片段，涵盖 174 个动作类别，是研究社区中用于衡量最先进视频动作识别模型性能的最大、最广泛使用的数据集之一。本教程将介绍为 GluonCV 准备此数据集的步骤。

下载¶

请访问官方网站下载视频。视频数据以一个大型 TGZ 压缩包提供，分割成最大 1 GB 的部分（共 20 个部分）。总下载大小为 19.4 GB。压缩包包含使用 VP9 编解码器的 webm 文件。文件编号从 1 到 220847。请使用提供的 md5sum 检查下载的部分是否完整。

文件名	大小
20bn-something-something-v2-00	1 GB
20bn-something-something-v2-01	1 GB
20bn-something-something-v2-02	1 GB
20bn-something-something-v2-03	1 GB
20bn-something-something-v2-04	1 GB
20bn-something-something-v2-05	1 GB
20bn-something-something-v2-06	1 GB
20bn-something-something-v2-07	1 GB
20bn-something-something-v2-08	1 GB
20bn-something-something-v2-09	1 GB
20bn-something-something-v2-10	1 GB
20bn-something-something-v2-11	1 GB
20bn-something-something-v2-12	1 GB
20bn-something-something-v2-13	1 GB
20bn-something-something-v2-14	1 GB
20bn-something-something-v2-15	1 GB
20bn-something-something-v2-16	1 GB
20bn-something-something-v2-17	1 GB
20bn-something-something-v2-18	1 GB
20bn-something-something-v2-19	445 MB

确认后，您可以使用以下命令解压视频。

cat 20bn-something-something-v2-?? | tar zx

假设您的数据根目录默认为 ROOT=~/.mxnet/datasets/somethingsomethingv2，所有视频现在将存储在 ROOT/20bn-something-something-v2。然后，下载注释文件并将它们放入文件夹 ROOT/annotations。

文件名	大小
something-something-v2-labels.json	9 KB
something-something-v2-train.json	26 MB
something-something-v2-validation.json	3.7 MB
something-something-v2-test.json	448 KB

预处理¶

准备数据集最简单的方法是下载辅助脚本 somethingsomethingv2.py 并运行以下命令

python somethingsomethingv2.py

此脚本将帮助您将视频解码为原始帧，并生成用于标准数据加载的训练文件。视频帧将保存到 ROOT/20bn-something-something-v2-frames。训练文件将保存到 ROOT/annotations。数据准备过程可能需要一些时间。准备数据集的总时间取决于您的机器。例如，在带有 EBS 的 AWS EC2 实例上大约需要 6 小时。

脚本完成后，您就可以开始在 something-something-v2 数据集上训练您的动作识别模型了。

脚本总运行时间： ( 0 分钟 0.000 秒)

由 Sphinx-Gallery 生成的图库