注意
点击此处下载完整示例代码
准备 20BN-something-something Dataset V2¶
Something-something-v2 是一个真实动作视频的动作识别数据集,从 YouTube 收集。它包含 220,847 个短视频片段,涵盖 174 个动作类别,是研究社区中用于衡量最先进视频动作识别模型性能的最大、最广泛使用的数据集之一。本教程将介绍为 GluonCV 准备此数据集的步骤。
下载¶
请访问官方网站下载视频。视频数据以一个大型 TGZ 压缩包提供,分割成最大 1 GB 的部分(共 20 个部分)。总下载大小为 19.4 GB。压缩包包含使用 VP9 编解码器的 webm 文件。文件编号从 1 到 220847。请使用提供的 md5sum 检查下载的部分是否完整。
文件名 |
大小 |
---|---|
20bn-something-something-v2-00 |
1 GB |
20bn-something-something-v2-01 |
1 GB |
20bn-something-something-v2-02 |
1 GB |
20bn-something-something-v2-03 |
1 GB |
20bn-something-something-v2-04 |
1 GB |
20bn-something-something-v2-05 |
1 GB |
20bn-something-something-v2-06 |
1 GB |
20bn-something-something-v2-07 |
1 GB |
20bn-something-something-v2-08 |
1 GB |
20bn-something-something-v2-09 |
1 GB |
20bn-something-something-v2-10 |
1 GB |
20bn-something-something-v2-11 |
1 GB |
20bn-something-something-v2-12 |
1 GB |
20bn-something-something-v2-13 |
1 GB |
20bn-something-something-v2-14 |
1 GB |
20bn-something-something-v2-15 |
1 GB |
20bn-something-something-v2-16 |
1 GB |
20bn-something-something-v2-17 |
1 GB |
20bn-something-something-v2-18 |
1 GB |
20bn-something-something-v2-19 |
445 MB |
确认后,您可以使用以下命令解压视频。
cat 20bn-something-something-v2-?? | tar zx
假设您的数据根目录默认为 ROOT=~/.mxnet/datasets/somethingsomethingv2
,所有视频现在将存储在 ROOT/20bn-something-something-v2
。然后,下载注释文件并将它们放入文件夹 ROOT/annotations
。
文件名 |
大小 |
---|---|
something-something-v2-labels.json |
9 KB |
something-something-v2-train.json |
26 MB |
something-something-v2-validation.json |
3.7 MB |
something-something-v2-test.json |
448 KB |
预处理¶
准备数据集最简单的方法是下载辅助脚本 somethingsomethingv2.py
并运行以下命令
python somethingsomethingv2.py
此脚本将帮助您将视频解码为原始帧,并生成用于标准数据加载的训练文件。视频帧将保存到 ROOT/20bn-something-something-v2-frames
。训练文件将保存到 ROOT/annotations
。数据准备过程可能需要一些时间。准备数据集的总时间取决于您的机器。例如,在带有 EBS 的 AWS EC2 实例上大约需要 6 小时。
脚本完成后,您就可以开始在 something-something-v2 数据集上训练您的动作识别模型了。
脚本总运行时间: ( 0 分钟 0.000 秒)