動画推論JSON出力フォーマット
動画推論プロセスの出力はJSONファイルです。このページではそのフォーマットを説明します。
ファイル構造
JSON出力ファイルには、同じ長さの複数のリストが含まれています。各リストのインデックスは、推論対象となるビデオの特定のフレームに対応しています。
{
frame_offsets: [...]、
time_offsets: [...]、
fine_tuned_model_id: [...]、
fine_tuned_model_id: [...]、
clip: [...]、
gaze: [...]
...
}
frame_offsetは、各モデルで抽出および推論されたビデオフレーム番号をリストします。このリストは常に 0
から始まります。例えば、入力ビデオが1秒あたり24フレームの場合、 infer_fps
を1秒あたり4フレームに指定すると、推論に選択されるフレームインデックス(frame_offsets
)は [0, 6, 12, 18, 24, 30,...]
となります。 infer_fps
はビデオのフレームレートの約数にするのがベストプラクティスです。ビデオのフレームレートがinfer_fpsの完全な倍数でない場合、frame_offsetは近似値になります。アプリケーションに適した最小の infer_fps
を選択してください。値が大きいほどコストが増加し、結果が遅くなります。 infer_fps
がビデオのフレームレートより大きい場合、システムは出力を返しません。
time-offsetsリストは、フレームが発生するビデオ再生時の時間を示します。各時間エントリは秒単位で、小数点以下4桁に丸められています。
残りのリストには推論データが含まれています。リストの各要素は辞書であるか、値が None
の場合があります。これは、そのフレームがモデルによって正常に推論されなかった場合です。
次のセクションでは、異なるモデルタイプで返される結果について詳しく説明します。
物体検出
以下の例は、物体検出モデルの推論出力リストの1要素を示しています。
{
"time": 0.06994929000006778,
"image": {"width": 480, "height": 360},
"predictions": [
{
"x": 360.0,
"y": 114.0,
"width": 36.0,
"height": 104.0,
"confidence": 0.6243005394935608,
"class": "zebra",
"class_id": 1
}
]
}
この time
フィールドは推論計算時間であり、通常は無視できます。
この 画像
フィールドは入力の寸法を示します。
この predictions
リストには各予測クラスの情報が含まれています。
視線検出
以下の例は、視線検出モデルの推論出力リストの1要素を示しています。
{
predictions: [
{
face: {
x: 236,
y: 208,
width: 94,
height: 94,
confidence: 0.9232424,
class: "face",
class_confidence: null,
class_id: 0,
tracker_id: null
},
}
landmarks: [
{
x: 207,
y: 183
},
...(6つのランドマーク)
]
yaw: 0.82342350129345,
pitch: 0.23152452412,
}
...
],
time: 0.025234234,
time_face_det: null,
time_gaze_det: null
}
分類
<近日公開!>
インスタンスセグメンテーション
<近日公開!>
Last updated
Was this helpful?