Video Inference JSON Output Format

ビデオ推論処理の出力は JSON ファイルです。本ページではその形式を説明します。

ファイル構造

JSON出力ファイルには、同じ長さの複数のリストが含まれています。各リストのインデックスは、推論対象となるビデオの特定のフレームに対応しています。

{
    frame_offsets: [...],
    time_offsets: [...],
    fine_tuned_model_id: [...],
    fine_tuned_model_id: [...],
    clip: [...],
    gaze: [...]
    ...
}

frame_offsetは、各モデルで抽出および推論されたビデオフレーム番号をリストします。このリストは常に 0から始まります。例えば、入力ビデオが1秒あたり24フレームの場合、 infer_fps として1秒あたり4フレームを指定すると、推論に選択されるフレームインデックス（frame_offsets）は [0, 6, 12, 18, 24, 30,...]となります。 infer_fps はビデオのフレームレートの約数にするのがベストプラクティスです。ビデオのフレームレートがinfer_fpsの完全な倍数でない場合、frame_offsetは近似値になります。コスト増加や結果の遅延を避けるため、アプリケーションに適した最小の infer_fps を選択してください。値が大きいほどコストが高くなり、結果が遅くなります。 infer_fps がビデオのフレームレートより大きい場合、システムは出力を返しません。

time-offsetsリストは、フレームが発生するビデオ再生時の時間を示します。各時間エントリは秒単位で、小数点以下4桁に丸められています。

残りのリストには推論データが含まれています。リストの各要素は辞書であるか、値が Noneの場合があります。これは、そのフレームがモデルによって正常に推論されなかった場合です。

次のセクションでは、異なるモデルタイプで返される結果について詳しく説明します。

物体検出

以下の例は、物体検出モデルの推論出力リストの1要素を示しています。

{
    "time": 0.06994929000006778, 
    "image": {"width": 480, "height": 360}, 
    "predictions": [
        {
            "x": 360.0, 
            "y": 114.0, 
            "width": 36.0, 
            "height": 104.0, 
            "confidence": 0.6243005394935608, 
            "class": "zebra", 
            "class_id": 1
        }
    ]
}

この time フィールドは推論計算時間であり、通常は無視できます。

この image フィールドは入力の寸法を示します。

この predictions リストには各予測クラスの情報が含まれます。

視線検出

以下の例は、視線検出モデルの推論出力リストの1要素を示しています。

{
    predictions: [
        {
            face: {
                x: 236,
                y: 208,
                width: 94,
                height: 94,
                confidence: 0.9232424,
                class: "face",
                class_confidence: null,
                class_id: 0,
                tracker_id: null
            },
            }
            landmarks: [
                {
                    x: 207,
                    y: 183
                },
                ...（6つのランドマーク）
            ]
            yaw: 0.82342350129345,
            pitch: 0.23152452412,      
        }
        ...
    ],
    time: 0.025234234,
    time_face_det: null,
    time_gaze_det: null
}

分類

<近日公開！>

インスタンスセグメンテーション

<近日公開！>

PreviousAPI Reference NextPre-Trained Model APIs

Last updated 6 months ago

Was this helpful?