Video Inference JSON Output Format
ビデオ推論プロセスの出力は JSON ファイルです。本ページではそのフォーマットを説明します。
ファイル構造
JSON出力ファイルには同じ長さの複数のリストが含まれます。各リストのインデックスは、推論対象のビデオの特定のフレームに対応します。
{
frame_offsets: [...],
time_offsets: [...],
fine_tuned_model_id: [...],
fine_tuned_model_id: [...],
clip: [...],
gaze: [...]
...
}frame_offsetは各モデルで抽出され推論されたビデオフレーム番号を列挙します。リストは常に次から始まります 0。例えば、入力ビデオが1秒あたり24フレームで、かつ私たちが infer_fps を毎秒4フレームに指定した場合、推論のために選択されるフレームインデックス(frame_offsets)は次のようになります [0, 6, 12, 18, 24, 30,...]
最良の方法は、 infer_fps をビデオのフレームレートの約数にすることです。ビデオフレームレートがinfer_fpsの完全な倍数でない場合、frame_offsetは近似値になります。コスト増加と処理遅延につながるため、アプリケーションに適した最小の infer_fps を選んでください。システムは infer_fps がビデオのフレームレートより大きい場合、出力を返しません。
time-offsetsリストは、フレームがビデオ再生のどの時点で発生するかを示します。各時間は秒単位で、小数第4位に四捨五入されています。
残りのリストは推論データを含みます。リストの各要素は辞書であるか、あるいは値が Noneである場合があります。これは特定のフレームがモデルによって正常に推論されなかった場合です。
次のセクションでは、異なるモデルタイプに対して返される結果について詳述します。
オブジェクト検出
以下の例は、物体検出モデルの推論出力リストの要素の一例を示しています。
{
"time": 0.06994929000006778,
"image": {"width": 480, "height": 360},
"predictions": [
{
"x": 360.0,
"y": 114.0,
"width": 36.0,
"height": 104.0,
"confidence": 0.6243005394935608,
"class": "zebra",
"class_id": 1
}
]
}The time フィールドは推論計算時間であり、通常は無視して構いません。
The image フィールドは入力の寸法を示します。
The predictions リストには各予測クラスの情報が含まれます。
Gaze Detection
以下の例は、視線検出(gaze detection)モデルの推論出力リストの要素の一例を示しています。
{
predictions: [
{
face: {
x: 236,
y: 208,
width: 94,
height: 94,
confidence: 0.9232424,
class: "face",
class_confidence: null,
class_id: 0,
tracker_id: null
},
}
landmarks: [
{
x: 207,
y: 183
},
... (6 landmarks)
]
yaw: 0.82342350129345,
pitch: 0.23152452412,
}
...
],
time: 0.025234234,
time_face_det: null,
time_gaze_det: null
}分類
<coming soon!>
インスタンスセグメンテーション
<coming soon!>\
Last updated
Was this helpful?