비디오 추론 JSON 출력 형식
비디오 추론 프로세스의 출력은 JSON 파일입니다. 이 페이지에서 형식을 설명합니다.
파일 구조
JSON 출력 파일에는 동일한 길이의 여러 리스트가 포함되어 있습니다. 각 리스트의 인덱스는 추론이 수행되는 비디오의 특정 프레임에 해당합니다.
{
frame_offsets: [...],
time_offsets: [...],
fine_tuned_model_id: [...],
fine_tuned_model_id: [...],
clip: [...],
gaze: [...]
...
}
frame_offset 리스트는 각 모델에서 추출 및 추론된 비디오 프레임 번호를 나열합니다. 이 리스트는 항상 0
에서 시작합니다. 예를 들어 입력 비디오가 초당 24 프레임이고, infer_fps
를 초당 4 프레임으로 지정하면 추론을 위해 선택된 프레임 인덱스(frame_offsets
)는 다음과 같습니다. [0, 6, 12, 18, 24, 30,...]
infer_fps infer_fps
를 비디오 프레임 레이트의 약수로 선택하는 것이 가장 좋습니다. 비디오 프레임 레이트가 infer_fps의 완전한 배수가 아니면 frame_offset은 근사값이 됩니다. 더 높은 값은 비용이 증가하고 결과가 느려지므로, 애플리케이션에 맞는 최소 infer_fps
값을 선택하세요. 만약 infer_fps
가 비디오 프레임 레이트보다 크면 시스템은 출력을 반환하지 않습니다.
time-offsets 리스트는 해당 프레임이 비디오 재생 중 언제 발생하는지를 나타냅니다. 각 시간 항목은 초 단위이며 소수점 네 자리까지 반올림됩니다.
나머지 리스트에는 추론 데이터가 포함되어 있습니다. 리스트의 각 요소는 딕셔너리이거나, 해당 프레임이 모델에 의해 성공적으로 추론되지 않은 경우 None
값을 가질 수 있습니다.
다음 섹션에서는 다양한 모델 유형에 대해 반환되는 결과를 자세히 설명합니다.
객체 감지
아래 예시는 객체 감지 모델의 추론 출력 리스트의 한 요소를 보여줍니다.
{
"time": 0.06994929000006778,
"image": {"width": 480, "height": 360},
"predictions": [
{
"x": 360.0,
"y": 114.0,
"width": 36.0,
"height": 104.0,
"confidence": 0.6243005394935608,
"class": "zebra",
"class_id": 1
}
]
}
해당 time
필드는 추론 계산 시간이며 일반적으로 무시할 수 있습니다.
해당 이미지
필드는 입력의 크기를 보여줍니다.
해당 predictions
리스트에는 각 예측된 클래스의 정보가 포함되어 있습니다.
시선 추적
아래 예시는 시선 추적 모델의 추론 출력 리스트의 한 요소를 보여줍니다.
{
predictions: [
{
face: {
x: 236,
y: 208,
width: 94,
height: 94,
confidence: 0.9232424,
class: "face",
class_confidence: null,
class_id: 0,
tracker_id: null
},
}
landmarks: [
{
x: 207,
y: 183
},
... (6 landmarks)
]
yaw: 0.82342350129345,
pitch: 0.23152452412,
}
...
],
time: 0.025234234,
time_face_det: null,
time_gaze_det: null
}
분류
<곧 출시!>
인스턴스 분할
<곧 출시!>
Last updated
Was this helpful?