비디오 추론 JSON 출력 형식

비디오 추론 프로세스의 출력은 JSON 파일입니다. 이 페이지는 그 형식을 설명합니다.

파일 구조

JSON 출력 파일에는 길이가 같은 여러 목록이 포함되어 있습니다. 각 목록의 인덱스는 추론된 비디오의 특정 프레임에 대응합니다.

{
    frame_offsets: [...],
    time_offsets: [...],
    fine_tuned_model_id: [...],
    fine_tuned_model_id: [...],
    clip: [...],
    gaze: [...]
    ...
}

frame_offset은 각 모델에서 추출되어 추론된 비디오 프레임 번호를 나열합니다. 목록은 항상 0에서 시작합니다. 예를 들어 입력 비디오의 초당 프레임 수가 24이고, infer_fps 를 초당 4프레임으로 지정하면 추론을 위해 선택된 프레임 인덱스(frame_offsets)는 [0, 6, 12, 18, 24, 30,...] 를 선택하는 것이 모범 사례입니다. infer_fps 는 비디오 프레임 속도의 약수가 되는 것이 좋습니다. 비디오 프레임 속도가 infer_fps의 정확한 배수가 아닌 경우 frame_offset은 근사값이 됩니다. 더 높은 값은 비용 증가와 처리 지연을 초래하므로 응용에 맞는 최소 infer_fps 를 선택하세요. 만약 infer_fps 가 비디오 프레임 속도보다 크면 시스템은 출력을 반환하지 않습니다.

time-offsets 목록은 해당 프레임이 재생 시간상 언제 발생하는지를 나타냅니다. 각 시간 항목은 초 단위이며 소수점 넷째 자리까지 반올림되어 있습니다.

나머지 목록들은 추론 데이터를 포함합니다. 목록의 각 요소는 사전(object)일 수 있으며, 해당 프레임이 모델에서 성공적으로 추론되지 않은 경우 값이 None일 수 있습니다.

다음 섹션에서는 서로 다른 모델 유형에 대해 반환되는 결과를 자세히 설명합니다.

Object Detection

아래 예시는 객체 감지 모델의 추론 출력 목록 중 하나의 요소를 보여줍니다.

{
    "time": 0.06994929000006778, 
    "image": {"width": 480, "height": 360}, 
    "predictions": [
        {
            "x": 360.0, 
            "y": 114.0, 
            "width": 36.0, 
            "height": 104.0, 
            "confidence": 0.6243005394935608, 
            "class": "zebra", 
            "class_id": 1
        }
    ]
}

The time 필드는 추론 계산 시간이며 보통 무시해도 됩니다.

The 매개변수에 대해 입력 이미지를 선택하세요. 예측에는 모델 결과를 선택하세요. 선택적 구성 속성을 사용하여 경계 상자의 색상과 크기를 변경할 수 있습니다. 필드는 입력의 차원을 보여줍니다.

The predictions 목록에는 예측된 각 클래스의 정보가 포함됩니다.

Gaze Detection

아래 예시는 시선(gaze) 감지 모델의 추론 출력 목록 중 하나의 요소를 보여줍니다.

{
    predictions: [
        {
            face: {
                x: 236,
                y: 208,
                width: 94,
                height: 94,
                confidence: 0.9232424,
                class: "face",
                class_confidence: null,
                class_id: 0,
                tracker_id: null
            },
            }
            landmarks: [
                {
                    x: 207,
                    y: 183
                },
                ... (6 landmarks)
            ]
            yaw: 0.82342350129345,
            pitch: 0.23152452412,      
        }
        ...
    ],
    time: 0.025234234,
    time_face_det: null,
    time_gaze_det: null
}

분류

<coming soon!>

인스턴스 세분화

<coming soon!>\

Last updated

Was this helpful?