Video Inference JSON Output Format

वीडियो inference प्रक्रिया का आउटपुट एक JSON फ़ाइल है। यह पृष्ठ इसका फ़ॉर्मैट समझाता है।

फ़ाइल संरचना

JSON आउटपुट फ़ाइल में कई समान लंबाई की सूचियाँ होती हैं। प्रत्येक सूची का सूची-सूचकांक उस वीडियो के एक विशिष्ट फ़्रेम के अनुरूप होता है जिस पर अनुमान लगाया जा रहा है।

{
    frame_offsets: [...],
    time_offsets: [...],
    fine_tuned_model_id: [...],
    fine_tuned_model_id: [...],
    clip: [...],
    gaze: [...]
    ...
}

frame_offset उन वीडियो फ़्रेम नंबरों की सूची देता है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमानित किया गया था। सूची हमेशा इस पर शुरू होती है 0. उदाहरण के लिए, अगर इनपुट वीडियो में 24 फ़्रेम-प्रति-सेकेंड हैं, और हमने एक निर्दिष्ट किया है infer_fps 4 फ़्रेम प्रति सेकेंड का तो inference के लिए चयनित फ़्रेम सूचकांक (frame_offsets) होंगे [0, 6, 12, 18, 24, 30,...] यह सर्वोत्तम प्रथा है कि आप एक चुनें infer_fps जो वीडियो फ़्रेम-रेट का कारक हो। यदि वीडियो फ़्रेम रेट infer_fps का पूर्ण गुणक नहीं है तो frame_offset एक निकटतम अनुमान होगा। अपने अनुप्रयोग के लिए काम करने वाला न्यूनतम infer_fps चुनें क्योंकि उच्च मान अधिक लागत और धीमे परिणामों का कारण बनेंगे। यदि infer_fps वीडियो फ़्रेम रेट से अधिक है तो सिस्टम आउटपुट वापस नहीं करेगा।

time-offsets सूची उस समय को दर्शाती है जब फ़्रेम वीडियो प्लेबैक में आता है। प्रत्येक समय प्रविष्टि सेकंड में होती है, और इसे 4 दशमलव स्थानों तक गोल किया गया है।

बाकी सूचियाँ अनुमान डेटा (inference data) रखती हैं। किसी सूची का प्रत्येक तत्व एक शब्दकोश (dictionary) हो सकता है या उसका मान Noneहो सकता है, यदि उस विशेष फ़्रेम का मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।

अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों पर विस्तृत चर्चा करते हैं।

Object Detection

नीचे दिया गया उदाहरण ऑब्जेक्ट डिटेक्शन मॉडल की inference आउटपुट सूची के एक तत्व को दर्शाता है।

{
    "time": 0.06994929000006778, 
    "image": {"width": 480, "height": 360}, 
    "predictions": [
        {
            "x": 360.0, 
            "y": 114.0, 
            "width": 36.0, 
            "height": 104.0, 
            "confidence": 0.6243005394935608, 
            "class": "zebra", 
            "class_id": 1
        }
    ]
}

The time फ़ील्ड inference गणना समय है और आम तौर पर इसे अनदेखा किया जा सकता है।

The image फ़ील्ड इनपुट के आयाम दिखाता है।

The predictions सूची प्रत्येक अनुमानित वर्ग की जानकारी शामिल करती है।

YOLOv8

नीचे दिया गया उदाहरण gaze detection मॉडल की inference आउटपुट सूची के एक तत्व को दर्शाता है।

{
    predictions: [
        {
            face: {
                x: 236,
                y: 208,
                width: 94,
                height: 94,
                confidence: 0.9232424,
                class: "face",
                class_confidence: null,
                class_id: 0,
                tracker_id: null
            },
            }
            landmarks: [
                {
                    x: 207,
                    y: 183
                },
                ... (6 landmarks)
            ]
            yaw: 0.82342350129345,
            pitch: 0.23152452412,      
        }
        ...
    ],
    time: 0.025234234,
    time_face_det: null,
    time_gaze_det: null
}

क्लासिफिकेशन

<जल्द आ रहा है!>

इंस्‍टेंस सेगमेंटेशन

<जल्द आ रहा है!>\

Last updated 1 year ago

Was this helpful?