वीडियो इनफेरेंस JSON आउटपुट प्रारूप

वीडियो इनफेरेंस प्रक्रिया का आउटपुट एक JSON फ़ाइल है। इस पृष्ठ में इसके प्रारूप की व्याख्या की गई है।

फ़ाइल संरचना

JSON आउटपुट फ़ाइल में समान लंबाई की कई सूचियाँ होती हैं। प्रत्येक सूची का अनुक्रमणिका वीडियो के एक विशिष्ट फ्रेम के अनुरूप होती है जिस पर अनुमान लगाया जा रहा है।

{
    frame_offsets: [...],
    time_offsets: [...],
    fine_tuned_model_id: [...],
    fine_tuned_model_id: [...],
    clip: [...],
    gaze: [...]
    ...
}

frame_offset उस वीडियो फ्रेम नंबरों की सूची है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमान लगाया गया। सूची हमेशा 0से शुरू होती है। उदाहरण के लिए, यदि इनपुट वीडियो में 24 वीडियो फ्रेम-प्रति-सेकंड हैं, और हम infer_fps 4 फ्रेम प्रति सेकंड निर्दिष्ट करते हैं तो अनुमान के लिए चयनित फ्रेम अनुक्रमणिका (frame_offsets) होंगे [0, 6, 12, 18, 24, 30,...] यह सर्वोत्तम अभ्यास है कि infer_fps को वीडियो फ्रेम-रेट का एक गुणक चुना जाए। यदि वीडियो फ्रेम रेट infer_fps का एक पूर्ण गुणज नहीं है तो frame_offset एक अनुमान होगा। न्यूनतम infer_fps चुनें जो आपके अनुप्रयोग के लिए उपयुक्त हो क्योंकि उच्च मान अधिक लागत और धीमे परिणाम देंगे। यदि infer_fps वीडियो फ्रेम रेट से अधिक है तो सिस्टम आउटपुट नहीं लौटाएगा।

time-offsets सूची वीडियो प्लेबैक में वह समय दर्शाती है जब फ्रेम आता है। प्रत्येक समय प्रविष्टि सेकंड में है, 4 दशमलव स्थानों तक गोल की गई।

बाकी सूचियों में अनुमान डेटा होता है। सूची का प्रत्येक तत्व एक शब्दकोश हो सकता है या उसमें मान हो सकता है None, यदि उस विशेष फ्रेम पर मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।

अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों को विस्तार से बताते हैं।

ऑब्जेक्ट डिटेक्शन

नीचे दिया गया उदाहरण वस्तु पहचान मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।

{
    "time": 0.06994929000006778, 
    "image": {"width": 480, "height": 360}, 
    "predictions": [
        {
            "x": 360.0, 
            "y": 114.0, 
            "width": 36.0, 
            "height": 104.0, 
            "confidence": 0.6243005394935608, 
            "class": "zebra", 
            "class_id": 1
        }
    ]
}

यह time फ़ील्ड अनुमान गणना समय है और आमतौर पर इसे अनदेखा किया जा सकता है।

यह इमेज फ़ील्ड इनपुट के आयाम दिखाता है।

यह predictions सूची में प्रत्येक अनुमानित वर्ग की जानकारी होती है।

गेज़ डिटेक्शन

नीचे दिया गया उदाहरण दृष्टि पहचान मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।

{
    predictions: [
        {
            face: {
                x: 236,
                y: 208,
                width: 94,
                height: 94,
                confidence: 0.9232424,
                class: "face",
                class_confidence: null,
                class_id: 0,
                tracker_id: null
            },
            }
            landmarks: [
                {
                    x: 207,
                    y: 183
                },
                ... (6 landmarks)
            ]
            yaw: 0.82342350129345,
            pitch: 0.23152452412,      
        }
        ...
    ],
    time: 0.025234234,
    time_face_det: null,
    time_gaze_det: null
}

वर्गीकरण

<जल्द आ रहा है!>

इंस्टेंस सेगमेंटेशन

<जल्द आ रहा है!>

Last updated

Was this helpful?