वीडियो इनफेरेंस JSON आउटपुट प्रारूप

वीडियो इनफेरेंस प्रक्रिया का आउटपुट एक JSON फ़ाइल है। इस पृष्ठ में इसके प्रारूप की व्याख्या की गई है।

फ़ाइल संरचना

JSON आउटपुट फ़ाइल में समान लंबाई की कई सूचियाँ होती हैं। प्रत्येक सूची का अनुक्रमणिका उस वीडियो के एक विशिष्ट फ्रेम से मेल खाता है जिस पर अनुमान लगाया जा रहा है।

{
    frame_offsets: [...],
    time_offsets: [...],
    fine_tuned_model_id: [...],
    fine_tuned_model_id: [...],
    clip: [...],
    gaze: [...]
    ...
}

frame_offset उस वीडियो फ्रेम नंबर को सूचीबद्ध करता है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमान लगाया गया। सूची हमेशा यहाँ से शुरू होती है 0. उदाहरण के लिए, यदि इनपुट वीडियो में 24 वीडियो फ्रेम-प्रति-सेकंड हैं, और हम निर्दिष्ट करते हैं infer_fps 4 फ्रेम प्रति सेकंड तो अनुमान के लिए चुने गए फ्रेम इंडेक्स (frame_offsets) होंगे [0, 6, 12, 18, 24, 30,...] यह सर्वोत्तम अभ्यास है कि infer_fps वीडियो फ्रेम-रेट का एक गुणज हो। यदि वीडियो फ्रेम रेट infer_fps का एक पूर्ण गुणज नहीं है तो frame_offset एक अनुमान होगा। न्यूनतम infer_fps चुनें जो आपके एप्लिकेशन के लिए काम करता है क्योंकि उच्च मान अधिक लागत और धीमे परिणाम देंगे। यदि infer_fps वीडियो फ्रेम रेट से अधिक है तो सिस्टम आउटपुट नहीं लौटाएगा।

time-offsets सूची वीडियो प्लेबैक में वह समय दर्शाती है जब फ्रेम आता है। प्रत्येक समय प्रविष्टि सेकंड में है, 4 दशमलव स्थानों तक गोल की गई।

बाकी सूचियों में अनुमान डेटा होता है। एक सूची का प्रत्येक तत्व एक डिक्शनरी हो सकता है या उसका मान हो सकता है None, यदि उस विशेष फ्रेम पर मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।

अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों को विस्तार से बताते हैं।

ऑब्जेक्ट डिटेक्शन

नीचे दिया गया उदाहरण एक ऑब्जेक्ट डिटेक्शन मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।

{
    "time": 0.06994929000006778, 
    "image": {"width": 480, "height": 360}, 
    "predictions": [
        {
            "x": 360.0, 
            "y": 114.0, 
            "width": 36.0, 
            "height": 104.0, 
            "confidence": 0.6243005394935608, 
            "class": "zebra", 
            "class_id": 1
        }
    ]
}

The time फ़ील्ड अनुमान गणना का समय है और आमतौर पर इसे अनदेखा किया जा सकता है।

The इमेज फ़ील्ड इनपुट के आयाम दिखाता है।

The predictions सूची में प्रत्येक अनुमानित वर्ग की जानकारी होती है।

Gaze Detection

नीचे दिया गया उदाहरण गेज़ डिटेक्शन मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।

{
    predictions: [
        {
            face: {
                x: 236,
                y: 208,
                width: 94,
                height: 94,
                confidence: 0.9232424,
                class: "face",
                class_confidence: null,
                class_id: 0,
                tracker_id: null
            },
            }
            landmarks: [
                {
                    x: 207,
                    y: 183
                },
                ... (6 landmarks)
            ]
            yaw: 0.82342350129345,
            pitch: 0.23152452412,      
        }
        ...
    ],
    time: 0.025234234,
    time_face_det: null,
    time_gaze_det: null
}

क्लासिफिकेशन

<जल्द आ रहा है!>

इंस्टेंस सेगमेंटेशन

<जल्द आ रहा है!>

Last updated

Was this helpful?