वीडियो इनफेरेंस JSON आउटपुट प्रारूप
वीडियो इनफेरेंस प्रक्रिया का आउटपुट एक JSON फ़ाइल है। इस पृष्ठ में इसके प्रारूप की व्याख्या की गई है।
फ़ाइल संरचना
JSON आउटपुट फ़ाइल में समान लंबाई की कई सूचियाँ होती हैं। प्रत्येक सूची का अनुक्रमणिका वीडियो के एक विशिष्ट फ्रेम के अनुरूप होती है जिस पर अनुमान लगाया जा रहा है।
{
frame_offsets: [...],
time_offsets: [...],
fine_tuned_model_id: [...],
fine_tuned_model_id: [...],
clip: [...],
gaze: [...]
...
}
frame_offset उस वीडियो फ्रेम नंबरों की सूची है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमान लगाया गया। सूची हमेशा 0
से शुरू होती है। उदाहरण के लिए, यदि इनपुट वीडियो में 24 वीडियो फ्रेम-प्रति-सेकंड हैं, और हम infer_fps
4 फ्रेम प्रति सेकंड निर्दिष्ट करते हैं तो अनुमान के लिए चयनित फ्रेम अनुक्रमणिका (frame_offsets
) होंगे [0, 6, 12, 18, 24, 30,...]
यह सर्वोत्तम अभ्यास है कि infer_fps
को वीडियो फ्रेम-रेट का एक गुणक चुना जाए। यदि वीडियो फ्रेम रेट infer_fps का एक पूर्ण गुणज नहीं है तो frame_offset एक अनुमान होगा। न्यूनतम infer_fps
चुनें जो आपके अनुप्रयोग के लिए उपयुक्त हो क्योंकि उच्च मान अधिक लागत और धीमे परिणाम देंगे। यदि infer_fps
वीडियो फ्रेम रेट से अधिक है तो सिस्टम आउटपुट नहीं लौटाएगा।
time-offsets सूची वीडियो प्लेबैक में वह समय दर्शाती है जब फ्रेम आता है। प्रत्येक समय प्रविष्टि सेकंड में है, 4 दशमलव स्थानों तक गोल की गई।
बाकी सूचियों में अनुमान डेटा होता है। सूची का प्रत्येक तत्व एक शब्दकोश हो सकता है या उसमें मान हो सकता है None
, यदि उस विशेष फ्रेम पर मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।
अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों को विस्तार से बताते हैं।
ऑब्जेक्ट डिटेक्शन
नीचे दिया गया उदाहरण वस्तु पहचान मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।
{
"time": 0.06994929000006778,
"image": {"width": 480, "height": 360},
"predictions": [
{
"x": 360.0,
"y": 114.0,
"width": 36.0,
"height": 104.0,
"confidence": 0.6243005394935608,
"class": "zebra",
"class_id": 1
}
]
}
यह time
फ़ील्ड अनुमान गणना समय है और आमतौर पर इसे अनदेखा किया जा सकता है।
यह इमेज
फ़ील्ड इनपुट के आयाम दिखाता है।
यह predictions
सूची में प्रत्येक अनुमानित वर्ग की जानकारी होती है।
गेज़ डिटेक्शन
नीचे दिया गया उदाहरण दृष्टि पहचान मॉडल के अनुमान आउटपुट सूची के एक तत्व को दर्शाता है।
{
predictions: [
{
face: {
x: 236,
y: 208,
width: 94,
height: 94,
confidence: 0.9232424,
class: "face",
class_confidence: null,
class_id: 0,
tracker_id: null
},
}
landmarks: [
{
x: 207,
y: 183
},
... (6 landmarks)
]
yaw: 0.82342350129345,
pitch: 0.23152452412,
}
...
],
time: 0.025234234,
time_face_det: null,
time_gaze_det: null
}
वर्गीकरण
<जल्द आ रहा है!>
इंस्टेंस सेगमेंटेशन
<जल्द आ रहा है!>
Last updated
Was this helpful?