Video Inference JSON आउटपुट फॉर्मेट
वीडियो इनफरेंस प्रक्रिया का आउटपुट एक JSON फ़ाइल होता है। यह पृष्ठ उसके फॉर्मेट के बारे में समझाता है।
फ़ाइल संरचना
JSON आउटपुट फ़ाइल में कई समान लंबाई की सूचियाँ होती हैं। प्रत्येक सूची का सूची-सूचकांक उस वीडियो के एक विशिष्ट फ़्रेम के अनुरूप होता है जिस पर अनुमान लगाया जा रहा है।
{
frame_offsets: [...],
time_offsets: [...],
fine_tuned_model_id: [...],
fine_tuned_model_id: [...],
clip: [...],
gaze: [...]
...
}frame_offset उन वीडियो फ़्रेम नंबरों की सूची देता है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमानित किया गया था। सूची हमेशा इस पर शुरू होती है 0. उदाहरण के लिए, अगर इनपुट वीडियो में 24 फ़्रेम-प्रति-सेकेंड हैं, और हमने एक निर्दिष्ट किया है infer_fps 4 फ़्रेम प्रति सेकेंड का तो inference के लिए चयनित फ़्रेम सूचकांक (frame_offsets) होंगे [0, 6, 12, 18, 24, 30,...]
यह सर्वोत्तम प्रथा है कि आप एक चुनें infer_fps जो वीडियो फ़्रेम-रेट का कारक हो। यदि वीडियो फ़्रेम रेट infer_fps का पूर्ण गुणक नहीं है तो frame_offset एक निकटतम अनुमान होगा। अपने अनुप्रयोग के लिए काम करने वाला न्यूनतम infer_fps चुनें क्योंकि उच्च मान अधिक लागत और धीमे परिणामों का कारण बनेंगे। यदि infer_fps वीडियो फ़्रेम रेट से अधिक है तो सिस्टम आउटपुट वापस नहीं करेगा।
time-offsets सूची उस समय को दर्शाती है जब फ़्रेम वीडियो प्लेबैक में आता है। प्रत्येक समय प्रविष्टि सेकंड में होती है, और इसे 4 दशमलव स्थानों तक गोल किया गया है।
बाकी सूचियाँ अनुमान डेटा (inference data) रखती हैं। किसी सूची का प्रत्येक तत्व एक शब्दकोश (dictionary) हो सकता है या उसका मान Noneहो सकता है, यदि उस विशेष फ़्रेम का मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।
अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों पर विस्तृत चर्चा करते हैं।
Object Detection
नीचे दिया गया उदाहरण ऑब्जेक्ट डिटेक्शन मॉडल की inference आउटपुट सूची के एक तत्व को दर्शाता है।
{
"time": 0.06994929000006778,
"image": {"width": 480, "height": 360},
"predictions": [
{
"x": 360.0,
"y": 114.0,
"width": 36.0,
"height": 104.0,
"confidence": 0.6243005394935608,
"class": "zebra",
"class_id": 1
}
]
}The time फ़ील्ड inference गणना समय है और आम तौर पर इसे अनदेखा किया जा सकता है।
The image फ़ील्ड इनपुट के आयाम दिखाता है।
The predictions सूची प्रत्येक अनुमानित वर्ग की जानकारी शामिल करती है।
YOLOv8
नीचे दिया गया उदाहरण gaze detection मॉडल की inference आउटपुट सूची के एक तत्व को दर्शाता है।
{
predictions: [
{
face: {
x: 236,
y: 208,
width: 94,
height: 94,
confidence: 0.9232424,
class: "face",
class_confidence: null,
class_id: 0,
tracker_id: null
},
}
landmarks: [
{
x: 207,
y: 183
},
... (6 landmarks)
]
yaw: 0.82342350129345,
pitch: 0.23152452412,
}
...
],
time: 0.025234234,
time_face_det: null,
time_gaze_det: null
}क्लासिफिकेशन
<जल्द आ रहा है!>
इंस्टेंस सेगमेंटेशन
<जल्द आ रहा है!>\
Last updated
Was this helpful?