वीडियो inference प्रक्रिया का आउटपुट एक JSON फ़ाइल है। यह पृष्ठ इसका स्वरूप समझाता है।
फ़ाइल संरचना
JSON आउटपुट फ़ाइल में कई समान लंबाई की सूचियाँ होती हैं। प्रत्येक सूची का सूची-सूचकांक उस वीडियो के एक विशिष्ट फ़्रेम के अनुरूप होता है जिस पर अनुमान लगाया जा रहा है।
frame_offset उन वीडियो फ़्रेम नंबरों की सूची देता है जिन्हें निकाला गया और प्रत्येक मॉडल पर अनुमानित किया गया था। सूची हमेशा इस पर शुरू होती है 0. उदाहरण के लिए, अगर इनपुट वीडियो में 24 फ़्रेम-प्रति-सेकेंड हैं, और हमने एक निर्दिष्ट किया है infer_fps 4 फ़्रेम प्रति सेकेंड का तो inference के लिए चयनित फ़्रेम सूचकांक (frame_offsets) होंगे [0, 6, 12, 18, 24, 30,...]
यह सर्वोत्तम प्रथा है कि आप एक चुनें infer_fps जो वीडियो फ़्रेम-रेट का कारक हो। यदि वीडियो फ़्रेम रेट infer_fps का पूर्ण गुणक नहीं है तो frame_offset एक निकटतम अनुमान होगा। अपने अनुप्रयोग के लिए काम करने वाला न्यूनतम infer_fps चुनें क्योंकि उच्च मान अधिक लागत और धीमे परिणामों का कारण बनेंगे। यदि infer_fps वीडियो फ़्रेम रेट से अधिक है तो सिस्टम आउटपुट वापस नहीं करेगा।
time-offsets सूची उस समय को दर्शाती है जब फ़्रेम वीडियो प्लेबैक में आता है। प्रत्येक समय प्रविष्टि सेकंड में होती है, और इसे 4 दशमलव स्थानों तक गोल किया गया है।
बाकी सूचियाँ अनुमान डेटा (inference data) रखती हैं। किसी सूची का प्रत्येक तत्व एक शब्दकोश (dictionary) हो सकता है या उसका मान Noneहो सकता है, यदि उस विशेष फ़्रेम का मॉडल द्वारा सफलतापूर्वक अनुमान नहीं लगाया गया।
अगले अनुभाग में, हम विभिन्न मॉडल प्रकारों के लिए लौटाए गए परिणामों पर विस्तृत चर्चा करते हैं।
Object Detection
नीचे दिया गया उदाहरण ऑब्जेक्ट डिटेक्शन मॉडल की inference आउटपुट सूची के एक तत्व को दर्शाता है।