CLIP

CLIP एक मशीन लर्निंग मॉडल है जो इमेज और टेक्स्ट के लिए एम्बेडिंग्ज़ जनरेट करने में सक्षम है। इन एम्बेडिंग्ज़ का उपयोग ज़ीरो-शॉट क्लासिफिकेशन, सेमान्टिक इमेज सर्च और कई अन्य उपयोग मामलों के लिए किया जा सकता है। Roboflow Inference Server पर CLIP का उपयोग करने के लिए तीन मार्ग उपलब्ध हैं:

  • embed_image: इमेज एम्बेडिंग्ज़ की गणना करने के लिए उपयोग किया जाता है

  • embed_text: टेक्स्ट एम्बेडिंग्ज़ की गणना करने के लिए उपयोग किया जाता है

  • compare: टेक्स्ट और इमेज के एम्बेडिंग्ज़ की गणना करके उनकी तुलना करने के लिए उपयोग किया जाता है

इमेज एम्बेड करें

किसी इमेज का एम्बेड करना उस इमेज की जानकारी को एक अधिक प्रबंधनीय आकार में संपीड़ित करने जैसा है। जब हम किसी इमेज को एम्बेड करते हैं, तो हम उन दसियों हज़ार पिक्सल्स वाले इमेज इनपुट को लेते हैं और उसे कुछ सैकड़ों संख्याओं में परिष्कृत करते हैं जिन्हें एम्बेडिंग कहा जाता है। ये एम्बेडिंग्ज़ मानव दृष्टि के लिए विशेष अर्थ रखते हैं, और जब इन्हें अन्य एम्बेडिंग्ज़ से तुलना किया जाता है, तो ये बहुत उपयोगी साबित हो सकते हैं।

CLIP और Roboflow Inference Server का उपयोग करके इमेज एम्बेडिंग उत्पन्न करने के लिए:

# रिक्वेस्ट पेलोड परिभाषित करें
infer_clip_payload = {
    # इमेजेज़ urls के रूप में या base64 एन्कोडेड स्ट्रिंग्स के रूप में प्रदान की जा सकती हैं
    "image": {
        # "type" भी "base64" हो सकता है
        "type": "url",
        # "value" भी इमेज डेटा की base64 एन्कोडेड स्ट्रिंग हो सकती है
        "value": "https://images.freeimages.com/images/large-previews/36c/raccoons-in-the-wild-4-1624830.jpg",
    },
}

# इन्फरेंस सर्वर URL परिभाषित करें (localhost:9001, infer.roboflow.com, आदि)
base_url = "https://infer.roboflow.com"

# अपना Roboflow API Key परिभाषित करें
api_key = <YOUR API KEY HERE>

res = requests.post(
    f"{base_url}/clip/embed_image?api_key={api_key}",
    json=infer_clip_payload,
)

embeddings = res.json()['embeddings']

print(embeddings)

एक ही रिक्वेस्ट के साथ कई इमेजेज़ को एम्बेड किया जा सकता है:

टेक्स्ट एम्बेड करें

CLIP इमेज की तरह टेक्स्ट के लिए भी एम्बेडिंग्ज़ जनरेट कर सकता है।

कई टेक्स्ट ब्लॉक्स को एक ही रिक्वेस्ट में बैच किया जा सकता है:

तुलना (Compare)

CLIP का असली मूल्य तब प्रकट होता है जब एम्बेडिंग्ज़ की तुलना की जाती है। तुलना दो एम्बेडिंग्ज़ के बीच का गणितीय दूरी होती है जो cosine similarity का उपयोग करके गणना की जाती है। इस दूरी को एक समानता स्कोर के रूप में सोचा जा सकता है। अगर दो एम्बेडिंग्ज़ की cosine similarity 1 के पास है, तो वे समान माने जाते हैं।

जब आप compare करते हैं, तो आप एक prompt और एक या कई subjects परिभाषित करते हैं। चूंकि आप टेक्स्ट या इमेज का कोई भी संयोजन तुलना कर सकते हैं, इसलिए आपको prompt type और subject type भी परिभाषित करना होगा।

एक ही रिक्वेस्ट में कई prompts (एकल रिक्वेस्ट में आठ तक) लिस्ट के रूप में भेजे जा सकते हैं:

Last updated

Was this helpful?