Use CLIP

ビデオのフレームで CLIP を実行します。

CLIPはゼロショット分類モデルで、次の用途に使用できます:

  1. 画像を分類する;

  2. 画像をクラスタリングする;

  3. テキストプロンプトと画像の類似度を比較する;

  4. 2つの画像間の類似度を比較する、など。

Roboflow Video Inference APIは、動画のフレームに対して生のCLIP埋め込み(選択したモデルに応じて512次元または768次元)を返すか、テキストまたは画像ベクトルを比較して各フレームごとにコサイン類似度スコアを返すことができます。

Video Inference APIでCLIPを使う

First, install the Roboflow Python package:

pip install roboflow

Next, create a new Python file and add the following code:

from roboflow import Roboflow, CLIPModel

rf = Roboflow(api_key="API_KEY")
model = CLIPModel()

job_id, signed_url, expire_time = model.predict_video(
    "football-video.mp4",
    fps=5,
    prediction_type="batch-video",
)

results = model.poll_until_video_results(job_id)

print(results)

Above, replace:

  • API_KEY: with your Roboflow API key

  • PROJECT_NAME: with your Roboflow project ID.

  • MODEL_ID: with your Roboflow model ID.

Learn how to retrieve your API key.

Learn how to retrieve a model ID.

Last updated

Was this helpful?