マルチモーダル Model Workflow
Roboflow Workflows では、GPT-4o、Claude、Gemini、Florence-2 などのマルチモーダル Vision Language Models を使用できます。
Roboflow Workflows は、Workflows で multimodal models を使用することをサポートしています。
幅広いタスクに使用できる汎用的な multimodal models は4つあります。これらは次のとおりです:
GPT-4o
Claude
Gemini
Florence-2
これらのモデルは、次のようなタスクに使用できます:
単一ラベルおよび複数ラベルの image classification
zero-shot object detection
image captioning の生成
その他
Workflows で multimodal model を使用するには、次のことが必要です:
モデルを追加する。
タスクタイプを選択する。
モデルの結果を、他の Workflows block が理解できる形式に変換する built-in connector を使用する。
これらの手順を順に見ていきましょう。
Multimodal Model を追加する
Workflows で Claude、Gemini、または GPT-4o を使用するには、使用したいモデルに対応する block を追加する必要があります。
このガイドでは、Claude を使った例を順に見ていきましょう。
「Add Block」をクリックして block を追加します。次に、Claude を検索します:
\
Claude block を設定できる configuration panel が表示されます。
外部 API を呼び出す任意の multimodal model(つまり GPT-4o)を使用する場合は、model API key を設定する必要があります。
Claude(および Gemini と GPT-4o)は、次のような複数のタスクに使用できます:
Open prompt: プロンプトを multimodal model に直接渡します。
Text recognition(OCR): 画像内の文字を読み取ります。
Structured output generation: 指定された形式でデータを返します。
Single-label および multi-label classification: 画像の内容を表す1つ以上のラベルを返します。
Visual question answering: 画像の内容についての特定の質問に答えます。
Captioning: 画像キャプションを返します。
Unprompted object detection: 画像内の物体の位置に対応する bounding boxes を返します。
Task Type ドロップダウンから、これらのタスクを選択できます:

タスクタイプを選択すると、block の出力は自動的に Workflow outputs に追加されます。
以下は object detection の設定例です:

Connector を追加する
multimodal model の出力を他の blocks で使用したい場合は、connector を追加する必要があります。
connectors を使用して処理できるもの:
classifications、および;
bounding boxes。
たとえば、Claude 3 がサポートする zero-shot object detection から bounding box の値を取得するために connector を追加できます。
この connector は boxes を、Bounding Box Visualization や Label Visualization などの Visualization blocks で使用できるように処理します。

VLM connector を選択したら、次を使用するように設定します:
入力画像
multimodal block の出力
multimodal model の classes
使用している multimodal model の名前(この例では、
anthropic-claude)multimodal model を設定したときに選択した task type
以下は、 VLM as Detector block の設定例です:

その後、connector の出力を他の blocks で使用できます。
たとえば、connector の出力を使用して、Bounding Box Visualization block で bounding boxes を表示できます。Bounding Box Visualization block は、入力画像と VLM as Detector block の結果を使うように設定する必要があります:

以下は例の workflow で、object detection に multimodal model を使用するものです:

最終更新
役に立ちましたか?