マルチモーダル Model Workflow

Roboflow Workflows では、GPT-4o、Claude、Gemini、Florence-2 などのマルチモーダル Vision Language Models を使用できます。

Roboflow Workflows は、Workflows で multimodal models を使用することをサポートしています。

幅広いタスクに使用できる汎用的な multimodal models は4つあります。これらは次のとおりです:

  • GPT-4o

  • Claude

  • Gemini

  • Florence-2

これらのモデルは、次のようなタスクに使用できます:

  • 単一ラベルおよび複数ラベルの image classification

  • zero-shot object detection

  • image captioning の生成

  • その他

Workflows で multimodal model を使用するには、次のことが必要です:

  1. モデルを追加する。

  2. タスクタイプを選択する。

  3. モデルの結果を、他の Workflows block が理解できる形式に変換する built-in connector を使用する。

これらの手順を順に見ていきましょう。

Multimodal Model を追加する

Workflows で Claude、Gemini、または GPT-4o を使用するには、使用したいモデルに対応する block を追加する必要があります。

このガイドでは、Claude を使った例を順に見ていきましょう。

「Add Block」をクリックして block を追加します。次に、Claude を検索します:

\

Claude block を設定できる configuration panel が表示されます。

外部 API を呼び出す任意の multimodal model(つまり GPT-4o)を使用する場合は、model API key を設定する必要があります。

Claude(および Gemini と GPT-4o)は、次のような複数のタスクに使用できます:

  • Open prompt: プロンプトを multimodal model に直接渡します。

  • Text recognition(OCR): 画像内の文字を読み取ります。

  • Structured output generation: 指定された形式でデータを返します。

  • Single-label および multi-label classification: 画像の内容を表す1つ以上のラベルを返します。

  • Visual question answering: 画像の内容についての特定の質問に答えます。

  • Captioning: 画像キャプションを返します。

  • Unprompted object detection: 画像内の物体の位置に対応する bounding boxes を返します。

Task Type ドロップダウンから、これらのタスクを選択できます:

タスクタイプを選択すると、block の出力は自動的に Workflow outputs に追加されます。

以下は object detection の設定例です:

Connector を追加する

multimodal model の出力を他の blocks で使用したい場合は、connector を追加する必要があります。

connectors を使用して処理できるもの:

  • classifications、および;

  • bounding boxes。

たとえば、Claude 3 がサポートする zero-shot object detection から bounding box の値を取得するために connector を追加できます。

この connector は boxes を、Bounding Box Visualization や Label Visualization などの Visualization blocks で使用できるように処理します。

VLM connector を選択したら、次を使用するように設定します:

  1. 入力画像

  2. multimodal block の出力

  3. multimodal model の classes

  4. 使用している multimodal model の名前(この例では、 anthropic-claude)

  5. multimodal model を設定したときに選択した task type

以下は、 VLM as Detector block の設定例です:

その後、connector の出力を他の blocks で使用できます。

たとえば、connector の出力を使用して、Bounding Box Visualization block で bounding boxes を表示できます。Bounding Box Visualization block は、入力画像と VLM as Detector block の結果を使うように設定する必要があります:

以下は例の workflow で、object detection に multimodal model を使用するものです:

最終更新

役に立ちましたか?