マルチモーダルモデルワークフロー

GPT-4o、Claude、Gemini、Florence-2のようなマルチモーダルVision Language ModelsをRoboflow Workflowsで使用できます。

Roboflow Workflowsは、Workflows内でマルチモーダルモデルを使用することをサポートしています。

幅広いタスクに使用できる汎用のマルチモーダルモデルが4つあります。これらは次のとおりです:

  • GPT-4o

  • Claude

  • Gemini

  • Florence-2

これらのモデルは次のようなタスクに使用できます:

  • 単一ラベルおよび複数ラベルの画像分類

  • ゼロショット物体検出

  • 画像キャプション生成

  • その他

Workflowsでマルチモーダルモデルを使用するには、次の操作が必要です:

  1. モデルを追加する。

  2. タスクタイプを選択する。

  3. モデルの結果を他のWorkflowsブロックが理解できる形式に変換する組み込みコネクタを使用する。

これらの各手順を順に説明します。

マルチモーダルモデルを追加する

WorkflowsでClaude、Gemini、またはGPT-4oを使用するには、使用したいモデルに対応するブロックを追加する必要があります。

このガイドでは、Claudeを使用する例で説明します。

「Add Block」をクリックしてブロックを追加します。次にClaudeを検索してください:

\

Claudeブロックを設定できる構成パネルが表示されます。

circle-info

外部APIを呼び出すマルチモーダルモデル(例:GPT-4o)を使用する場合は、モデルのAPIキーを設定する必要があります。

Claude(およびGemini、GPT-4o)は、次を含むいくつかのタスクで使用できます:

  • Open prompt:プロンプトをマルチモーダルモデルに直接渡します。

  • Text recognition (OCR):画像中の文字を読み取ります。

  • Structured output generation:指定されたフォーマットでデータを返します。

  • Single-label and multi-label classification:画像の内容を表す1つまたは複数のラベルを返します。

  • Visual question answering:画像の内容に関する特定の質問に答えます。

  • Captioning:画像のキャプションを返します。

  • Unprompted object detection:画像内の物体の位置に対応するバウンディングボックスを返します。

Task Typeドロップダウンからこれらのタスクを選択できます:

タスクタイプを選択すると、ブロックの出力が自動的にWorkflowの出力に追加されます。

以下は物体検出の構成例です:

コネクタを追加する

マルチモーダルモデルの出力を他のブロックで使用したい場合は、コネクタを追加する必要があります。

コネクタを使用して処理できるもの:

  • 分類結果、および;

  • バウンディングボックス。

たとえば、Claude 3がサポートするゼロショット物体検出からバウンディングボックスの値を抽出するコネクタを追加できます。

このコネクタは、Bounding Box VisualizationやLabel VisualizationなどのVisualizationブロックで使用できるようにボックスを処理します。

VLMコネクタを選択した場合、次を使用するように構成します:

  1. 入力画像

  2. マルチモーダルブロックの出力

  3. マルチモーダルモデルのクラス

  4. 使用しているマルチモーダルモデルの名前(この例では、 anthropic-claude)

  5. マルチモーダルモデルを設定するときに選択したタスクタイプ

ここにの構成例があります: VLM as Detector ブロック:

その後、コネクタの出力を他のブロックで使用できます。

たとえば、コネクタの出力を使用してBounding Box Visualizationブロックでバウンディングボックスを表示できます。Bounding Box Visualizationブロックは、入力画像とVLM as Detectorブロックの結果で構成する必要があります:

ここに1つの例が示されていますarrow-up-right マルチモーダルモデルを使用した物体検出のワークフロー:

Last updated

Was this helpful?