Annotate Multimodal Data

マルチモーダルプロジェクトの一部であるデータセットにラベリングする場合、画像に注釈を付けるためにプレフィックスが使用されます。

プレフィックスは次のいずれかになります:

  • 次のような識別子: <PREFIX>、モデルにプロンプトを与えるために使用されます。 VLM (例:Florence-2)のようなもの、または;

  • 「この画像には何が映っていますか?」のような質問。これはGPT-4oのような一般的なVQAモデルと一緒に使用するのに最適です。

たとえばFlorence-2のファインチューニングでは、選択したプレフィックスはモデルに与えるプレフィックスプロンプトに対応します。Florence-2では、プレフィックスは次の形式であるべきです。 <PREFIX>、例えば <TOTAL>.

GPT-4oの場合、プレフィックスは「この領収書の合計はいくらですか?」のような文でもかまいません。

合計(total)、小計(subtotal)、税金(tax)など、識別したいオブジェクト内の異なる機能ごとに異なるプレフィックスを追加したい場合があります。

プレフィックスを追加

プレフィックスを追加するには、Roboflowサイドバーの「Classes & Tags」をクリックし、次に「Add 」ボタンをクリックします:

次に、プレフィックスを入力します。これは「画像には何が映っていますか?」のような質問、または「<RECEIPT>」のような固有のIDで、トレーニングしたいモデルに応じて選択します。

「+」ボタンで複数のプレフィックスを追加できます。

「Add Prefixes」をクリックしてプレフィックスを追加します。

プレフィックスを設定すると、注釈エディタで質問として利用可能になります:

Last updated

Was this helpful?