For the complete documentation index, see llms.txt. This page is also available as Markdown.

Multimodal Data に注釈を付ける

Multimodal project の一部であるデータセットにラベリングする場合、画像へのアノテーションにプレフィックスを使用します。

プレフィックスは次のいずれかです:

  • 次のような識別子 <PREFIX>で、 VLM のようなモデルにプロンプトを与えるために使われるもの、または;

  • 「この画像には何がありますか?」のような質問で、GPT-4o のような一般的な VQA モデルでの使用に最適です。

たとえば Florence-2 の fine-tuning では、選択したプレフィックスはモデルに与えるプレフィックスプロンプトに対応します。Florence-2 では、プレフィックスは次の形式である必要があります <PREFIX>、たとえば <TOTAL>.

GPT-4o では、プレフィックスは「このレシートの合計はいくらですか?」のようにできます。

識別したいオブジェクト内の total、subtotal、tax などの異なる特徴ごとに、異なるプレフィックスを追加したい場合があります。

Add Prefixes

プレフィックスを追加するには、Roboflow のサイドバーで「Classes & Tags」をクリックし、次に「Add 」ボタンをクリックします:

次に、プレフィックスを入力します。これは、「この画像には何がありますか?」のような質問や、「<RECEIPT>」のような一意の ID になります。どのモデルをトレーニングするかによって異なります。

「+」ボタンで複数のプレフィックスを追加できます。

プレフィックスを追加するには、「Add Prefixes」をクリックします。

プレフィックスを設定すると、アノテーションエディタで質問として利用できるようになります:

最終更新

役に立ちましたか?