マルチモーダルデータのアノテーション

マルチモーダルプロジェクトの一部であるデータセットにラベルを付ける場合、接頭辞が画像の注釈に使用されます。

接頭辞は次のいずれかです:

  • 次のような識別子 <PREFIX>、これは VLM (例:Florence-2)を促すために使用されます。または;

  • 「この画像には何がありますか?」のような質問で、GPT-4oのような一般的なVQAモデルでの使用に最適です。

例えばFlorence-2のファインチューニングの場合、選択した接頭辞はモデルに与える接頭辞プロンプトに対応します。Florence-2の場合、接頭辞は <PREFIX>のような形式である必要があります。 <TOTAL>.

GPT-4oの場合、接頭辞は「このレシートの合計は何ですか?」のようになります。

識別したいオブジェクトの異なる特徴(合計、小計、税金など)ごとに異なる接頭辞を追加したい場合があります。

接頭辞を追加

接頭辞を追加するには、Roboflowのサイドバーで「Classes & Tags」をクリックし、「追加」ボタンをクリックします:

次に、接頭辞を入力します。これは「画像には何がありますか?」のような質問や「<RECEIPT>」のようなユニークなIDなど、トレーニングしたいモデルによって異なります。

「+」ボタンで複数の接頭辞を追加できます。

「接頭辞を追加」をクリックして接頭辞を追加します。

接頭辞を設定すると、注釈エディタで質問として利用できるようになります:

Last updated

Was this helpful?