マルチモーダルデータのアノテーション
マルチモーダルプロジェクトの一部であるデータセットにラベルを付ける場合、接頭辞が画像の注釈に使用されます。
接頭辞は次のいずれかです:
次のような識別子
<PREFIX>
、これは VLM (例:Florence-2)を促すために使用されます。または;「この画像には何がありますか?」のような質問で、GPT-4oのような一般的なVQAモデルでの使用に最適です。
例えばFlorence-2のファインチューニングの場合、選択した接頭辞はモデルに与える接頭辞プロンプトに対応します。Florence-2の場合、接頭辞は <PREFIX>
のような形式である必要があります。 <TOTAL>
.
GPT-4oの場合、接頭辞は「このレシートの合計は何ですか?」のようになります。
識別したいオブジェクトの異なる特徴(合計、小計、税金など)ごとに異なる接頭辞を追加したい場合があります。
接頭辞を追加
接頭辞を追加するには、Roboflowのサイドバーで「Classes & Tags」をクリックし、「追加」ボタンをクリックします:

次に、接頭辞を入力します。これは「画像には何がありますか?」のような質問や「<RECEIPT>」のようなユニークなIDなど、トレーニングしたいモデルによって異なります。
「+」ボタンで複数の接頭辞を追加できます。
「接頭辞を追加」をクリックして接頭辞を追加します。
接頭辞を設定すると、注釈エディタで質問として利用できるようになります:

Last updated
Was this helpful?