For the complete documentation index, see llms.txt. This page is also available as Markdown.

Dataset Health Check

データセットの品質を評価し、改善します。

Dataset Health Check では、プロジェクトに関連付けられたデータセットに関するさまざまな統計情報を表示します。以下の情報を確認できます。

  • データセット内の画像数;

  • アノテーション数;

  • 画像の平均サイズ;

  • 画像比率の中央値;

  • 欠落しているアノテーション数;

  • null のアノテーション数;

  • データセット全体の画像サイズ;

  • オブジェクト数のヒストグラム、および;

  • アノテーション位置のヒートマップ。

Dataset Health Check を使うと、データセットについてさまざまな洞察を得ることができます。たとえば、null のアノテーションが1件もない場合、作業中のプロジェクトに応じて、いくつか追加することを検討するとよいでしょう。欠落しているアノテーションがある画像があれば、必要なアノテーションを追加するためにさらに詳しく調べることができます。

プロジェクトの Health Check を表示するには、Dataset ページを開き、「Health Check」タブをクリックします。

すると、Health Check タブが開きます。

このページでは、以下を確認できます。

  • train、test、valid のデータセット内の画像に含まれるクラス数の内訳。

  • データセット内の画像サイズとアスペクト比の概要。

  • アノテーションの多くがどこにあるかを示すヒートマップ。

  • データセット内の各画像にいくつのクラスがアノテーションされているかを示すヒストグラム。

Dimension Insights

Dimension Insights セクションでは、データセット内の元画像のサイズとアスペクト比を説明します。

プロジェクトバージョンを作成するときに Resize augmentation を適用する場合 — ほとんどすべてのユースケースで強く推奨します — バージョン内の画像はリサイズされますが、元画像はそのまま保持されます。

Annotation Heat Map

モデルを学習するときは、データセットがモデルのデプロイ先の条件を代表していることが重要です。

モデルを、アノテーションがカメラフレーム内のどこにでも現れうる環境にデプロイする場合 — たとえば、異なるサイズの物体がリアルタイムで動いている工場ラインや、スマートフォンで撮影した物体の画像など — 画像内のさまざまな場所に現れる物体へアノテーションを付けることが重要です。

画像の異なる部分にある物体へラベル付けすることで、モデルが特定の場所にある物体を識別する方法だけを学習して過学習するのを防げます。

Annotation Heat Map では、画像内のどこにアノテーションが多いか、または少ないかを表示します。これにより、データセットのアノテーションが特定の場所に集中しすぎているシナリオを特定できます。

Heat Map 上の任意の領域をドラッグすると、選択した範囲の画像を表示できます。

画像ごとのオブジェクト数のヒストグラム

これは、各画像にアノテーションされているオブジェクトの数の分布を示します。

モデルに通す画像にオブジェクトが複数含まれる可能性がある場合は、データセットに異なる個数のオブジェクトインスタンスを含む画像があることを確認することをおすすめします。これにより、対象オブジェクトがない、1つある、複数ある画像に対しても、モデルがうまく汎化できるようになります。

ここにヒストグラムの例があります:

ヒストグラム上の任意の棒を選択すると、指定した件数の画像を表示できます:

最終更新

役に立ちましたか?