データセット分析

データセットの品質を評価し、改善します。

Dataset Analyticsは、プロジェクトに関連付けられたデータセットに関するさまざまな統計情報を表示します。以下の情報を見ることができます:

  • データセット内の画像数;

  • アノテーション数;

  • 平均画像サイズ;

  • 中央値の画像比率;

  • 不足しているアノテーション数;

  • nullアノテーション数;

  • データセット全体の画像の寸法;

  • オブジェクト数のヒストグラム、および;

  • アノテーション位置のヒートマップ。

Dataset Analyticsを使用すると、データセットに関するさまざまなインサイトを得ることができます。たとえば、nullアノテーションがない場合、作業しているプロジェクトによっては追加を検討することもできますし、不足しているアノテーションがある画像があれば、必要なアノテーションを追加するためにさらに調査できます。

プロジェクトのDataset Analyticsを見るには、プロジェクトの左サイドバーで「Analytics」をクリックします:

すると、Dataset Analyticsタブが開きます:

このページでは、以下を見ることができます:

  • train、test、validデータセット内の画像に含まれるクラス数の内訳。

  • データセット内の画像のサイズとアスペクト比の概要。

  • アノテーションが最も多い場所を示すヒートマップ。

  • データセット内の各画像にアノテーションされたクラス数を示すヒストグラム。

Dimension Insights

Dimension Insightsセクションでは、データセット内の生画像のサイズとアスペクト比について説明します。

プロジェクトバージョン作成時にResizeオーグメンテーションを適用すると(ほとんどのユースケースで強く推奨します)、バージョン内の画像はリサイズされますが、生画像はそのままです。

Annotation Heat Map

モデルをトレーニングする際には、データセットがモデルを展開する環境を代表していることが重要です。

もしモデルが、アノテーションがカメラフレーム内のどこにでも現れる可能性のある環境(たとえば、リアルタイムで異なるサイズのオブジェクトが動いている工場ラインや、携帯電話で撮影した画像など)で展開される場合、画像内の異なる場所に現れるオブジェクトをアノテーションすることが重要です。

画像の異なる部分にあるオブジェクトにラベル付けすることで、モデルが特定の場所のオブジェクトだけを識別するように過学習するのを防ぐことができます。

Annotation Heat Mapは、画像内でアノテーションが多い場所や少ない場所を示します。これにより、データセットのアノテーションが特定の場所に集中しすぎているシナリオを特定できます。

ヒートマップ上のエリアをドラッグすると、選択した範囲の画像を見ることができます:

画像ごとのオブジェクト数のヒストグラム

これは、各画像にアノテーションされたオブジェクトがいくつあるかの分布を示します。

モデルに通す画像に複数のオブジェクトインスタンスが含まれる可能性がある場合は、データセットに異なる数のオブジェクトインスタンスを含む画像があることを確認することを推奨します。これにより、モデルが対象オブジェクトがない場合、1つの場合、複数の場合でもうまく一般化できるようになります。

以下はヒストグラムの例です:

ヒストグラムの任意のバーを選択すると、指定した数の画像を見ることができます:

Last updated

Was this helpful?