Dataset Analytics

データセットの品質を評価し改善します。

Dataset Analytics は、プロジェクトに関連付けられたデータセットに関するさまざまな統計を表示します。次の情報を確認できます:

  • データセット内の画像数;

  • アノテーション数;

  • 平均画像サイズ;

  • 中央値の画像比率;

  • 欠損アノテーションの数;

  • ヌル(null)アノテーションの数;

  • データセット全体の画像寸法;

  • オブジェクト数のヒストグラム、そして;

  • アノテーション位置のヒートマップ。

Dataset Analytics を使用すると、データセットに関するさまざまなインサイトを導き出せます。例えば、null アノテーションがまったくない場合は、作業しているプロジェクトによってはいくつか追加することを検討してもよいかもしれません。欠損アノテーションのある画像がある場合は、必要なアノテーションを追加するためにさらに掘り下げることができます。

プロジェクトの Dataset Analytics を表示するには、プロジェクトの左サイドバーで「Analytics」をクリックします:

Dataset Analytics タブが開きます:

このページでは、次の内容を確認できます:

  • train、test、valid データセット内の画像に含まれるクラス数の内訳。

  • データセット内の画像のサイズとアスペクト比の概要。

  • アノテーションが最も多く存在する場所を示すヒートマップ。

  • データセット内の各画像に注釈されたクラス数の分布を示すヒストグラム。

Dimension Insights

Dimension Insights セクションは、データセット内の生の画像のサイズとアスペクト比を説明します。

プロジェクトバージョンを作成する際に Resize オーグメンテーションを適用した場合 — ほとんどのユースケースで強く推奨します — バージョン内の画像はリサイズされますが、生の画像はそのまま残ります。

Annotation Heat Map

モデルをトレーニングする際、デプロイされる環境を代表するデータセットであることが重要です。

モデルがアノテーションがカメラフレームのどこにでも現れうる環境にデプロイされる場合(例えば、異なるサイズの物体がリアルタイムで移動する工場ラインや、携帯電話で撮影した物体の画像など)、画像内の異なる場所に現れる物体をアノテートすることが重要です。

画像の異なる部分に物体のラベリングを行うことで、モデルが特定の場所でのみ物体を識別することを学んでしまう過学習を防げます。

Annotation Heat Map は、画像内でアノテーションが多い場所と少ない場所を示します。これは、データセットのアノテーションが特定の場所に偏りすぎているシナリオを特定するのに役立ちます。

Heat Map 上で範囲をドラッグすると、選択した範囲の画像を確認できます:

Histogram of Object Count by Image

これは、各画像に何個のアノテーション付きオブジェクトが現れるかの分布を示します。

モデルに入力する画像に同一オブジェクトの複数インスタンスが含まれる可能性がある場合、データセットに異なる個数のオブジェクトインスタンスを含む画像を用意することを推奨します。これにより、対象オブジェクトが存在しない画像、1つの画像、複数の画像に対してもモデルがうまく一般化できるようになります。

ここにヒストグラムの例があります:

ヒストグラムの任意のバーを選択すると、指定したカウントの画像を表示できます:

Last updated

Was this helpful?