# Dataset Analytics

Dataset Analytics では、プロジェクトに関連付けられたデータセットに関するさまざまな統計情報が表示されます。次の情報を確認できます:

* データセット内の画像数;
* アノテーション数;
* 平均画像サイズ;
* 画像比率の中央値;
* 不足しているアノテーション数;
* null アノテーション数;
* データセット全体の画像サイズ;
* オブジェクト数のヒストグラム、そして;
* アノテーション位置のヒートマップ。

Dataset Analytics を使用すると、データセットについてさまざまな洞察を得ることができます。たとえば、null アノテーションが 1 つもない場合は、作業中のプロジェクトに応じていくつか追加することを検討するとよいでしょう。アノテーションが不足している画像がある場合は、必要なアノテーションを追加するためにさらに詳しく調べることができます。

プロジェクトの Dataset Analytics を表示するには、プロジェクトの左側サイドバーで「Analytics」をクリックします:

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-088e5e12e4a8d3196e187a5b4d97bffb73d7cc9a%2FScreenshot%202025-05-19%20at%2011.49.32.png?alt=media" alt=""><figcaption></figcaption></figure>

すると、Dataset Analytics タブが開きます:

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-4dab0946c168b9f6f769eeba3e07ae10e075b2c8%2FScreenshot%202025-05-19%20at%2011.51.10.png?alt=media" alt=""><figcaption></figcaption></figure>

このページでは、次の内容を確認できます:

* train、test、valid の各データセット内の画像に含まれるクラス数の内訳。
* データセット内の画像のサイズとアスペクト比の概要。
* アノテーションの多い場所を示すヒートマップ。
* データセット内の各画像に何クラスのアノテーションがあるかを示すヒストグラム。

### Dimension Insights

Dimension Insights セクションでは、データセット内の元画像のサイズとアスペクト比を説明します。

プロジェクトバージョンを作成するときに Resize augmentation を適用すると — これはほとんどすべてのユースケースで強く推奨されます — バージョン内の画像はリサイズされますが、元画像はそのままです。

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-8935ad4d22a4d55d4c53a676164a03f364ce7d67%2FScreenshot%202025-06-09%20at%2011.38.21.png?alt=media" alt=""><figcaption></figcaption></figure>

### Annotation Heat Map

モデルを学習させるときは、データセットがモデルのデプロイ先の条件を反映していることが重要です。

たとえば、モデルがデプロイされる環境でアノテーションがカメラフレーム内のどこにでも現れる可能性がある場合 — たとえば、サイズの異なるオブジェクトがリアルタイムで動いている工場ラインや、オブジェクトをスマートフォンで撮影した画像などでは、画像内のさまざまな場所に現れるオブジェクトへアノテーションを付けることが重要です。

画像の異なる部分にあるオブジェクトへラベル付けすることで、モデルが特定の場所にあるオブジェクトの識別方法だけを学習して過学習するのを防げます。

Annotation Heat Map では、画像内のどこにアノテーションが多いか、または少ないかを示します。これにより、データセットのアノテーションが特定の場所に集中しすぎているシナリオを特定できます。

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-e2b93242f6a34898ac5f12ed79be48e3e9531e35%2FScreenshot%202025-06-09%20at%2011.40.13.png?alt=media" alt=""><figcaption></figcaption></figure>

Heat Map 上で領域をドラッグすると、選択した範囲の画像を表示できます:

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-6148d58b35b272cd092604e6902d9bdefd04809b%2FScreenshot%202025-06-09%20at%2011.45.20.png?alt=media" alt=""><figcaption></figcaption></figure>

### 画像ごとのオブジェクト数のヒストグラム

これは、各画像にどれだけのアノテーション済みオブジェクトがあるかの分布を示します。

モデルに通す画像にオブジェクトの複数インスタンスが含まれる可能性がある場合は、データセットに異なる数のオブジェクトインスタンスを含む画像を用意することをおすすめします。これにより、対象オブジェクトがない画像、1 つだけある画像、複数ある画像のいずれに対しても、モデルが適切に汎化できるようになります。

ここにヒストグラムの例があります:

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-f6bdf31894a57af06ca4b95039e6c4fb05959f26%2FScreenshot%202025-06-09%20at%2011.49.58.png?alt=media" alt=""><figcaption></figcaption></figure>

ヒストグラム上の任意のバーを選択すると、指定した件数の画像を表示できます:

<figure><img src="https://3740591140-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cd8792293afc23a08597db128922600f0ae84ddd%2FScreenshot%202025-06-09%20at%2011.50.30.png?alt=media" alt=""><figcaption></figcaption></figure>
