# Dataset Analytics

Dataset Analytics는 프로젝트와 연결된 데이터셋에 대한 다양한 통계 정보를 보여줍니다. 다음과 같은 정보를 확인할 수 있습니다:

* 데이터셋의 이미지 수;
* 어노테이션 수;
* 평균 이미지 크기;
* 중간 이미지 비율;
* 누락된 어노테이션 수;
* 널(null) 어노테이션 수;
* 데이터셋 전체의 이미지 해상도;
* 객체 수 히스토그램, 및;
* 어노테이션 위치의 히트맵.

Dataset Analytics를 사용하면 데이터셋에 대한 다양한 인사이트를 얻을 수 있습니다. 예를 들어 널(null) 어노테이션이 전혀 없다면 작업 중인 프로젝트에 따라 일부를 추가하는 것을 고려할 수 있고, 누락된 어노테이션이 있는 이미지가 있다면 해당 이미지를 자세히 살펴 필요한 어노테이션을 추가할 수 있습니다.

프로젝트의 Dataset Analytics를 보려면 프로젝트 왼쪽 사이드바에서 "Analytics"를 클릭하세요:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-088e5e12e4a8d3196e187a5b4d97bffb73d7cc9a%2FScreenshot%202025-05-19%20at%2011.49.32.png?alt=media" alt=""><figcaption></figcaption></figure>

그러면 Dataset Analytics 탭이 열립니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-4dab0946c168b9f6f769eeba3e07ae10e075b2c8%2FScreenshot%202025-05-19%20at%2011.51.10.png?alt=media" alt=""><figcaption></figcaption></figure>

이 페이지에서 다음을 볼 수 있습니다:

* train, test, valid 데이터셋의 이미지에 포함된 클래스 수 분포.
* 데이터셋 이미지들의 크기 및 종횡비 개요.
* 대부분의 어노테이션이 위치한 곳을 보여주는 히트맵.
* 데이터셋의 각 이미지에 몇 개의 클래스가 어노테이션되었는지를 보여주는 히스토그램.

### 차원 인사이트(Dimension Insights)

Dimension Insights 섹션은 데이터셋의 원시 이미지(raw images) 크기와 종횡비를 설명합니다.

프로젝트 버전을 생성할 때 Resize 증강을 적용하면 — 거의 모든 사용 사례에서 강력히 권장합니다 — 버전의 이미지들은 리사이즈되지만 원시 이미지는 그대로 유지됩니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-8935ad4d22a4d55d4c53a676164a03f364ce7d67%2FScreenshot%202025-06-09%20at%2011.38.21.png?alt=media" alt=""><figcaption></figcaption></figure>

### 어노테이션 히트맵(Annotation Heat Map)

모델을 학습할 때 데이터셋이 모델이 배포될 환경을 잘 대표하는 것이 중요합니다.

모델이 카메라 프레임 어디에나 어노테이션이 나타날 수 있는 환경에 배포될 경우 — 예를 들어 서로 다른 크기의 물체가 실시간으로 이동하는 공장 라인이나 스마트폰으로 촬영한 물체 이미지 등 — 이미지의 다양한 위치에 나타나는 물체를 어노테이션하는 것이 중요합니다.

이미지의 다양한 영역에 있는 객체를 라벨링하면 모델이 특정 위치에서만 객체를 식별하도록 과적합되지 않도록 할 수 있습니다.

어노테이션 히트맵은 이미지에서 어노테이션이 더 많거나 적은 위치를 보여줍니다. 이는 데이터셋의 어노테이션이 특정 위치에 지나치게 집중되어 있는 시나리오를 식별하는 데 사용할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-e2b93242f6a34898ac5f12ed79be48e3e9531e35%2FScreenshot%202025-06-09%20at%2011.40.13.png?alt=media" alt=""><figcaption></figcaption></figure>

히트맵에서 영역을 드래그하면 선택된 범위의 이미지를 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-6148d58b35b272cd092604e6902d9bdefd04809b%2FScreenshot%202025-06-09%20at%2011.45.20.png?alt=media" alt=""><figcaption></figcaption></figure>

### 이미지별 객체 수 히스토그램

이는 각 이미지에 몇 개의 어노테이션된 객체가 나타나는지의 분포를 보여줍니다.

모델에 입력되는 이미지에 동일 객체의 여러 인스턴스가 포함될 수 있다면, 데이터셋에 서로 다른 수의 객체 인스턴스를 가진 이미지들을 포함시키는 것을 권장합니다. 이는 모델이 관심 객체가 없거나 하나만 있거나 여러 개인 이미지에 대해서도 잘 일반화하도록 돕습니다.

다음은 히스토그램의 예시입니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-f6bdf31894a57af06ca4b95039e6c4fb05959f26%2FScreenshot%202025-06-09%20at%2011.49.58.png?alt=media" alt=""><figcaption></figcaption></figure>

히스토그램의 아무 막대를 선택하여 해당 개수를 가진 이미지들을 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cd8792293afc23a08597db128922600f0ae84ddd%2FScreenshot%202025-06-09%20at%2011.50.30.png?alt=media" alt=""><figcaption></figcaption></figure>
