# 데이터셋 분석

Dataset Analytics는 프로젝트와 연결된 데이터셋에 대한 다양한 통계를 보여줍니다. 다음 정보를 확인할 수 있습니다:

* 데이터셋의 이미지 수;
* 어노테이션 수;
* 평균 이미지 크기;
* 이미지 비율의 중앙값;
* 누락된 어노테이션 수;
* null 어노테이션 수;
* 데이터셋 전체의 이미지 차원;
* 객체 수 히스토그램 및;
* 어노테이션 위치의 히트맵.

Dataset Analytics를 사용하면 데이터셋에 대한 다양한 인사이트를 얻을 수 있습니다. 예를 들어 null 어노테이션이 없다면, 작업 중인 프로젝트에 따라 몇 개를 추가하는 것을 고려할 수 있습니다. 누락된 어노테이션이 있는 이미지가 있다면, 필요한 어노테이션을 추가하기 위해 더 자세히 살펴볼 수 있습니다.

프로젝트의 Dataset Analytics를 보려면, 프로젝트 왼쪽 사이드바에서 "Analytics"를 클릭하세요:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-088e5e12e4a8d3196e187a5b4d97bffb73d7cc9a%2FScreenshot%202025-05-19%20at%2011.49.32.png?alt=media" alt=""><figcaption></figcaption></figure>

그러면 Dataset Analytics 탭이 열립니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-4dab0946c168b9f6f769eeba3e07ae10e075b2c8%2FScreenshot%202025-05-19%20at%2011.51.10.png?alt=media" alt=""><figcaption></figcaption></figure>

이 페이지에서는 다음을 볼 수 있습니다:

* train, test, valid 데이터셋의 이미지 내 클래스 수에 대한 분류.
* 데이터셋의 이미지 크기와 종횡비에 대한 개요.
* 어노테이션이 가장 많이 있는 위치를 보여주는 히트맵.
* 데이터셋의 각 이미지에 얼마나 많은 클래스가 어노테이션되어 있는지 보여주는 히스토그램.

### Dimension Insights

Dimension Insights 섹션은 데이터셋의 원본 이미지 크기와 종횡비를 설명합니다.

프로젝트 버전을 만들 때 Resize augmentation을 적용하면 — 거의 모든 사용 사례에서 강력히 권장합니다 — 해당 버전의 이미지는 크기가 조정되지만, 원본 이미지는 그대로 유지됩니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-8935ad4d22a4d55d4c53a676164a03f364ce7d67%2FScreenshot%202025-06-09%20at%2011.38.21.png?alt=media" alt=""><figcaption></figcaption></figure>

### Annotation Heat Map

모델을 학습할 때는 데이터셋이 모델이 배포될 환경을 대표해야 합니다.

모델이 어노테이션이 카메라 프레임 어디에나 나타날 수 있는 환경에 배포될 경우 — 예를 들어 서로 다른 크기의 객체가 실시간으로 움직이는 공장 라인, 또는 휴대폰으로 촬영한 객체 이미지처럼 — 이미지의 서로 다른 위치에 나타나는 객체를 어노테이션하는 것이 중요합니다.

이미지의 서로 다른 부분에 있는 객체를 라벨링하면 모델이 특정 위치의 객체만 식별하도록 과적합되는 것을 방지할 수 있습니다.

Annotation Heat Map은 이미지에서 어노테이션이 더 많거나 적은 위치를 보여줍니다. 이를 통해 데이터셋 어노테이션이 특정 위치에 지나치게 집중된 경우를 식별할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-e2b93242f6a34898ac5f12ed79be48e3e9531e35%2FScreenshot%202025-06-09%20at%2011.40.13.png?alt=media" alt=""><figcaption></figcaption></figure>

Heat Map의 영역을 드래그하면 선택한 범위의 이미지를 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-6148d58b35b272cd092604e6902d9bdefd04809b%2FScreenshot%202025-06-09%20at%2011.45.20.png?alt=media" alt=""><figcaption></figcaption></figure>

### 이미지별 객체 수 히스토그램

각 이미지에 어노테이션된 객체가 몇 개씩 나타나는지에 대한 분포를 보여줍니다.

모델에 입력하는 이미지에 객체의 여러 인스턴스가 포함될 수 있다면, 데이터셋에 서로 다른 수의 객체 인스턴스를 포함한 이미지가 있도록 하는 것을 권장합니다. 이렇게 하면 관심 객체가 없거나, 하나 있거나, 여러 개 있는 이미지에 대해서도 모델이 잘 일반화되도록 할 수 있습니다.

여기 히스토그램의 예가 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-f6bdf31894a57af06ca4b95039e6c4fb05959f26%2FScreenshot%202025-06-09%20at%2011.49.58.png?alt=media" alt=""><figcaption></figcaption></figure>

히스토그램의 막대 중 하나를 선택하여 해당 개수의 이미지를 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cd8792293afc23a08597db128922600f0ae84ddd%2FScreenshot%202025-06-09%20at%2011.50.30.png?alt=media" alt=""><figcaption></figcaption></figure>
