데이터셋 상태 점검
데이터셋의 품질을 평가하고 개선합니다.
Dataset Health Check는 프로젝트와 연결된 데이터셋에 대한 다양한 통계를 보여줍니다. 다음과 같은 정보를 확인할 수 있습니다:
데이터셋의 이미지 수;
어노테이션 수;
평균 이미지 크기;
이미지 비율의 중앙값;
누락된 어노테이션 수;
null 어노테이션 수;
데이터셋 전반의 이미지 차원;
객체 수 히스토그램, 그리고;
어노테이션 위치의 히트맵.
Dataset Health Check를 사용하면 데이터셋에 대한 다양한 인사이트를 얻을 수 있습니다. 예를 들어, null 어노테이션이 하나도 없다면 작업 중인 프로젝트에 따라 몇 개를 추가하는 것을 고려해 볼 수 있습니다. 누락된 어노테이션이 있는 이미지가 있다면, 필요한 어노테이션을 추가하기 위해 더 자세히 살펴볼 수 있습니다.
프로젝트의 Health Check를 보려면 Dataset 페이지를 열고 "Health Check" 탭을 클릭하세요:

그러면 Health Check 탭이 열립니다:

이 페이지에서 다음을 확인할 수 있습니다:
train, test, valid 데이터셋의 이미지에 있는 클래스 수에 대한 분석.
데이터셋의 이미지 크기와 종횡비 개요.
가장 많은 어노테이션이 어디에 있는지 보여주는 히트맵.
데이터셋의 각 이미지에 몇 개의 클래스가 어노테이션되어 있는지 보여주는 히스토그램.
Dimension Insights
Dimension Insights 섹션은 데이터셋의 원본 이미지 크기와 종횡비를 설명합니다.
프로젝트 버전을 생성할 때 Resize augmentation을 적용하면 — 거의 모든 사용 사례에서 강력히 권장합니다 — 버전의 이미지들은 크기가 조정되지만 원본 이미지는 그대로 유지됩니다.

Annotation Heat Map
모델을 학습할 때는 데이터셋이 모델이 배포될 환경을 잘 대표해야 합니다.
모델이 배포될 환경에서 어노테이션이 카메라 프레임의 어느 위치에나 나타날 수 있다면 — 예를 들어, 서로 다른 크기의 객체가 실시간으로 움직이는 공정 라인이나, 휴대폰으로 촬영한 객체 이미지의 경우처럼 — 이미지의 다양한 위치에 나타나는 객체를 어노테이션하는 것이 중요합니다.
이미지의 여러 부분에 있는 객체를 라벨링하면 모델이 특정 위치에 있는 객체만 식별하도록 과적합되는 것을 방지할 수 있습니다.
Annotation Heat Map은 이미지에서 어노테이션이 더 많거나 적은 위치를 보여줍니다. 이를 통해 데이터셋의 어노테이션이 특정 위치에 지나치게 집중된 경우를 식별할 수 있습니다.

Heat Map에서 영역을 드래그하면 선택한 범위의 이미지를 볼 수 있습니다:

이미지별 객체 수 히스토그램
이는 각 이미지에 어노테이션된 객체가 몇 개씩 분포하는지 보여줍니다.
모델에 입력하는 이미지에 객체의 여러 인스턴스가 포함될 수 있다면, 데이터셋에 서로 다른 개수의 객체 인스턴스가 있는 이미지가 포함되도록 하는 것을 권장합니다. 이렇게 하면 관심 객체가 없거나, 하나이거나, 여러 개인 이미지에도 모델이 잘 일반화되도록 할 수 있습니다.
다음은 히스토그램의 예시입니다:

히스토그램의 막대 중 하나를 선택하여 해당 개수의 이미지를 볼 수 있습니다:

마지막 업데이트
도움이 되었나요?