데이터셋 분석

데이터셋의 품질을 평가하고 개선하세요.

Dataset Analytics는 프로젝트와 연결된 데이터셋에 대한 다양한 통계 정보를 보여줍니다. 다음과 같은 정보를 확인할 수 있습니다:

  • 데이터셋의 이미지 수;

  • 어노테이션 수;

  • 평균 이미지 크기;

  • 중간 이미지 비율;

  • 누락된 어노테이션 수;

  • 널(null) 어노테이션 수;

  • 데이터셋 전체의 이미지 해상도;

  • 객체 수 히스토그램, 및;

  • 어노테이션 위치의 히트맵.

Dataset Analytics를 사용하면 데이터셋에 대한 다양한 인사이트를 얻을 수 있습니다. 예를 들어 널(null) 어노테이션이 전혀 없다면 작업 중인 프로젝트에 따라 일부를 추가하는 것을 고려할 수 있고, 누락된 어노테이션이 있는 이미지가 있다면 해당 이미지를 자세히 살펴 필요한 어노테이션을 추가할 수 있습니다.

프로젝트의 Dataset Analytics를 보려면 프로젝트 왼쪽 사이드바에서 "Analytics"를 클릭하세요:

그러면 Dataset Analytics 탭이 열립니다:

이 페이지에서 다음을 볼 수 있습니다:

  • train, test, valid 데이터셋의 이미지에 포함된 클래스 수 분포.

  • 데이터셋 이미지들의 크기 및 종횡비 개요.

  • 대부분의 어노테이션이 위치한 곳을 보여주는 히트맵.

  • 데이터셋의 각 이미지에 몇 개의 클래스가 어노테이션되었는지를 보여주는 히스토그램.

차원 인사이트(Dimension Insights)

Dimension Insights 섹션은 데이터셋의 원시 이미지(raw images) 크기와 종횡비를 설명합니다.

프로젝트 버전을 생성할 때 Resize 증강을 적용하면 — 거의 모든 사용 사례에서 강력히 권장합니다 — 버전의 이미지들은 리사이즈되지만 원시 이미지는 그대로 유지됩니다.

어노테이션 히트맵(Annotation Heat Map)

모델을 학습할 때 데이터셋이 모델이 배포될 환경을 잘 대표하는 것이 중요합니다.

모델이 카메라 프레임 어디에나 어노테이션이 나타날 수 있는 환경에 배포될 경우 — 예를 들어 서로 다른 크기의 물체가 실시간으로 이동하는 공장 라인이나 스마트폰으로 촬영한 물체 이미지 등 — 이미지의 다양한 위치에 나타나는 물체를 어노테이션하는 것이 중요합니다.

이미지의 다양한 영역에 있는 객체를 라벨링하면 모델이 특정 위치에서만 객체를 식별하도록 과적합되지 않도록 할 수 있습니다.

어노테이션 히트맵은 이미지에서 어노테이션이 더 많거나 적은 위치를 보여줍니다. 이는 데이터셋의 어노테이션이 특정 위치에 지나치게 집중되어 있는 시나리오를 식별하는 데 사용할 수 있습니다.

히트맵에서 영역을 드래그하면 선택된 범위의 이미지를 볼 수 있습니다:

이미지별 객체 수 히스토그램

이는 각 이미지에 몇 개의 어노테이션된 객체가 나타나는지의 분포를 보여줍니다.

모델에 입력되는 이미지에 동일 객체의 여러 인스턴스가 포함될 수 있다면, 데이터셋에 서로 다른 수의 객체 인스턴스를 가진 이미지들을 포함시키는 것을 권장합니다. 이는 모델이 관심 객체가 없거나 하나만 있거나 여러 개인 이미지에 대해서도 잘 일반화하도록 돕습니다.

다음은 히스토그램의 예시입니다:

히스토그램의 아무 막대를 선택하여 해당 개수를 가진 이미지들을 볼 수 있습니다:

Last updated

Was this helpful?