데이터셋 분석
데이터셋의 품질을 평가하고 개선하세요.
데이터셋 분석은 프로젝트와 연관된 데이터셋에 대한 다양한 통계를 보여줍니다. 다음과 같은 정보를 확인할 수 있습니다:
데이터셋에 있는 이미지 수;
주석(어노테이션) 수;
평균 이미지 크기;
중앙값 이미지 비율;
누락된 주석 수;
널(null) 주석 수;
데이터셋 전체의 이미지 크기;
객체 수 히스토그램, 그리고;
주석 위치의 히트맵.
데이터셋 분석을 사용하면 데이터셋에 대한 다양한 인사이트를 얻을 수 있습니다. 예를 들어, 널 주석이 없다면 작업 중인 프로젝트에 따라 몇 개를 추가하는 것을 고려할 수 있습니다. 누락된 주석이 있는 이미지가 있다면, 필요한 주석을 추가하기 위해 더 깊이 조사할 수 있습니다.
프로젝트의 데이터셋 분석을 보려면, 프로젝트의 왼쪽 사이드바에서 "Analytics"를 클릭하세요:

그러면 데이터셋 분석 탭이 열립니다:

이 페이지에서 다음을 볼 수 있습니다:
학습, 테스트, 검증 데이터셋 이미지에 있는 클래스 수의 분포.
데이터셋 내 이미지의 크기와 종횡비 개요.
대부분의 주석이 어디에 있는지 보여주는 히트맵.
데이터셋의 각 이미지에 몇 개의 클래스가 주석 처리되어 있는지 보여주는 히스토그램.
크기 인사이트
크기 인사이트 섹션은 데이터셋의 원본 이미지 크기와 종횡비를 설명합니다.
프로젝트 버전을 만들 때 Resize 증강을 적용하면(거의 모든 사용 사례에 강력히 권장됨) 해당 버전의 이미지는 크기가 조정되지만, 원본 이미지는 그대로 유지됩니다.

주석 히트맵
모델을 학습시킬 때, 데이터셋이 모델이 배포될 환경을 잘 대표하는 것이 중요합니다.
모델이 배포될 환경에서 주석이 카메라 프레임 어디에나 나타날 수 있다면(예: 다양한 크기의 객체가 실시간으로 움직이는 공장 라인, 또는 휴대폰으로 촬영한 이미지 등), 이미지 내 다양한 위치에 나타나는 객체를 주석 처리하는 것이 중요합니다.
이미지의 다양한 부분에 객체를 라벨링하면, 모델이 특정 위치의 객체만 인식하도록 과적합되는 것을 방지할 수 있습니다.
주석 히트맵은 이미지에서 주석이 더 많거나 적은 위치를 보여줍니다. 이를 통해 데이터셋 주석이 특정 위치에 너무 집중되어 있는 시나리오를 식별할 수 있습니다.

히트맵에서 영역을 드래그하면 선택한 범위의 이미지를 볼 수 있습니다:

이미지별 객체 수 히스토그램
각 이미지에 주석 처리된 객체가 몇 개 나타나는지 분포를 보여줍니다.
모델에 입력되는 이미지에 객체가 여러 번 등장할 수 있다면, 데이터셋에 객체 인스턴스 수가 다양한 이미지를 포함하는 것이 좋습니다. 이렇게 하면 모델이 관심 객체가 없는 경우, 하나만 있는 경우, 여러 개 있는 경우 모두에 잘 일반화할 수 있습니다.
다음은 히스토그램 예시입니다:

히스토그램의 막대 중 하나를 선택하면 해당 개수의 객체가 있는 이미지를 볼 수 있습니다:

Last updated
Was this helpful?