# Evaluate Trained Models

모델 평가가 보여줍니다:

1. 모델을 실행할 최적의 신뢰 임계값을 찾는 데 도움이 되는 프로덕션 메트릭 탐색기;
2. 모델의 정확도를 높일 수 있는 방법을 제공하는 모델 개선 권장사항;
3. 모델이 서로 다른 클래스들을 얼마나 잘 식별하는지 보여주는 클래스별 성능;
4. 모델이 잘하는 클래스와 어려워하는 클래스를 찾는 데 사용할 수 있는 혼동 행렬;
5. 모델이 잘하거나 못하는 이미지 클러스터를 식별할 수 있는 대화형 벡터 탐색기;

모델 평가를 사용하여 모델의 개선이 필요한 영역을 식별할 수 있습니다.

모델 평가는 유료 사용자가 Roboflow에 학습시키거나 업로드한 모든 버전 모델에 대해 자동으로 실행됩니다. 수백 장의 이미지로 구성된 데이터셋의 경우 평가가 실행되는 데 몇 분이 걸릴 수 있으며, 수천 장 이상의 대형 데이터셋의 경우 몇 시간이 걸릴 수 있습니다.

### 모델 평가 열기

모델의 혼동 행렬과 벡터 탐색기를 찾으려면 프로젝트에서 학습된 모델 버전 중 하나를 엽니다. 그런 다음 "View Evaluation" 버튼을 클릭하세요:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-8c6db60420e1905df8d6f3c824f91f0f219e8a76%2FScreenshot%202025-05-14%20at%2014.41.23.png?alt=media" alt=""><figcaption></figcaption></figure>

혼동 행렬과 벡터 분석을 볼 수 있는 창이 열립니다.

### 프로덕션 메트릭 탐색기

프로덕션 메트릭 탐색기는 모든 가능한 신뢰 임계값에서 모델의 Precision, Recall 및 F1 점수를 보여줍니다. 이 정보는 그래프 형태로 표시됩니다.

이 통계를 사용하여 프로덕션 메트릭 탐색기는 "optimal confidence"를 권장합니다. 이는 Precision/Recall/F1 점수의 균형이 가장 좋은 임계값입니다.

이 도구를 사용하여 프로덕션에서 모델에 설정할 신뢰 임계값을 결정하는 데 참고할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cf7be3e1155f28ab47c87709fe072e767b536898%2FScreenshot%202025-07-23%20at%2011.15.02.png?alt=media" alt=""><figcaption></figcaption></figure>

슬라이더를 드래그하면 서로 다른 신뢰 임계값에서의 F1/Precision/Recall 값을 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-c0f91bfa945e226cba1bdb659ef70c507779add8%2FScreenshot%202025-07-23%20at%2011.15.39.png?alt=media" alt=""><figcaption></figcaption></figure>

### 모델 개선 권장사항

모델 평가의 모델 개선 권장사항 섹션은 모델의 정확도를 높이는 방법에 대한 제안을 나열합니다. 이러한 개선 권장사항은 모델로 계산된 혼동 행렬 결과를 기반으로 합니다. (혼동 행렬에 대한 자세한 내용은 이 페이지의 아래를 참조하세요).

모델 개선 권장사항 기능은 다음과 관련된 제안을 할 수 있습니다:

* 많은 false negative를 예측하는 모델을 개선하는 방법.
* 많은 false positive를 예측하는 모델을 개선하는 방법.
* 자주 혼동되는(잘못 식별되는) 클래스들이 무엇인지.
* 정확도를 향상시키기 위해 더 많은 데이터가 필요한 클래스들.
* 테스트 또는 검증 세트가 너무 작을 수 있는 경우.
* 그리고 그 외 더 많은 사항들.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cb54b251f5e115f9a1eb549b0c03117d5b263b3b%2FScreenshot%202025-07-23%20at%2011.17.09.png?alt=media" alt=""><figcaption></figcaption></figure>

### 클래스별 성능

클래스별 성능 차트는 데이터셋의 모든 클래스에 대해 올바른 예측, 오분류, false negative 및 false positive가 각각 얼마나 있는지를 보여줍니다.

이 정보를 사용하면 한눈에 어떤 클래스들을 모델이 잘 식별하는지, 그리고 모델이 식별하는 데 어려움을 겪는 클래스가 무엇인지 확인할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-ffaf491bbb2d955905c575d90aeb04a4fd94f257%2FScreenshot%202025-07-23%20at%2011.18.34.png?alt=media" alt=""><figcaption></figcaption></figure>

데이터셋에 클래스가 많은 경우 "All Classes" 드롭다운을 열어 강조할 클래스를 선택하여 차트를 특정 클래스에 집중시킬 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-9656c52d9fc2be6f7da56bcd9bd4f2538677dba3%2FScreenshot%202025-07-23%20at%2011.19.30.png?alt=media" alt=""><figcaption></figcaption></figure>

신뢰 임계값 슬라이더를 이동하여 서로 다른 신뢰 임계값에서 이 차트가 어떻게 변하는지도 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-443ab7ce57aba56477ab17435cb9f27f622fe7c1%2FScreenshot%202025-07-23%20at%2011.20.12.png?alt=media" alt=""><figcaption></figcaption></figure>

기본적으로 이 차트는 우리가 권장하는 optimal confidence 임계값을 사용합니다.

### 혼동 행렬

혼동 행렬은 모델이 서로 다른 클래스에서 얼마나 잘 수행되는지를 보여줍니다.

혼동 행렬은 학습된 모델로 테스트 및 검증 세트의 이미지를 실행하여 계산됩니다. 모델의 결과는 데이터셋 주석의 "ground truth"와 비교됩니다.

혼동 행렬 도구를 사용하면 다음을 식별할 수 있습니다:

* 모델이 성능을 잘 내는 클래스들.
* 모델이 객체에 대해 잘못된 클래스를 식별하는 경우(false positives).
* 모델이 객체가 없는 곳에서 객체를 식별하는 경우(false negatives).

다음은 예시 혼동 행렬입니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cd0af50fa3e0c4158310901798a285245a9d87bc%2FScreenshot%202025-07-23%20at%2011.20.53.png?alt=media" alt=""><figcaption></figcaption></figure>

모델이 많은 클래스를 감지하는 경우 혼동 행렬을 탐색할 수 있도록 스크롤 바가 표시됩니다.

기본적으로 혼동 행렬은 모델에 대해 계산된 optimal threshold에서 실행했을 때의 성능을 보여줍니다.

Confidence Threshold 슬라이더를 사용하여 신뢰 임계값을 조정할 수 있습니다. 슬라이더를 구성하면 혼동 행렬, precision 및 recall이 업데이트됩니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-37d06af76a4e8f6a660dec67c79f30d7d47e67ea%2FScreenshot%202025-07-23%20at%2011.21.19.png?alt=media" alt=""><figcaption></figcaption></figure>

혼동 행렬의 각 상자를 클릭하여 해당 범주에 표시된 이미지를 볼 수 있습니다.

예를 들어 "False Positive" 열의 임의의 상자를 클릭하면 ground truth 데이터에 없는데 객체가 식별된 이미지들을 확인할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-5372c962df1b4125d6d89098a5b43ea4df21e74c%2FScreenshot%202025-07-23%20at%2011.22.08.png?alt=media" alt=""><figcaption></figcaption></figure>

개별 이미지를 클릭하면 대화형 뷰가 열리며 ground truth(주석)와 모델 예측 간을 전환할 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-15edd76d7c3b4f61ddd86e3581a91b90f0b72608%2FScreenshot%202025-07-23%20at%2011.22.30.png?alt=media" alt=""><figcaption></figcaption></figure>

"Ground Truth"를 클릭하면 주석을 보고 "Model Predictions"를 클릭하면 모델이 반환한 결과를 볼 수 있습니다.
