# 학습된 모델 평가

모델 평가 결과는 다음을 보여줍니다:

1. 프로덕션 메트릭 탐색기로, 모델을 실행할 최적의 confidence threshold를 찾는 데 도움이 됩니다;
2. 모델 개선 권장 사항으로, 모델의 정확도를 높이는 방법에 대한 제안을 제공합니다;
3. 클래스별 성능으로, 모델이 다양한 클래스를 얼마나 잘 식별하는지 보여줍니다;
4. confusion matrix로, 모델이 잘하는 클래스와 어려워하는 특정 클래스를 찾는 데 사용할 수 있으며;
5. 이미지 클러스터 중 모델이 잘하거나 못하는 영역을 식별할 수 있게 해주는 인터랙티브 vector explorer입니다;

모델 평가를 사용해 모델의 개선이 필요한 영역을 식별할 수 있습니다.

모델 평가는 유료 사용자가 Roboflow에서 학습했거나 업로드한 모든 버전 관리 모델에 대해 자동으로 실행됩니다. 수백 개의 이미지로 이루어진 데이터셋의 경우 평가가 완료되는 데 몇 분이 걸릴 수 있으며, 수천 개 이상의 이미지가 있는 대규모 데이터셋의 경우 몇 시간이 걸릴 수 있습니다.

### 모델 평가 열기

모델의 confusion matrix와 vector explorer를 찾으려면 프로젝트에서 학습된 모델 버전을 엽니다. 그런 다음 "View Evaluation" 버튼을 클릭하세요:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-8c6db60420e1905df8d6f3c824f91f0f219e8a76%2FScreenshot%202025-05-14%20at%2014.41.23.png?alt=media" alt=""><figcaption></figcaption></figure>

창이 열리면 confusion matrix와 vector analysis를 볼 수 있습니다.

### 프로덕션 메트릭 탐색기

프로덕션 메트릭 탐색기는 가능한 모든 confidence threshold에서 모델의 Precision, Recall, F1 점수를 보여줍니다. 이 정보는 그래프에 표시됩니다.

이 통계를 바탕으로 프로덕션 메트릭 탐색기는 "optimal confidence"를 추천합니다. 이는 Precision/Recall/F1 Score 균형이 가장 좋은 threshold입니다.

이 도구를 사용하면 프로덕션에서 모델에 설정할 confidence threshold를 결정하는 데 도움이 됩니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cf7be3e1155f28ab47c87709fe072e767b536898%2FScreenshot%202025-07-23%20at%2011.15.02.png?alt=media" alt=""><figcaption></figcaption></figure>

슬라이더를 드래그하면 서로 다른 confidence threshold에서의 F1/Precision/Recall 값을 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-c0f91bfa945e226cba1bdb659ef70c507779add8%2FScreenshot%202025-07-23%20at%2011.15.39.png?alt=media" alt=""><figcaption></figcaption></figure>

### 모델 개선 권장 사항

모델 평가의 모델 개선 권장 사항 섹션에는 모델의 정확도를 높이는 방법에 대한 제안이 나열됩니다. 이러한 개선 사항은 모델로 계산한 confusion matrix 결과를 기반으로 합니다. (이 페이지의 뒤쪽에서 confusion matrix에 대한 자세한 정보를 확인하세요).

모델 개선 권장 사항 기능은 다음과 관련된 제안을 할 수 있습니다:

* 많은 false negative를 예측하는 모델을 개선하는 방법.
* 많은 false positive를 예측하는 모델을 개선하는 방법.
* 어떤 클래스가 자주 혼동되는지(오분류되는지).
* 정확도를 높이기 위해 더 많은 데이터가 필요한 클래스가 무엇인지.
* 테스트 또는 validation set이 너무 작을 수 있는 경우.
* 그리고 그 외에도.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cb54b251f5e115f9a1eb549b0c03117d5b263b3b%2FScreenshot%202025-07-23%20at%2011.17.09.png?alt=media" alt=""><figcaption></figcaption></figure>

### 클래스별 성능

클래스별 성능 차트는 데이터셋의 모든 클래스에 걸친 정답 예측, 오분류, false negative, false positive의 수를 보여줍니다.

이 정보를 사용하면 한눈에 모델이 잘 식별하는 클래스와 모델이 식별하는 데 어려움을 겪는 클래스를 확인할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-ffaf491bbb2d955905c575d90aeb04a4fd94f257%2FScreenshot%202025-07-23%20at%2011.18.34.png?alt=media" alt=""><figcaption></figcaption></figure>

데이터셋에 클래스 수가 많다면 "All Classes" 드롭다운을 열고 강조 표시할 클래스를 선택하여 차트를 특정 클래스에 집중시킬 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-9656c52d9fc2be6f7da56bcd9bd4f2538677dba3%2FScreenshot%202025-07-23%20at%2011.19.30.png?alt=media" alt=""><figcaption></figcaption></figure>

Confidence Threshold 슬라이더를 이동하면 서로 다른 confidence threshold에서 이 차트가 어떻게 변하는지도 볼 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-443ab7ce57aba56477ab17435cb9f27f622fe7c1%2FScreenshot%202025-07-23%20at%2011.20.12.png?alt=media" alt=""><figcaption></figcaption></figure>

기본적으로 이 차트는 우리가 권장하는 optimal confidence threshold를 사용합니다.

### Confusion Matrix

confusion matrix는 모델이 다양한 클래스에서 얼마나 잘 수행하는지 보여줍니다.

confusion matrix는 학습된 모델로 테스트 및 validation set의 이미지를 실행하여 계산됩니다. 그런 다음 모델의 결과를 데이터셋 주석의 "ground truth"와 비교합니다.

confusion matrix 도구를 사용하면 다음을 식별할 수 있습니다:

* 모델이 잘 수행하는 클래스.
* 모델이 객체에 대해 잘못된 클래스를 식별하는 클래스(false positive).
* 모델이 객체가 없는데도 객체를 식별하는 사례(false negative).

다음은 confusion matrix 예시입니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-cd0af50fa3e0c4158310901798a285245a9d87bc%2FScreenshot%202025-07-23%20at%2011.20.53.png?alt=media" alt=""><figcaption></figcaption></figure>

모델이 많은 클래스를 감지하는 경우, confusion matrix를 탐색할 수 있도록 스크롤 바가 표시됩니다.

기본적으로 confusion matrix는 모델에 대해 계산된 optimal threshold에서 실행했을 때 모델이 어떻게 수행하는지 보여줍니다.

Confidence Threshold 슬라이더를 사용하여 confidence threshold를 조정할 수 있습니다. 슬라이더를 설정하면 confusion matrix, precision, recall이 업데이트됩니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-37d06af76a4e8f6a660dec67c79f30d7d47e67ea%2FScreenshot%202025-07-23%20at%2011.21.19.png?alt=media" alt=""><figcaption></figcaption></figure>

confusion matrix의 각 상자를 클릭하면 해당 범주에 어떤 이미지가 표시되는지 볼 수 있습니다.

예를 들어, "False Positive" 열의 아무 상자나 클릭하면 ground truth 데이터에는 존재하지 않는 객체가 식별된 이미지를 확인할 수 있습니다.

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-5372c962df1b4125d6d89098a5b43ea4df21e74c%2FScreenshot%202025-07-23%20at%2011.22.08.png?alt=media" alt=""><figcaption></figcaption></figure>

개별 이미지를 클릭하면 ground truth(주석)와 model predictions를 전환할 수 있는 인터랙티브 보기로 들어갈 수 있습니다:

<figure><img src="https://3958014485-files.gitbook.io/~/files/v0/b/gitbook-x-prod.appspot.com/o/spaces%2F-M6S9nPJhEX9FYH6clfW%2Fuploads%2Fgit-blob-15edd76d7c3b4f61ddd86e3581a91b90f0b72608%2FScreenshot%202025-07-23%20at%2011.22.30.png?alt=media" alt=""><figcaption></figcaption></figure>

"Ground Truth"를 클릭하면 주석을 볼 수 있고, "Model Predictions"를 클릭하면 모델이 반환한 결과를 볼 수 있습니다.
