> For the complete documentation index, see [llms.txt](https://docs.roboflow.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://docs.roboflow.com/roboflow/roboflow-jp/train/evaluate-trained-models.md).

# 学習済みモデルを評価

Model evaluations では次のことが分かります:

1. 本番メトリクス explorer。モデルを実行する最適な confidence threshold を見つけるのに役立ちます。
2. Model improvement recommendations。モデルの精度を高める方法について提案を提供します。
3. Performance by class。モデルが各クラスをどれだけ正しく識別しているかを示します。
4. Confusion matrix。モデルが得意なクラスと苦手なクラスを特定するのに使用できます。
5. インタラクティブな vector explorer。モデルがうまく識別できる画像のクラスターや、うまくいかないクラスターを特定できます。

model evaluation を使うと、モデルの改善が必要な箇所を特定できます。

Model evaluations は、課金ユーザーが Roboflow 上で学習した、またはアップロードした、すべてのバージョン管理されたモデルに対して自動的に実行されます。数百枚の画像からなるデータセットでは evaluation の実行に数分かかる場合があり、数千枚以上の画像を含む大規模データセットでは数時間かかることがあります。

### 対応 Project Type

Model evaluation は Object Detection、Instance Segmentation、Classification、Semantic Segmentation の各 project をサポートしています。

Semantic Segmentation では、主要な指標は **mIoU** （mean Intersection-over-Union）であり、mAP ではありません。すべての指標（precision、recall、F1）は、インスタンス単位ではなくピクセル単位で算出されます。クラスごとの内訳では、各クラスの IoU、precision、recall、F1、そして最適な confidence threshold が表示されます。Confusion matrix の値は、オブジェクト数ではなくピクセル数を表します。

### Open Model Evaluation

モデルの confusion matrix と vector explorer を見つけるには、project 内の任意の学習済みモデル version を開きます。次に、"View Evaluation" ボタンをクリックします:

<figure><img src="/files/690cce118fc7efb2f23f72899b3b197597d38f59" alt=""><figcaption></figcaption></figure>

ウィンドウが開き、confusion matrix と vector analysis を確認できます。

### Production Metrics Explorer

Production metrics explorer では、考えられるすべての confidence threshold におけるモデルの Precision、Recall、F1 スコアが表示されます。この情報はグラフで示されます。

これらの統計をもとに、production metrics explorer は "optimal confidence" を推奨します。これは、Precision/Recall/F1 Score のトレードオフが最もよくなる threshold です。

model evaluation が完了すると、最適な confidence threshold がモデルの推論リクエストのデフォルトとして自動的に適用されます。クラスごとの threshold が利用可能な場合は、それも適用され、各クラス専用の値がない場合はグローバル threshold が代替として使用されます。

なお、個別の推論リクエストごとに confidence threshold を上書きすることもできます。 `confidence` パラメータを明示的に渡してください。

<figure><img src="/files/b93440f3d39a95bd663e92b881e1bea8fc985ee4" alt=""><figcaption></figcaption></figure>

スライダーをドラッグすると、異なる confidence threshold における F1/Precision/Recall の値を確認できます:

<figure><img src="/files/826d1108c4c4a964d85f79fc02ac73d157b9cc3a" alt=""><figcaption></figcaption></figure>

### Model Improvement Recommendations

model evaluation の Model improvement recommendations セクションには、モデルの精度を高めるための提案が一覧表示されます。これらの改善案は、モデルの confusion matrix の結果に基づいています。（confusion matrix の詳細はこのページの後半で説明します）。

model improvement recommendations 機能では、次のような提案が可能です:

* false negatives が多いモデルを改善する方法。
* false positives が多いモデルを改善する方法。
* どのクラスが頻繁に混同（誤認識）されるか。
* 精度向上のために、どのクラスにより多くのデータが必要か。
* test set または validation set が小さすぎる可能性がある場合。
* など。

<figure><img src="/files/603394ab0ee0cbc730976e5553fbc109a43b4ef3" alt=""><figcaption></figcaption></figure>

### Performance by Class

performance by class のチャートでは、データセット内のすべてのクラスにわたる正解予測、誤分類、false negatives、false positives の数が表示されます。

この情報を使うと、どのクラスをモデルがうまく識別でき、どのクラスの識別が苦手なのかを一目で確認できます。

<figure><img src="/files/3061ae117c0cddba253f8bb90a741c34e4ced9a5" alt=""><figcaption></figcaption></figure>

データセットに多数のクラスがある場合は、"All Classes" ドロップダウンを開いて強調表示したいクラスを選ぶことで、チャートを特定のクラスに絞り込めます:

<figure><img src="/files/6f35b08b2e67c0eaf41b12fb78415f42c3fa81d2" alt=""><figcaption></figcaption></figure>

Confidence Threshold スライダーを動かすことで、異なる confidence threshold におけるこのチャートの変化も確認できます:

<figure><img src="/files/cafa3bf89717ad99cb20640ea219a16fa4dd54a6" alt=""><figcaption></figcaption></figure>

デフォルトでは、このチャートは推奨される最適な confidence threshold を使用します。

### Confusion Matrix

confusion matrix では、モデルが各クラスでどれだけ良く動作するかが分かります。

confusion matrix は、train 済みモデルで test set と validation set の画像を実行することで算出されます。その後、モデルの結果がデータセット注釈の "ground truth" と比較されます。

confusion matrix ツールを使うと、次のことを特定できます:

* モデルがうまく動作しているクラス。
* オブジェクトに対して、モデルが誤ったクラスを識別しているケース（false positives）。
* 実際にはオブジェクトが存在しないのに、モデルがオブジェクトを検出しているケース（false negatives）。

confusion matrix の例は次のとおりです:

<figure><img src="/files/c85cb713ec3fd75e22c3a41623dc5d4f1551d552" alt=""><figcaption></figcaption></figure>

モデルが多くのクラスを検出する場合は、スクロールバーが表示され、confusion matrix を移動できます。

デフォルトでは、confusion matrix はモデルに対して算出された最適 threshold で実行したときの性能を表示します。

Confidence Threshold スライダーを使って confidence threshold を調整できます。スライダーを設定すると、confusion matrix、precision、recall が更新されます:

<figure><img src="/files/3b1a302cc17d2f4836d4dc5c460ddc88f69f93df" alt=""><figcaption></figcaption></figure>

confusion matrix の各ボックスをクリックすると、対応するカテゴリにどの画像が表示されるかを確認できます。

たとえば、"False Positive" 列の任意のボックスをクリックすると、ground truth データ上には存在しないオブジェクトが検出された画像を特定できます。

<figure><img src="/files/540463031945e541fa5e1c38e8f1a0cdf3b02c4e" alt=""><figcaption></figcaption></figure>

個々の画像をクリックすると、インタラクティブ表示に入り、ground truth（注釈）と model predictions を切り替えられます:

<figure><img src="/files/195b978564fd0d62470c3181b2dd4c00192261b7" alt=""><figcaption></figcaption></figure>

"Ground Truth" をクリックすると注釈を表示し、"Model Predictions" をクリックするとモデルの出力を表示できます。


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.roboflow.com/roboflow/roboflow-jp/train/evaluate-trained-models.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
