Evaluate Trained Models
Model Evaluation を使用して、テストデータセット上でのモデルの性能を調査します。
Model Evaluation では次の内容を表示します:
モデルを実行する際の最適な信頼度の閾値を見つけるのに役立つ Production Metrics Explorer;
モデルの精度を高める方法に関する提案を提供する Model Improvement Recommendations;
モデルが異なるクラスをどの程度うまく識別できているかを示す Performance by Class;
モデルが得意・苦手な特定のクラスを見つけるのに使える Confusion Matrix、および;
モデルが得意または苦手な画像のクラスターを特定できるインタラクティブな vector explorer;
Model Evaluation を使って、モデルの改善余地がある領域を特定できます。
有料ユーザーが Roboflow 上で学習した、またはアップロードしたすべてのバージョン管理されたモデルに対して、Model Evaluation は自動的に実行されます。数百枚規模のデータセットの評価には数分、数千枚以上の大規模データセットでは数時間かかる場合があります。
Model Evaluation を開く
モデルの Confusion Matrix と vector explorer を見つけるには、あなたの Project で任意の学習済みの Model Version を開きます。次に、"View Evaluation" ボタンをクリックします:

Confusion Matrix とベクトル分析を表示できるウィンドウが開きます。
Production Metrics Explorer
Production Metrics Explorer は、あらゆる信頼度の閾値におけるモデルの Precision、Recall、F1 スコアを表示します。これらの情報はグラフで表示されます。
これらの統計に基づき、Production Metrics Explorer は「最適な信頼度」を推奨します。これは Precision/Recall/F1 スコアのトレードオフが最も良くなる閾値です。
本ツールを使って、本番環境でモデルに設定する信頼度の閾値を検討できます。

スライダーをドラッグして、異なる信頼度の閾値における F1/Precision/Recall の値を確認できます:

Model Improvement Recommendations
Model Evaluation の Model Improvement Recommendations セクションには、モデルの精度を高める方法に関する提案が一覧表示されます。これらの改善案は、あなたのモデルで計算された Confusion Matrix の結果に基づいています。(Confusion Matrix についての詳細は、このページの後半を参照してください。)
Model Improvement Recommendations 機能は、次のような提案を行います:
偽陰性が多いモデルを改善する方法。
偽陽性が多いモデルを改善する方法。
どのクラスが頻繁に混同(誤認識)されているか。
精度向上のために、どのクラスにより多くのデータが必要か。
テストまたは検証セットが小さすぎる可能性がある場合。
その他多数。

Performance by Class
Performance by Class のチャートは、データセット内のすべてのクラスにわたって、正解予測、誤分類、偽陰性、偽陽性の件数を表示します。
この情報を使うと、モデルが得意に識別できるクラスと、識別に苦労しているクラスを一目で把握できます。

データセットにクラスが多数ある場合は、"All Classes" ドロップダウンを開き、強調表示したいクラスを選択することで、特定のクラスにチャートを絞り込めます:

Confidence Threshold スライダーを動かすことで、異なる信頼度の閾値においてこのチャートがどのように変化するかも確認できます:

デフォルトでは、このチャートは当社が推奨する最適な信頼度の閾値を使用します。
Confusion Matrix
あなたの Confusion Matrix は、モデルがクラスごとにどの程度うまく動作しているかを示します。
Confusion Matrix は、学習済みモデルでテストセットと検証セットの画像を実行して算出されます。その結果を、データセットのアノテーションにおける「ground truth」と比較します。
Confusion Matrix ツールを使うと、次のことを特定できます:
モデルの性能が良好なクラス。
モデルがオブジェクトに対して誤ったクラスを識別しているクラス(false positives)。
実際には存在しない場所でモデルがオブジェクトを検出している事例(false negatives)。
Confusion Matrix の例を示します:

モデルが多数のクラスを検出する場合、Confusion Matrix を操作できるスクロールバーが表示されます。
デフォルトでは、Confusion Matrix は、あなたのモデルに対して計算された最適な閾値で実行したときの性能を示します。
Confidence Threshold スライダーで信頼度の閾値を調整できます。スライダーの設定に応じて、Confusion Matrix、Precision、Recall が更新されます:

Confusion Matrix の各マスをクリックすると、対応するカテゴリに含まれる画像を確認できます。
たとえば、"False Positive" 列の任意のマスをクリックすると、ground truth データには存在しないのにオブジェクトが検出された画像を特定できます。

個々の画像をクリックすると、ground truth(あなたのアノテーション)とモデルの予測を切り替えられるインタラクティブなビューに入ります:

"Ground Truth" をクリックするとアノテーションが表示され、"Model Predictions" をクリックするとモデルの出力が表示されます。
Last updated
Was this helpful?