Serverless Hosted API V2

Roboflow クラウド上の GPU 加速インフラで Workflows とモデル推論を実行します。

Roboflow にデプロイされたモデルは、画像に対して推論を実行できる REST API を利用できます。このデプロイ方法は、デプロイ先デバイスが恒常的にインターネット接続されている環境に最適です。

プロジェクトに関連する API はあなたとともにスケールします:プロジェクトが成長し推論要件が増えるにつれて、API も拡張されます。

Serverless Hosted API V2 は当社の最新の API 提供です。V1 より高速で、Florence-2 や SAM-2 のような GPU を必要とするモデルでも動作します。

Workflow で API を使用する

REST API と併用する

ベンチマーク

Serverless Hosted API V2 に送信されるリクエストのエンドツーエンドのレイテンシは、いくつかの要因によって変わります:

  1. 実行時間に影響を与えるモデルアーキテクチャ

  2. アップロード時間や実行時のモデル推論時間に影響する画像のサイズと解像度

  3. リクエストのアップロード時間やレスポンスのダウンロード時間に影響するネットワークのレイテンシと帯域幅。

  4. 特定時点でのサービスサブスクリプション状況や他ユーザーによる利用状況により、キューイングによる遅延が発生する可能性があります

以下の表では、Serverless Hosted API V2 と Hosted API V1 上で実施した代表的なベンチマークの一部を示します。Serverless Hosted API V2 と Hosted Inference (V1) の結果は、エンドツーエンドレイテンシ(E2E)および実行時間(Exec)を示しています。これらの数値は参考情報であり、我々はユーザー自身で 当社の推論ベンチマークツールarrow-up-right または独自のカスタムベンチマークを使用してテストすることを推奨します。

モデル
V2 (E2E)
V2 (Exec)
V1 (E2E)
V1 (Exec)

yolov8x-640

401 ms

29 ms

4084 ms

821 ms

yolov8m-640

757 ms

21 ms

572 ms

265 ms

yolov8n-640

384 ms

17 ms

312 ms

63 ms

yolov8x-1280

483 ms

97 ms

6431 ms

3032 ms

yolov8m-1280

416 ms

52 ms

1841 ms

1006 ms

yolov8n-1280

428 ms

35 ms

464 ms

157 ms

ユーザー自身のモデル推論やワークフローについて、特定のユースケースにおける実際のメトリクスを得るために独自のベンチマーク実行を推奨します。

制限事項

Serverless Hosted API V2 では、最大 20MB までのファイルをアップロードできます。これは新しい API であるため、高解像度画像で制限に遭遇する可能性があります。問題が発生した場合は、エンタープライズサポートの担当者に連絡するか、 フォーラムarrow-up-right.

circle-info

リクエストが大きすぎる場合は、添付画像を縮小することを推奨します。通常、画像はサーバー到着後にモデルアーキテクチャが受け入れる入力サイズに合わせて縮小されるため、多くの場合パフォーマンスが大幅に悪化することはありません。 Python SDK のようないくつかの SDK は、API に送信される前に自動的に画像をモデルアーキテクチャの入力サイズに縮小します。

Last updated

Was this helpful?