Serverless Hosted API V2

Roboflow クラウドの GPU 加速インフラで Workflows とモデル推論を実行します。

Roboflow にデプロイされたモデルには、画像に対して推論を実行できる REST API が用意されています。このデプロイ方法は、デプロイ先デバイスが恒常的にインターネット接続されている環境に最適です。

プロジェクトに関連付けられた API はスケールします。プロジェクトが成長し推論要件が増加すると、API も拡張されます。

Serverless Hosted API V2 は当社の最新の API 提供です。V1 より高速で、Florence-2 や SAM-2 のような GPU を必要とするモデルでも動作します。

Workflow で API を使用する

REST API と併用する

ベンチマーク

Serverless Hosted API V2 に送信されるリクエストのエンドツーエンドの待ち時間は、いくつかの要因によって変わります:

  1. 実行時間に影響するモデルアーキテクチャ

  2. アップロード時間やモデル推論時間に影響する画像のサイズや解像度

  3. リクエストのアップロード時間やレスポンスのダウンロード時間に影響するネットワーク遅延と帯域幅

  4. 特定の時点での他のユーザーによるサービス購読や使用状況(キューイング遅延が発生する可能性があります)

下表では Serverless Hosted API V2 と Hosted API V1 で行った代表的なベンチマークの一部を示します。Serverless Hosted API V2 と Hosted Inference (V1) の結果は、エンドツーエンド待ち時間(E2E)と実行時間(Exec)を示しています。これらの数値は参考情報であり、ユーザー自身で以下を使ってベンチマークを行うことを推奨します。 当社の推論ベンチマークツール または独自のカスタムベンチマーク。

モデル
V2(E2E)
V2(Exec)
V1(E2E)
V1(Exec)

yolov8x-640

401 ms

29 ms

4084 ms

821 ms

yolov8m-640

757 ms

21 ms

572 ms

265 ms

yolov8n-640

384 ms

17 ms

312 ms

63 ms

yolov8x-1280

483 ms

97 ms

6431 ms

3032 ms

yolov8m-1280

416 ms

52 ms

1841 ms

1006 ms

yolov8n-1280

428 ms

35 ms

464 ms

157 ms

ユーザー自身でモデル推論やワークフローのベンチマークを実行し、特定のユースケースに関する実測値を取得することを推奨します。

制限事項

Serverless Hosted API V2 では、最大 20MB までのファイルをアップロードできます。これは新しい API であるため、高解像度画像で制限に遭遇する可能性があります。問題が発生した場合は、エンタープライズサポートの担当者にお問い合わせいただくか、以下にメッセージを投稿してください。 フォーラム.

リクエストが大きすぎる場合は、添付画像のサイズを縮小することをお勧めします。画像はサーバー側でモデルアーキテクチャが受け入れる入力サイズに合わせて受領後に縮小されるため、通常はパフォーマンスが大幅に低下することはありません。 Python SDK のような一部の SDK は、API に送信する前に自動的に画像をモデルアーキテクチャの入力サイズに縮小します。

Last updated

Was this helpful?