Serverless Hosted API V2

Roboflow クラウドの GPU 加速インフラ上で Workflows とモデル推論を実行します。

Roboflow にデプロイされたモデルは、REST API を通じて画像の推論を実行できます。このデプロイ方法は、デプロイ先デバイスに常時インターネット接続がある環境に最適です。

プロジェクトに関連付けられた API は、あなたの成長に合わせてスケールします。プロジェクトが成長し、より多くの推論が必要になれば、API も拡張されます。

Serverless Hosted API V2 は最新の API です。V1 よりも高速で、Florence-2 や SAM-2 など GPU を必要とするモデルにも対応しています。

Workflow で API を使用する

REST API で使用する

ベンチマーク

Serverless Hosted API V2 へのリクエストのエンドツーエンド遅延は、いくつかの要因によって決まります。

  1. モデルアーキテクチャ(実行時間に影響)

  2. 画像のサイズと解像度(アップロード時間や推論実行時間に影響)

  3. ネットワークの遅延と帯域幅(リクエストのアップロードやレスポンスのダウンロード時間に影響)

  4. 特定の時間帯における他ユーザーのサービス利用状況(キュー待ち遅延が発生する場合あり)

下記の表に、Serverless Hosted API V2 および Hosted API V1 で実施した代表的なベンチマークを示します。Serverless Hosted API V2 と Hosted Inference (V1) の結果には、エンドツーエンド遅延(E2E)と実行時間(Exec)が含まれます。これらの数値は参考情報であり、ユーザー自身で 当社の推論ベンチマークツール または独自のカスタムベンチマークを使用して計測することを推奨します。

モデル
V2(E2E)
V2(Exec)
V1(E2E)
V1(Exec)

yolov8x-640

401 ms

29 ms

4084 ms

821 ms

yolov8m-640

757 ms

21 ms

572 ms

265 ms

yolov8n-640

384 ms

17 ms

312 ms

63 ms

yolov8x-1280

483 ms

97 ms

6431 ms

3032 ms

yolov8m-1280

416 ms

52 ms

1841 ms

1006 ms

yolov8n-1280

428 ms

35 ms

464 ms

157 ms

ユーザー自身のモデル推論や Workflow のために、実際のユースケースにおける正確な指標を得るために独自のベンチマークを実施することを推奨します。

制限

Serverless Hosted API V2 では、最大 20MB までのファイルをアップロードできます。この API は新しいため、高解像度画像では制限に遭遇する場合があります。問題が発生した場合は、エンタープライズサポート担当者にご連絡いただくか、次の場所にメッセージを投稿してください。 フォーラム.

リクエストが大きすぎる場合は、添付画像を縮小することを推奨します。これは通常、パフォーマンスの低下にはつながりません。なぜなら、画像はサーバーで受信後、モデルアーキテクチャが受け入れる入力サイズに自動的に縮小されるためです。 Python SDKのような一部のSDKでは、APIに送信される前に画像をモデルアーキテクチャの入力サイズに自動的に縮小します。

Last updated

Was this helpful?