(레거시) Serverless Hosted API

circle-info

저희는 권장합니다 Serverless Hosted API의 V2 사용을 권장합니다. V2 API가 더 빠릅니다. 새 API를 사용하려면 Serverless Hosted API V2 문서를 참조하세요.

모델 지원

다음 모델 유형들은 Serverless Hosted API (v1)에서 지원됩니다:

작업 유형
Hosted API (v1)에서 지원

지연 시간 비교 (v1 vs v2)

Serverless Hosted API에 전송된 요청의 엔드투엔드 지연 시간은 여러 요인에 따라 달라집니다:

  1. 실행 시간에 영향을 미치는 모델 아키텍처

  2. 업로드 시간 및 실행 중 모델 추론 시간에 영향을 주는 이미지의 크기 및 해상도

  3. 요청 업로드 시간 및 응답 다운로드 시간에 영향을 주는 네트워크 지연 및 대역폭

  4. 특정 시점의 서비스 구독 및 다른 사용자의 사용량으로 인해 큐잉 지연이 발생할 수 있음

아래 표에는 v1과 v2 Serverless Hosted API의 대표적인 벤치마크를 일부 보여줍니다. 엔드투엔드 지연 시간(E2E)과 실행 시간(Exec) 모두를 보여줍니다. 이 수치는 참고용이며, 사용자가 당사의 추론 벤치마크 도구arrow-up-right 또는 자체 커스텀 벤치마크를 사용하여 직접 벤치마크를 수행할 것을 권장합니다.

모델
V2 (E2E)
V2 (Exec)
V1 (E2E)
V1 (Exec)

yolov8x-640

401 ms

29 ms

4084 ms

821 ms

yolov8m-640

757 ms

21 ms

572 ms

265 ms

yolov8n-640

384 ms

17 ms

312 ms

63 ms

yolov8x-1280

483 ms

97 ms

6431 ms

3032 ms

yolov8m-1280

416 ms

52 ms

1841 ms

1006 ms

yolov8n-1280

428 ms

35 ms

464 ms

157 ms

사용자는 자신의 모델 추론 및 워크플로우에 대해 실제 사용 사례의 지표를 얻기 위해 자체 벤치마크를 실행하는 것을 권장합니다.

제한 사항

Serverless Hosted API (v1)는 특정 작업 유형에 관계없이 최대 5MB까지 파일을 허용합니다. 이 제한에는 이미지 파일 크기 외에 첨부된 요청 정보가 포함되지만 이에 국한되지는 않습니다.

circle-info

요청이 너무 큰 경우 첨부된 이미지를 축소하는 것을 권장합니다. 이미지는 서버에서 수신된 후 모델 아키텍처가 허용하는 입력 크기로 어차피 축소되기 때문에 보통 성능 저하를 초래하지 않습니다. Python SDK와 같은 일부 SDK는 API로 전송되기 전에 이미지를 모델 아키텍처의 입력 크기로 자동으로 축소합니다.

Last updated

Was this helpful?