(레거시) Serverless Hosted API
저희는 권장합니다 Serverless Hosted API의 V2 사용을 권장합니다. V2 API가 더 빠릅니다. 새 API를 사용하려면 Serverless Hosted API V2 문서를 참조하세요.
모델 지원
다음 모델 유형들은 Serverless Hosted API (v1)에서 지원됩니다:
지연 시간 비교 (v1 vs v2)
Serverless Hosted API에 전송된 요청의 엔드투엔드 지연 시간은 여러 요인에 따라 달라집니다:
실행 시간에 영향을 미치는 모델 아키텍처
업로드 시간 및 실행 중 모델 추론 시간에 영향을 주는 이미지의 크기 및 해상도
요청 업로드 시간 및 응답 다운로드 시간에 영향을 주는 네트워크 지연 및 대역폭
특정 시점의 서비스 구독 및 다른 사용자의 사용량으로 인해 큐잉 지연이 발생할 수 있음

아래 표에는 v1과 v2 Serverless Hosted API의 대표적인 벤치마크를 일부 보여줍니다. 엔드투엔드 지연 시간(E2E)과 실행 시간(Exec) 모두를 보여줍니다. 이 수치는 참고용이며, 사용자가 당사의 추론 벤치마크 도구 또는 자체 커스텀 벤치마크를 사용하여 직접 벤치마크를 수행할 것을 권장합니다.
yolov8x-640
401 ms
29 ms
4084 ms
821 ms
yolov8m-640
757 ms
21 ms
572 ms
265 ms
yolov8n-640
384 ms
17 ms
312 ms
63 ms
yolov8x-1280
483 ms
97 ms
6431 ms
3032 ms
yolov8m-1280
416 ms
52 ms
1841 ms
1006 ms
yolov8n-1280
428 ms
35 ms
464 ms
157 ms
사용자는 자신의 모델 추론 및 워크플로우에 대해 실제 사용 사례의 지표를 얻기 위해 자체 벤치마크를 실행하는 것을 권장합니다.
제한 사항
Serverless Hosted API (v1)는 특정 작업 유형에 관계없이 최대 5MB까지 파일을 허용합니다. 이 제한에는 이미지 파일 크기 외에 첨부된 요청 정보가 포함되지만 이에 국한되지는 않습니다.
요청이 너무 큰 경우 첨부된 이미지를 축소하는 것을 권장합니다. 이미지는 서버에서 수신된 후 모델 아키텍처가 허용하는 입력 크기로 어차피 축소되기 때문에 보통 성능 저하를 초래하지 않습니다. Python SDK와 같은 일부 SDK는 API로 전송되기 전에 이미지를 모델 아키텍처의 입력 크기로 자동으로 축소합니다.
Last updated
Was this helpful?