멀티모달 모델 워크플로우

GPT-4o, Claude, Gemini, Florence-2와 같은 멀티모달 비전 언어 모델을 Roboflow Workflows와 함께 사용할 수 있습니다.

Roboflow Workflows는 Workflows에서 멀티모달 모델을 사용하는 것을 지원합니다.

광범위한 작업에 사용할 수 있는 범용 멀티모달 모델이 네 가지 있습니다. 이들은:

  • GPT-4o

  • Claude

  • Gemini

  • Florence-2

이 모델들은 다음과 같은 작업에 사용할 수 있습니다:

  • 단일 및 다중 레이블 이미지 분류

  • 제로샷 객체 감지

  • 이미지 캡션 생성

  • 그리고 더 많은 기능

Workflows에서 멀티모달 모델을 사용하려면 다음을 수행해야 합니다:

  1. 모델을 추가합니다.

  2. 작업 유형을 선택합니다.

  3. 모델의 결과를 다른 Workflows 블록이 이해할 수 있는 형식으로 변환하는 내장 커넥터를 사용합니다.

각 단계를 함께 살펴보겠습니다.

멀티모달 모델 추가

Workflows에서 Claude, Gemini 또는 GPT-4o를 사용하려면 사용하려는 모델에 해당하는 블록을 추가해야 합니다.

이 가이드에서는 Claude를 사용하는 예를 살펴보겠습니다.

“Add Block”을 클릭하여 블록을 추가한 다음 Claude를 검색합니다:

특정 경우 TRT 컨테이너를 특정 GPU 또는 vGPU에서 실행하려면 다음을 지정할 수 있습니다:

Claude 블록을 구성할 수 있는 구성 패널이 나타납니다.

circle-info

외부 API를 호출하는 멀티모달 모델(예: GPT-4o)을 사용하는 경우 모델 API 키를 설정해야 합니다.

Claude(및 Gemini, GPT-4o)를 다음을 포함한 여러 작업에 사용할 수 있습니다:

  • 오픈 프롬프트: 프롬프트를 멀티모달 모델에 직접 전달합니다.

  • 텍스트 인식(OCR): 이미지 내 문자를 읽습니다.

  • 구조화된 출력 생성: 지정된 형식으로 데이터를 반환합니다.

  • 단일 레이블 및 다중 레이블 분류: 이미지 내용에 해당하는 하나 이상의 레이블을 반환합니다.

  • 시각적 질문 응답: 이미지 내용에 대한 특정 질문에 답합니다.

  • 캡셔닝: 이미지 캡션을 반환합니다.

  • 프롬프트 없는 객체 감지: 이미지 내 객체 위치에 해당하는 경계 상자를 반환합니다.

작업 유형 드롭다운에서 이러한 작업 중 하나를 선택할 수 있습니다:

작업 유형을 선택하면 블록의 출력이 자동으로 Workflow 출력에 추가됩니다.

다음은 객체 감지에 대한 예시 구성입니다:

커넥터 추가

멀티모달 모델의 출력을 다른 블록에서 사용하려면 커넥터를 추가해야 합니다.

커넥터를 사용하여 다음을 처리할 수 있습니다:

  • 분류 결과, 및;

  • 경계 상자.

예를 들어 Claude 3에서 지원하는 제로샷 객체 감지의 경계 상자 값을 검색하기 위해 커넥터를 추가할 수 있습니다.

이 커넥터는 Bounding Box Visualization 및 Label Visualization과 같은 시각화 블록에서 사용할 수 있도록 박스를 처리합니다.

VLM 커넥터를 선택할 때 다음을 사용하도록 구성하세요:

  1. 입력 이미지

  2. 멀티모달 블록의 출력

  3. 멀티모달 모델의 클래스

  4. 사용 중인 멀티모달 모델의 이름(이 예에서는 anthropic-claude)

  5. 멀티모달 모델을 설정할 때 선택한 작업 유형

다음은 VLM을 Detector로 사용 블록의 예시 구성입니다:

그런 다음 커넥터 출력을 다른 블록과 함께 사용할 수 있습니다.

예를 들어, 커넥터 출력을 사용하여 Bounding Box Visualization 블록으로 경계 상자를 표시할 수 있습니다. Bounding Box Visualization 블록은 입력 이미지와 VLM as Detector 블록의 결과로 구성되어야 합니다:

여기 한예시 워크플로우arrow-up-right 가 멀티모달 모델을 사용한 객체 감지에 사용됩니다:

Last updated

Was this helpful?