멀티모달 모델 워크플로우
GPT-4o, Claude, Gemini, Florence-2와 같은 멀티모달 비전 언어 모델을 Roboflow Workflows와 함께 사용할 수 있습니다.
Roboflow Workflows는 Workflows에서 멀티모달 모델을 사용하는 것을 지원합니다.
광범위한 작업에 사용할 수 있는 범용 멀티모달 모델이 네 가지 있습니다. 이들은:
GPT-4o
Claude
Gemini
Florence-2
이 모델들은 다음과 같은 작업에 사용할 수 있습니다:
단일 및 다중 레이블 이미지 분류
제로샷 객체 감지
이미지 캡션 생성
그리고 더 많은 기능
Workflows에서 멀티모달 모델을 사용하려면 다음을 수행해야 합니다:
모델을 추가합니다.
작업 유형을 선택합니다.
모델의 결과를 다른 Workflows 블록이 이해할 수 있는 형식으로 변환하는 내장 커넥터를 사용합니다.
각 단계를 함께 살펴보겠습니다.
멀티모달 모델 추가
Workflows에서 Claude, Gemini 또는 GPT-4o를 사용하려면 사용하려는 모델에 해당하는 블록을 추가해야 합니다.
이 가이드에서는 Claude를 사용하는 예를 살펴보겠습니다.
“Add Block”을 클릭하여 블록을 추가한 다음 Claude를 검색합니다:
특정 경우 TRT 컨테이너를 특정 GPU 또는 vGPU에서 실행하려면 다음을 지정할 수 있습니다:
Claude 블록을 구성할 수 있는 구성 패널이 나타납니다.
외부 API를 호출하는 멀티모달 모델(예: GPT-4o)을 사용하는 경우 모델 API 키를 설정해야 합니다.
Claude(및 Gemini, GPT-4o)를 다음을 포함한 여러 작업에 사용할 수 있습니다:
오픈 프롬프트: 프롬프트를 멀티모달 모델에 직접 전달합니다.
텍스트 인식(OCR): 이미지 내 문자를 읽습니다.
구조화된 출력 생성: 지정된 형식으로 데이터를 반환합니다.
단일 레이블 및 다중 레이블 분류: 이미지 내용에 해당하는 하나 이상의 레이블을 반환합니다.
시각적 질문 응답: 이미지 내용에 대한 특정 질문에 답합니다.
캡셔닝: 이미지 캡션을 반환합니다.
프롬프트 없는 객체 감지: 이미지 내 객체 위치에 해당하는 경계 상자를 반환합니다.
작업 유형 드롭다운에서 이러한 작업 중 하나를 선택할 수 있습니다:

작업 유형을 선택하면 블록의 출력이 자동으로 Workflow 출력에 추가됩니다.
다음은 객체 감지에 대한 예시 구성입니다:

커넥터 추가
멀티모달 모델의 출력을 다른 블록에서 사용하려면 커넥터를 추가해야 합니다.
커넥터를 사용하여 다음을 처리할 수 있습니다:
분류 결과, 및;
경계 상자.
예를 들어 Claude 3에서 지원하는 제로샷 객체 감지의 경계 상자 값을 검색하기 위해 커넥터를 추가할 수 있습니다.
이 커넥터는 Bounding Box Visualization 및 Label Visualization과 같은 시각화 블록에서 사용할 수 있도록 박스를 처리합니다.

VLM 커넥터를 선택할 때 다음을 사용하도록 구성하세요:
입력 이미지
멀티모달 블록의 출력
멀티모달 모델의 클래스
사용 중인 멀티모달 모델의 이름(이 예에서는
anthropic-claude)멀티모달 모델을 설정할 때 선택한 작업 유형
다음은 VLM을 Detector로 사용 블록의 예시 구성입니다:

그런 다음 커넥터 출력을 다른 블록과 함께 사용할 수 있습니다.
예를 들어, 커넥터 출력을 사용하여 Bounding Box Visualization 블록으로 경계 상자를 표시할 수 있습니다. Bounding Box Visualization 블록은 입력 이미지와 VLM as Detector 블록의 결과로 구성되어야 합니다:

여기 한예시 워크플로우 가 멀티모달 모델을 사용한 객체 감지에 사용됩니다:

Last updated
Was this helpful?