Google Cloud Storage

Google Cloud Storage에서 Roboflow로 이미지 업로드

Google Cloud Storage에 이미지 데이터를 저장하고 Roboflow에 업로드할 때 일반적으로 두 가지 옵션이 있습니다: 서명된 URL 사용 또는 이미지를 로컬로 수동으로 다운로드(gsutil CLI 사용)하여 로컬에서 업로드하는 방법입니다. 이들 방법 중 선택은 데이터 처리 및 관리에 대한 특정 요구 사항에 따라 달라집니다.

  • 서명된 URL: 이 방법은 이미지를 로컬 머신에 다운로드하는 데 필요한 추가 단계와 시간 소모를 피하고자 할 때 특히 유리합니다. 서명된 URL을 사용하면 이미지 데이터를 로컬에 저장하지 않고도 Google Cloud Storage에서 Roboflow API로 직접 업로드할 수 있습니다. 이로 인해 처리 속도가 빨라지고 로컬 시스템의 부하가 줄어듭니다.

  • 로컬 CLI: 경우에 따라 이미지를 먼저 로컬 환경으로 다운로드하는 것을 선호할 수 있습니다. 예를 들어 업로드 전에 이미지를 전처리하거나 수동으로 확인해야 하는 경우 로컬 사본이 있으면 유리합니다.

올바른 방법 선택은 데이터 전송 속도, 전처리 필요성 또는 이미지의 수동 검사와 같은 특정 사용 사례 요구 사항에 따라 달라집니다.

Google Cloud JSON 키

버킷에 대한 적절한 권한을 가진 서비스 계정을 생성하고 JSON 키 파일을 다운로드하세요. 이 파일에는 애플리케이션을 인증하는 데 사용되는 자격 증명이 포함됩니다.

옵션 1: 서명된 URL을 통한 업로드:

Python에서 Google Cloud SDK를 사용하여 Google Cloud Storage 버킷의 이미지에 대한 서명된 URL을 생성할 수 있습니다.

def get_gcs_signed_url(bucket_name: str, blob_name: str) -> str:
    """GCS 객체에 대한 서명된 URL을 생성합니다."""
    storage_client = storage.Client.from_service_account_json(GOOGLE_APPLICATION_CREDENTIALS)
    bucket = storage_client.get_bucket(bucket_name)
    blob = bucket.get_blob(blob_name)
    
    url = blob.generate_signed_url(
        version="v4",
        expiration=3600,  # 초 단위로 1시간
        method="GET"
    )
    return url

위 코드 조각에서는 Google Cloud Storage 버킷 이름과 블랍 이름이 필요합니다. 이미지의 서명된 URL이 생성되어 반환됩니다.

이를 바탕으로 버킷에 있는 모든 사용 가능한 객체를 가져와 Roboflow API를 통해 업로드하는 완전한 솔루션을 생성할 수 있습니다. 이 솔루션의 개요는 아래와 같습니다:

from google.cloud import storage
import requests
import urllib.parse

# ************* 이 변수들을 설정하세요 *************
GCS_BUCKET_NAME = "YOUR_GCS_BUCKET_NAME"
ROBOFLOW_API_KEY = "YOUR_ROBOFLOW_API_KEY"
ROBOFLOW_PROJECT_NAME = "YOUR_ROBOFLOW_PROJECT_NAME"
GOOGLE_APPLICATION_CREDENTIALS = "path/to/your-service-account-file.json"
# ***********************************************

def get_gcs_signed_url(bucket_name: str, blob_name: str) -> str:
    """GCS 객체에 대한 서명된 URL을 생성합니다."""
    storage_client = storage.Client.from_service_account_json(GOOGLE_APPLICATION_CREDENTIALS)
    bucket = storage_client.get_bucket(bucket_name)
    blob = bucket.get_blob(blob_name)
    
    url = blob.generate_signed_url(
        version="v4",
        expiration=3600,  # 초 단위로 1시간
        method="GET"
    )
    return url

def get_gcs_objects(bucket_name: str) -> list:
    """주어진 GCS 버킷의 객체 키 목록을 가져옵니다."""
    storage_client = storage.Client.from_service_account_json(GOOGLE_APPLICATION_CREDENTIALS)
    bucket = storage_client.get_bucket(bucket_name)
    blobs = bucket.list_blobs()

    object_names = []
    for blob in blobs:
        object_names.append(blob.name)
    return object_names

def upload_to_roboflow(api_key: str, project_name: str, presigned_url: str, img_name='', split="train"):
    """이미지를 Roboflow에 업로드합니다."""
    API_URL = "https://api.roboflow.com"
    if img_name == '':
        img_name = presigned_url.split("/")[-1]

    upload_url = "".join([
        API_URL + "/dataset/" + project_name + "/upload",
        "?api_key=" + api_key,
        "&name=" + img_name,
        "&split=" + split,
        "&image=" + urllib.parse.quote_plus(presigned_url),
    ])
    response = requests.post(upload_url)

    # 응답 코드 확인
    if response.status_code == 200:
        print(f"{img_name}을(를) {project_name}에 성공적으로 업로드했습니다")
        return True
    else:
        print(f"{img_name} 업로드 실패. 오류: {response.content.decode('utf-8')}")
        return False

if __name__ == "__main__":
    # 사용 가능한 블랍 목록 가져오기
    available_blobs = get_gcs_objects(GCS_BUCKET_NAME)
    
    # 선택 사항: 여기서 블랍을 필터링하세요
    # 예: available_blobs = [blob for blob in available_blobs if "some_condition"]
    
    # 블랍을 Roboflow에 업로드
    for blob in available_blobs:
        blob_url = get_gcs_signed_url(GCS_BUCKET_NAME, blob)
        upload_to_roboflow(ROBOFLOW_API_KEY, ROBOFLOW_PROJECT_NAME, blob_url)

옵션 2: GCP에서 데이터 로컬로 다운로드

GCP에서 데이터를 다운로드하려면 먼저 GCP CLI를 설치하세요. 그런 다음 GCP 사용자 계정으로 인증하세요.

이미지 또는 이미지 폴더를 다운로드하려면 다음 명령을 사용하세요:

gsutil cp -r gs://mybucket/folder .

다음을 교체하세요 mybucket GCP 스토리지 버킷의 이름으로 및 folder 복사하려는 파일 또는 폴더의 대상 위치로. 이 명령은 대상 파일 또는 폴더를 현재 작업 디렉터리에 저장합니다 (.).

데이터를 Roboflow에 업로드

이제 데이터를 다운로드했으므로 다음을 사용하여 Roboflow에 업로드할 수 있습니다 업로드 웹 인터페이스 또는 Roboflow CLI.

도움을 참조할 수 있습니다

Last updated

Was this helpful?