# AWS S3 Bucket

AWS S3で画像データの保存を扱い、Roboflowにアップロードする場合、一般的には2つの選択肢があります。署名付きURLを使う方法、または画像をローカルに手動でダウンロード（AWS CLI経由）してからローカルでアップロードする方法です。どちらの方法を選ぶかは、データ処理と管理における具体的な要件によります。

* **Signed URL**: この方法は、画像をローカルマシンにダウンロードする際に発生する追加の手順や時間的コストを避けたい場合に特に有利です。署名付きURLを使えば、画像データをローカルに保存することなく、S3からRoboflow APIへ直接アップロードできます。その結果、処理が高速になり、ローカルシステムへの負荷も軽減されます。
* **CLI でローカルに**：まず画像をローカル環境にダウンロードしたい、というケースもあるかもしれません。たとえば、Roboflow にアップロードする前に画像を前処理したり、手動で確認したりする必要がある場合は、ローカルコピーがあると便利です。

適切な方法の選択は、データ転送速度、前処理の必要性、画像の手動確認など、具体的なユースケース要件によって決まります。

### AWS CLI のセットアップ

スクリプトを使用する前に、必要な認証情報を使って AWS CLI をセットアップしてあることを確認してください。これにより、目的の S3 バケットにアクセスして管理できるようになります。

* [AWS CLI version 2 のインストール](https://docs.aws.amazon.com/cli/latest/userguide/install-cliv2.html)

#### AWS CLI の設定

1. AWS CLI をインストールしたら、ターミナルまたはコマンドプロンプトを開きます。
2. 次のコマンドを実行します:

   ```bash
   aws configure
   ```
3. AWS の認証情報の入力を求められます:

   ```
   AWS Access Key ID [None]: YOUR_ACCESS_KEY
   AWS Secret Access Key [None]: YOUR_SECRET_ACCESS_KEY
   Default region name [None]: YOUR_PREFERRED_REGION (例: us-west-1)
   Default output format [None]: json
   ```

### オプション 1: Signed URL 経由でアップロード:

Python の boto3 を使って、S3 バケット内の画像の署名付きURLを生成できます。

```python
def generate_presigned_url(bucket_name: str, object_name: str, region: str = 'us-east-2') -> str:
    """S3オブジェクトの署名付きURLを生成します。"""
    s3 = boto3.client('s3', region_name=region, config=Config(signature_version='s3v4'))
    url = s3.generate_presigned_url('get_object',
                                    Params={'Bucket': bucket_name, 'Key': object_name},
                                    ExpiresIn=3600)
    return url
```

上記のコードスニペットでは、S3バケットの名前、S3バケット内の画像のオブジェクト名、および aws region が必要です。画像の署名付きURLが生成され、返されます。

これを基に、S3バケット内で利用可能なすべてのオブジェクトを取得し、それらを API 経由で Roboflow にアップロードする完全なソリューションを作成できます。このソリューションの概要は以下のとおりです:

```python
import boto3
import requests
import urllib.parse
from botocore.config import Config

# ************* 以下の変数を設定してください *************
S3_BUCKET_NAME = "YOUR_S3_BUCKET_NAME"
ROBOFLOW_API_KEY = "YOUR_ROBOFLOW_API_KEY"
ROBOFLOW_PROJECT_NAME = "YOUR_ROBOFLOW_PROJECT_NAME"
# ***********************************************

def generate_presigned_url(bucket_name: str, object_name: str, region: str = 'us-east-2') -> str:
    """S3オブジェクトの署名付きURLを生成します。"""
    s3 = boto3.client('s3', region_name=region, config=Config(signature_version='s3v4'))
    url = s3.generate_presigned_url('get_object',
                                    Params={'Bucket': bucket_name, 'Key': object_name},
                                    ExpiresIn=3600)
    return url

def get_s3_objects(bucket_name: str) -> list:
    """指定された S3 バケット内のオブジェクトキーの一覧を取得します。"""
    s3 = boto3.client('s3')
    objects = []
    response = s3.list_objects_v2(Bucket=bucket_name)
    for obj in response['Contents']:
        objects.append(obj['Key'])
    return objects

def upload_to_roboflow(api_key: str, project_name: str, presigned_url: str, img_name='', split="train"):
    """画像を Roboflow にアップロードします。"""
    API_URL = "https://api.roboflow.com"
    if img_name == '':
        img_name = presigned_url.split("/")[-1]

    upload_url = "".join([
        API_URL + "/dataset/" + project_name + "/upload",
        "?api_key=" + api_key,
        "&name=" + img_name,
        "&split=" + split,
        "&image=" + urllib.parse.quote_plus(presigned_url),
    ])
    response = requests.post(upload_url)

    # レスポンスコードを確認
    if response.status_code == 200:
        print(f"{img_name} を {project_name} に正常にアップロードしました")
        return True
    else:
        print(f"{img_name} のアップロードに失敗しました。エラー: {response.content.decode('utf-8')}")
        return False

if __name__ == "__main__":
    # 利用可能な画像の一覧を取得
    available_images = get_s3_objects(S3_BUCKET_NAME)
    
    # 必要に応じて画像をここでフィルタリング
    # 例: available_images = [img for img in available_images if "some_condition"]
    
    # 画像を Roboflow にアップロード
    for image in available_images:
        presigned_url = generate_presigned_url(S3_BUCKET_NAME, image)
        upload_to_roboflow(ROBOFLOW_API_KEY, ROBOFLOW_PROJECT_NAME, presigned_url)

```

### オプション 2: AWS からデータをローカルにダウンロード

AWS からデータをアップロードするには、まず `awscli` [コマンドラインツール](https://docs.aws.amazon.com/cli/latest/userguide/getting-started-install.html)をインストールします。このツールを使うと、コマンドラインから AWS アカウントとやり取りできます。コマンドラインツールをインストールしたら、次のコマンドを実行します:

```bash
aws s3 sync s3://mybucket/folder_path .
```

置き換えてください `mybucket` でバケット名を、 `folder_path` でエクスポートしたいフォルダまたはファイルの名前を指定します。このコマンドは、AWS から現在の作業ディレクトリ（`.`).

### データを Roboflow にアップロード

データをダウンロードしたので、今度はそれを Roboflow にアップロードできます。方法は次のいずれかです。 [Upload Web Interface](https://docs.roboflow.com/roboflow/roboflow-jp/datasets/adding-data/..#upload-data-with-the-web-interface) または [Roboflow CLI](https://app.gitbook.com/s/e5GEiPeDoFksvZv1vH3A/command-line-interface/upload-a-dataset).

### も参照してください

* [Roboflow のプロジェクト ID を取得する](https://docs.roboflow.com/api-reference/workspace-and-project-ids)
