NVIDIA GPU（レガシー）

追加の Enterprise 配備として、GPU デバイスにデプロイできる高速化推論ソリューションを提供します。

このページは古いバージョンですこのページはこちら.

インストール要件

これらのデプロイオプションには以下が必要です Roboflow Enterprise ライセンス.

Enterprise GPU 推論サーバーをデプロイするには、まず NVIDIA ドライバーと nvidia-container-runtimeをインストールして、Docker が GPU を推論サーバーにパススルーできるようにする必要があります。システムに既に nvidia-container-runtime がインストールされているか、インストールが成功したかを次のコマンドで確認できます：

docker run --gpus all -it ubuntu nvidia-smi

インストールが成功していれば、コンテナ内から GPU デバイスが見えるはずです：

Tue Nov  9 16:04:47 2021       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.91.03    Driver Version: 460.91.03    CUDA Version: N/A      |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:1E.0 Off |                    0 |
| N/A   41C    P0    56W / 149W |    504MiB / 11441MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+
                                                                               
+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

GPU TRT コンテナをビルドする前に必要な最後の情報はプロジェクト情報です。これには Roboflow API Key、Model ID、Model Version が含まれます。この情報をお持ちでない場合は、次のリンクに従ってくださいプロジェクト情報を見つける。見つかったら、それら3つの変数を後で使えるように保存してください。

Enterprise GPU TRT

Enterprise GPU TRT デプロイは、モデルをデバイス上でコンパイルし、利用可能なハードウェアに最適化します。GPU TRT コンテナには現在 3 つのデプロイオプションがあります。AWS 経由で EC2 にデプロイする方法、Windows 経由で WSL2 にデプロイする方法、Windows 経由で Anaconda にデプロイする方法です。

Amazon EC2 デプロイメント

AMI を選択して EC2 インスタンスを起動する

EC2 インスタンスで TRT GPU コンテナを実行するには、まず適切な AMI を選択する必要があります。AMI はインスタンスを起動するときに設定でき、インスタンスを起動する前に選択しておくべきです。ここでは NVIDIA GPU-Optimized AMI を使用します。これは Ubuntu 20.04、Docker、その他の要件が事前にインストールされたものです。

SSH で EC2 インスタンスにログインする

EC2 インスタンスが正常に稼働していれば、SSH と Amazon Keypair を使ってログインできます。Amazon はインスタンスへの接続方法に関するドキュメントをここに提供しています。Keypair が用意できていて EC2 インスタンスの Public DNS を知っている場合、以下のコマンドでインスタンスにログインできます。デフォルトの インスタンスユーザー名 は ubuntu です。

ssh -i /path/key-pair-name.pem instance-user-name@instance-public-dns-name

TRT GPU Docker コンテナを起動する

SSH で EC2 インスタンスにログインしたら、次のコマンドで Docker コンテナを起動できます：

sudo docker run --gpus all -p 9001:9001 --network="host" roboflow/inference-server-trt:latest

エンジンをコンパイルして推論を実行する

base64 エンコードした画像をサーバーに POST してモデルで推論を実行します — キャッシュなしで初めてモデルをコンパイルする場合は、推論の前にコンパイルが行われます：

base64 your_img.jpg | curl -d @- "http://0.0.0.0:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

Anaconda デプロイメント

Anaconda 環境をセットアップする

TRT コンテナを Anaconda または Miniconda上で実行するには、conda 環境を作成し Docker をインストールする必要があります。環境を作成するには、Anaconda ターミナル内で以下のコマンドを使用します。

conda create -n TRT python=3.8
conda activate TRT
pip install pybase64

Anaconda 環境に Docker をインストールする

Docker は以下からダウンロードして実行できます： Docker Desktop または、 conda-forge経由で Docker をインストールすることもできます。以下のコードは Anaconda のレシピマネージャーを使って Docker をインストールします。

conda install -c conda-forge docker

Anaconda 環境内で Docker コンテナを実行する

Docker Desktop をインストールしている場合は、コンテナにアクセスするためにそれを起動しておいてください。Docker Desktop をダウンロードしていない場合は、前述の conda-forge インストール手順

でデーモン版 Docker にアクセスできるはずです。

Anaconda 環境が Docker に正常にアクセスできるようになったら、次のコマンドで Docker コンテナを起動できます：

エンジンをコンパイルして推論を実行する

docker run --gpus all -p 9001:9001 roboflow/inference-server-trt:latest

別の Anaconda ターミナルを開き、推論を実行したいデータがあるディレクトリに移動します。base64 エンコードした画像をサーバーに POST してモデルで推論を実行します — キャッシュなしで初めてモデルをコンパイルする場合は、推論の前にコンパイルが行われます：

pybase64 encode your_img.jpg | curl -d @- "http://localhost:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

Windows Subsystem デプロイメント

Microsoft Store から Ubuntu をダウンロードする

WSL2 上に Docker をインストールする（オプション）

Ubuntu 20.04.5 LTS には Docker がインストールされているはずですが、もしインストールされていない場合のために、Ubuntu に Docker をインストールするための便利なコマンドを以下に示します。Anaconda のインストールと同様に、Docker をインストールする必要を回避するために Docker Desktop を実行することもできます。完全なドキュメントはここにあります： Ubuntu に Docker Engine をインストールする

sudo apt-get update
sudo apt-get install docker-ce docker-ce-cli containerd.io docker-compose-plugin

WSL2 内で Docker コンテナを実行する

WSL2 環境に Docker を正常にインストールしたら、TRT コンテナを実行できます。コンテナを実行するには、以下のコマンドを使用してポート 9001 で推論受け付けを開始します。

sudo docker run --gpus all -p 9001:9001 roboflow/inference-server-trt:latest

エンジンをコンパイルして推論を実行する

GPU TRT コンテナが Docker で実行されているので、別の Ubuntu ターミナルを開いて Docker コンテナに推論データを送信できます。以下を使用してください： ls および cd 推論を実行したい画像の場所に移動し、以下のコマンドを使用します。

これが初回の推論であれば、モデルのコンパイルに時間がかかります。モデルが構築された後の推論はより速くなります。

base64 your_img.jpg | curl -d @- "http://0.0.0.0:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

拡張機能

モデルのキャッシュ

場合によっては、サーバーが起動するたびに外部の Roboflow サーバーと通信してモデルをダウンロードする必要がないよう、モデルをローカルにキャッシュしたいことがあります。

モデルをオフラインでキャッシュするには、まず docker ボリュームを作成します：

docker volume create roboflow

次に、docker ボリュームを /cache ディレクトリにマウントしてサーバーを起動します：

sudo docker run --gpus all -p 9001:9001 --network="host" --mount source=roboflow,target=/cache roboflow/inference-server-trt:latest

Docker Compose によるマルチ GPU サポート

Roboflow TRT Docker コンテナの使用例にすぐアクセスできるリポジトリを作成しました。開始するには、以下の git clone コマンドを実行して docker compose テンプレートをダウンロードしてください。

git clone https://github.com/roboflow/trt-demos.git

この例では、ロードバランサー付きで 8 GPU を動かすように docker を構成しています。8 GPU 未満で実行する必要がある場合は、後述の方法で対応します。ここ.

ロードバランサーの構築

ロードバランサーの docker コンテナをビルドするには以下のコマンドを使用します。使用しているロードバランサーの詳細が必要な場合は、次で情報を参照できます。ここ.

docker build . -t lb

Docker Compose の起動

docker-compose.yaml ファイル内のサービス名が .conf/roboflow-nginx.conf ファイルに正しく反映されていることを確認してから docker compose を実行してください。

docker-compose up

これで、複数の GPU コンテナがロードバランサーとボリュームおよびポートを共有して起動するはずです。ロードバランサーは各コンテナのスループットを管理して最適な速度を維持します。Docker Desktop を使用している場合、正常に起動すると次のような表示になります。

推論の実行

GPU コンテナとロードバランサーが稼働していれば、ロードバランサーに対話してリクエストをそれぞれの GPU にルーティングし、最適なスループットを維持できます。

新しいターミナルを開いて以下の curl コマンドのいずれかを使用してロードバランサーをテストできます。

# Amazon EC2 デプロイメント
base64 your_img.jpg | curl -d @- "http://0.0.0.0:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

# Anaconda デプロイメント
pip install pybase64 
別の Anaconda ターミナルを開き、推論を実行したいデータがあるディレクトリに移動します。base64 エンコードした画像をサーバーに POST してモデルで推論を実行します — キャッシュなしで初めてモデルをコンパイルする場合は、推論の前にコンパイルが行われます：

# Windows Subsystem Linux
base64 your_img.jpg | curl -d @- "http://0.0.0.0:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

Docker Compose ファイルの構成

デフォルトの 8 GPU 未満で実行するには、このリポジトリ内のいくつかのファイルを変更する必要があります。最初に見るのは docker-compose.yaml で、Roboflow-GPU-1、Roboflow-GPU-2 などの多数のサービスが含まれています。これらのサービスが Docker コンテナを実行し、それぞれの GPU にアタッチします。

たとえば 3 GPU のみを実行したい場合、Roboflow-GPU-1、Roboflow-GPU-2、Roboflow-GPU-3 以外のすべてのサービスを削除できます。サービスを削除するには、そのサービス名を含む行と次のサービス名までのすべての行を削除してください。

docker-compose.yaml

version: "3"
services:  
  Roboflow-GPU-1:
    image: roboflow/inference-server-trt:latest
    restart: always
    volumes:
      - shared-volume:/cache
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            device_ids: ['0']
            capabilities: [gpu]
  Roboflow-GPU-2:
    image: roboflow/inference-server-trt:latest
    restart: always
    volumes:
      - shared-volume:/cache
    deploy:
      resources:
        reservations:
          devices:
          - driver: nvidia
            device_ids: ['1']
            capabilities: [gpu]
            <続く>

次に編集する必要があるファイルは conf フォルダー内にある roboflow-nginx.conf です。

8 GPU から 3 GPU に変更する例を続けると、upstream myapp1 のサーバー行の一部を削除する必要があります。具体的には行 17 から行 21 はもう不要です（目標数を超えるため）。

roboflow-nginx.conf

user  nginx;
worker_processes  auto;

error_log  /var/log/nginx/error.log notice;
pid        /var/run/nginx.pid;


events {
    worker_connections  1024;
}

http {
    upstream myapp1 {
        server Roboflow-GPU-1:9001;
        server Roboflow-GPU-2:9001;
        server Roboflow-GPU-3:9001;
        server Roboflow-GPU-4:9001;
        server Roboflow-GPU-5:9001;
        server Roboflow-GPU-6:9001;
        server Roboflow-GPU-7:9001;
        server Roboflow-GPU-8:9001;
    }

    server {
        listen 80;

        location / {
            proxy_pass http://myapp1;
        }
    }
}

これら 2 つのファイルを変更したら、docker-compose チュートリアルを続けてロードバランサーをビルドする.

TRT コンテナでのマルチストリームの使用

場合によっては、同じ GPU 上の同じ TRT コンテナで複数のカメラストリームを並列処理したいことがあります。TRT コンテナ内で複数のモデルサービスを起動するには、次を指定します： --env NUM_WORKERS=[desired num_workers] NVIDIA V100 では、2〜4 ワーカーが最適なレイテンシを提供することがわかりました。

TRT コンテナで GPU デバイス ID を公開する

場合によっては、TRT コンテナを特定の GPU または vGPU で実行したいことがあります。その場合は次を指定できます： CUDA_VISIBLE_DEVICES=[DESIRED GPU OR MIG ID]\

トラブルシューティング

まず、リクエストに正しいモデルバージョンのリクエストパラメータが含まれていることを確認してください：

プロジェクト情報を見つける

最新のコンテナが pull されていることを確認してください:\

sudo docker pull roboflow/inference-server-trt:latest キャッシュボリュームを使用している場合は、クリアしてください：

sudo docker volume rm roboflow

sudo docker volume create roboflow

NVIDIA docker GPU ドライバーを再確認してください：

docker run --gpus all -it ubuntu nvidia-smi

再起動！デプロイエラーが続く場合は、サーバーログをコピーして Roboflow の担当者に送ってください。当社が支援いたします。

Last updated 9 months ago

Was this helpful?

hashtagインストール要件

hashtagEnterprise GPU TRT

hashtagAmazon EC2 デプロイメント

hashtagAMI を選択して EC2 インスタンスを起動する

hashtagSSH で EC2 インスタンスにログインする

hashtagTRT GPU Docker コンテナを起動する

hashtagエンジンをコンパイルして推論を実行する

hashtagAnaconda デプロイメント

hashtagAnaconda 環境をセットアップする

hashtagAnaconda 環境に Docker をインストールする

hashtagAnaconda 環境内で Docker コンテナを実行する

hashtagエンジンをコンパイルして推論を実行する

hashtagpybase64 encode your_img.jpg | curl -d @- "http://localhost:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

hashtagWindows Subsystem デプロイメント

hashtagWSL2 上に Docker をインストールする（オプション）

hashtagWSL2 内で Docker コンテナを実行する

hashtagエンジンをコンパイルして推論を実行する

hashtag拡張機能

hashtagモデルのキャッシュ

hashtagDocker Compose によるマルチ GPU サポート

hashtagロードバランサーの構築

hashtagDocker Compose の起動

hashtag推論の実行

hashtagDocker Compose ファイルの構成

hashtagTRT コンテナでのマルチストリームの使用

hashtagTRT コンテナで GPU デバイス ID を公開する

hashtagトラブルシューティング

hashtagプロジェクト情報を見つける

インストール要件

Enterprise GPU TRT

Amazon EC2 デプロイメント

AMI を選択して EC2 インスタンスを起動する

SSH で EC2 インスタンスにログインする

TRT GPU Docker コンテナを起動する

エンジンをコンパイルして推論を実行する

Anaconda デプロイメント

Anaconda 環境をセットアップする

Anaconda 環境に Docker をインストールする

Anaconda 環境内で Docker コンテナを実行する

エンジンをコンパイルして推論を実行する

pybase64 encode your_img.jpg | curl -d @- "http://localhost:9001/[YOUR MODEL]/[YOUR VERSION]?api_key=[YOUR API KEY]"

Windows Subsystem デプロイメント

WSL2 上に Docker をインストールする（オプション）

WSL2 内で Docker コンテナを実行する

エンジンをコンパイルして推論を実行する

拡張機能

モデルのキャッシュ

Docker Compose によるマルチ GPU サポート

ロードバランサーの構築

Docker Compose の起動

推論の実行

Docker Compose ファイルの構成

TRT コンテナでのマルチストリームの使用

TRT コンテナで GPU デバイス ID を公開する

トラブルシューティング

プロジェクト情報を見つける