5. マネージド GPU クラスターでの GPU を使用したアプリケーションのデプロイ

ステップ 1: 次のコマンドで GPU の構成を確認します。

kubectl get nodes -o json | jq '.items[].metadata.labels'

例：下の図は、Metal Cloud GPU H100 を使用するワーカー、構成戦略：all-disable、ステータス：success を示しています。

ステップ 2：ワーカーの GPU インスタンスの設定を確認するには、ノードに ssh で接続し、次のコマンドを入力します。

Nvidia-smi

以下の例は、GPU ドライバーが正常にインストールされ、8 つの GPU モード None で動作していることを示しています。

GPU を使用したアプリケーションの実装例

#Syntax:  
nvidia.com/gpu: <number-of-GPUs> 
#Example:  
nvidia.com/gpu: 1 
 
#Example deployment using GPU 
apiVersion: apps/v1 
kind: Deployment 
metadata: 
  name: example-gpu-app 
spec: 
  replicas: 1 
  selector: 
    matchLabels: 
      component: gpu-app 
  template: 
    metadata: 
      labels: 
        component: gpu-app 
    spec: 
      containers: 
        - name: gpu-container 
          securityContext: 
            capabilities: 
              add: 
                - SYS_ADMIN 
          resources: 
            limits: 
              nvidia.com/gpu: 1 
          image: nvidia/samples:dcgmproftester-2.0.10-cuda11.0-ubuntu18.04 
          command: ["/bin/sh", "-c"] 
          args: 
            - while true; do /usr/bin/dcgmproftester11 --no-dcgm-validation -t 1004 -d 300; sleep 30;

Previous4. クラスターに GPU ソフトウェアを追加する機能 Next6. ワーカー MIG 戦略の変更機能

Last updated 17 days ago