クラスタ監視(GPUテレメトリ)

FPT CLOUD は、Kubernetes上のGPUベースシステム向け監視ツールキットであるkube-prometheus-stackと統合されたNVIDIA GPUテレメトリを採用しています。この監視ツールキットには、コレクター、メトリクスを保存する時系列データベース、可視化機能(ビジュアルインターフェース)が含まれます。ツールキットは、広く普及しているオープンソースアプリケーションであるPrometheusとGrafanaを利用しています。

Prometheusには、アラートの作成と管理を行うAlertmanagerも含まれています。Prometheusはkube-state-metricsおよびnode_exporterと並行してデプロイされ、Kubernetes APIオブジェクトのクラスターレベルメトリクスやGPU使用率などのノードレベルメトリクスを表示します。

  • カスタムGPUメトリクスは次のコマンドで確認できます:

kubectl get --raw /apis/custom.metrics.k8s.io/v1beta1 | jq -r . | grep DCGM

  • DCGMのGPUメトリクスを確認するにはPrometheusにアクセスしてください

#Forward the Prometheus service to access via a web browser
kubectl port-forward service/kube-prometheus-stack-1679-prometheus 9090:63090
*where 9090 is the port of the prometheus pod, 63090 is the Local Port of your computer (client) #Access Prometheus on a web browser using the following link: 
http://localhost:63090/
  • プロメテウスインターフェース上で、DCGM GPUメトリクスを確認するには以下の手順を実行してください

  • Grafanaダッシュボードにアクセスする

  • Grafanaへのログイン用デフォルトのユーザー名とパスワードは次のとおりです:

ユーザー名: admin

パスワード: prom-operator

  • GPU用Grafanaダッシュボードのインポート

ダッシュボードをインポートするには、Grafanaインターフェースにアクセスし、[ダッシュボード] > [管理] > [インポート] に移動します。

FPT Cloudダッシュボードを使用している場合は、FPT Cloud GPUダッシュボードのjsonコンテンツを入力し、[ロード] をクリックします。

Last updated

Was this helpful?