メトリクス、ログ、イベントの収集と可視化により、潜在的な問題の特定や将来のワークロード最適化が可能です。ニーズに最適な監視ソリューションを選択できます。
メトリクス
クラスター(同一VPC内)
単一サーバー
ノード総数とダウンノード数
✔
GPUモデル、ドライバ&CUDAバージョン
電源状態
稼働時間
GPUの総数とダウンしているGPUの数
GPU 使用率
GPUメモリ
CPU 使用率
システムメモリ
ルートストレージ使用量
ローカルディスク使用量
各GPUの詳細
消費電力、温度、GPU 使用率、VRAM 使用量
ネットワーク帯域幅(受信/送信)
送信/受信ネットワークパケット
受信/送信のネットワークエラー率
ネットワーク InfiniBand 帯域幅/パケット/エラー
システムファン速度
システム電圧
一般的な警告
*ご要望に応じてカスタムまたは高度なメトリクスについては、追加料金でクラウドモニタリング(FMON)サービスを提供しています。
Last updated 2 months ago
Was this helpful?