✌️監視
Last updated
Was this helpful?
メトリクス、ログ、イベントの収集と可視化により、潜在的な問題の特定や将来のワークロード最適化が可能です。ニーズに最適な監視ソリューションを選択できます。
メトリクス
クラスター(同一VPC内)
単一サーバー
ノード総数とダウンノード数
✔
GPUモデル、ドライバ&CUDAバージョン
✔
電源状態
✔
稼働時間
✔
GPUの総数とダウンしているGPUの数
✔
✔
GPU 使用率
✔
✔
GPUメモリ
✔
✔
CPU 使用率
✔
✔
システムメモリ
✔
✔
ルートストレージ使用量
✔
✔
ローカルディスク使用量
✔
✔
各GPUの詳細
消費電力、温度、GPU 使用率、VRAM 使用量
✔
ネットワーク帯域幅(受信/送信)
✔
✔
送信/受信ネットワークパケット
✔
✔
受信/送信のネットワークエラー率
✔
ネットワーク InfiniBand 帯域幅/パケット/エラー
✔
システムファン速度
✔
システム電圧
✔
一般的な警告
✔
*ご要望に応じてカスタムまたは高度なメトリクスについては、追加料金でクラウドモニタリング(FMON)サービスを提供しています。
Last updated
Was this helpful?
Was this helpful?
