✌️監視

監視機能はAI Infrastructure – Metal Cloudサービスにバンドルされています。

メトリクス、ログ、イベントの収集と可視化により、潜在的な問題の特定や将来のワークロード最適化が可能です。ニーズに最適な監視ソリューションを選択できます。

メトリクス

クラスター(同一VPC内)

単一サーバー

ノード総数とダウンノード数

GPUモデル、ドライバ&CUDAバージョン

電源状態

稼働時間

GPUの総数とダウンしているGPUの数

GPU 使用率

GPUメモリ

CPU 使用率

システムメモリ

ルートストレージ使用量

ローカルディスク使用量

各GPUの詳細

消費電力、温度、GPU 使用率、VRAM 使用量

ネットワーク帯域幅(受信/送信)

送信/受信ネットワークパケット

受信/送信のネットワークエラー率

ネットワーク InfiniBand 帯域幅/パケット/エラー

システムファン速度

システム電圧

一般的な警告

*ご要望に応じてカスタムまたは高度なメトリクスについては、追加料金でクラウドモニタリング(FMON)サービスを提供しています。

Last updated

Was this helpful?