# 監視

#### 監視機能はAI Infrastructure – Metal Cloudサービスにバンドルされています。

メトリクス、ログ、イベントの収集と可視化により、潜在的な問題の特定や将来のワークロード最適化が可能です。ニーズに最適な監視ソリューションを選択できます。

![](/files/8df8b6cd7d019a7f56d0a6b6cc638d9268bbe5e9)

![](/files/d893676d212a704933c2bdda1be2886fddd3e9f6)

| **メトリクス**                                       | **クラスター（同一VPC内）** | **単一サーバー** |
| ----------------------------------------------- | ----------------- | ---------- |
| ノード総数とダウンノード数                                   | ✔                 |            |
| GPUモデル、ドライバ＆CUDAバージョン                           |                   | ✔          |
| 電源状態                                            | ✔                 |            |
| 稼働時間                                            |                   | ✔          |
| GPUの総数とダウンしているGPUの数                             | ✔                 | ✔          |
| GPU 使用率                                         | ✔                 | ✔          |
| GPUメモリ                                          | ✔                 | ✔          |
| CPU 使用率                                         | ✔                 | ✔          |
| システムメモリ                                         | ✔                 | ✔          |
| ルートストレージ使用量                                     | ✔                 | ✔          |
| ローカルディスク使用量                                     | ✔                 | ✔          |
| <p>各GPUの詳細 </p><p>消費電力、温度、GPU 使用率、VRAM 使用量 </p> |                   | ✔          |
| ネットワーク帯域幅（受信/送信）                                | ✔                 | ✔          |
| 送信/受信ネットワークパケット                                 | ✔                 | ✔          |
| 受信/送信のネットワークエラー率                                |                   | ✔          |
| ネットワーク InfiniBand 帯域幅/パケット/エラー                  |                   | ✔          |
| システムファン速度                                       |                   | ✔          |
| システム電圧                                          |                   | ✔          |
| 一般的な警告                                          | ✔                 |            |

\*ご要望に応じてカスタムまたは高度なメトリクスについては、追加料金でクラウドモニタリング（FMON）サービスを提供しています。


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-gpu-cloud/metal-cloud/chtoriaru/monitoring.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
