# パイプラインの監視方法

モデルの微調整では、ワークロードの監視とトラブルシューティングに役立つメトリクスとログを提供します。ログとメトリクスを表示するには：

1. **パイプライン一覧**を開く
2. **\[名前]**&#x5217;の**パイプライン名**をクリックして、**実行履歴**を開きます。
3. 名前列の**実行名**をクリックして**実行詳細**を開く
4. **モデルメトリクス、システムメトリクス**、または**ログ**に移動します。

これによりモデルメトリクスとログが提供され、実行のアクティビティを監視したり問題を診断したりすることが容易になります。

## モデルメトリクス

{% hint style="info" %}
注: モデルメトリクスは、実行パイプライン&#x304C;**「実行中**」ステータスでトレーニング段階にある場合にのみ有\
効になります。
{% endhint %}

<figure><img src="/files/dzWV8oEVzMqRWfqqcVuf" alt=""><figcaption></figcaption></figure>

モデルメトリクスは、微調整プロセス中および終了後のAIモデルのトレーニング性能を追跡するために収\
集されます。これらのメトリクスは、トレーニング異常の検出、ハイパーパラメータ調整の指針、モデル性能の向上に役立ちます。

**トレーニング指標:**

<table><thead><tr><th width="230">メトリ クス</th><th>評価対象</th></tr></thead><tbody><tr><td><strong>loss</strong></td><td>モデルの学習状況を測定します。損失が大きいほど予測精度が低く、損失が小さいほどモデルがデータにうまく適合していることを意味します。</td></tr><tr><td><strong>learning_rate</strong></td><td>モデルの学習速度を制御します。学習率が過度に高いと不安定になる可能性があり、低すぎるとトレーニングが遅くなります。</td></tr><tr><td><strong>grad_norms</strong></td><td>勾配の大きさを示します。学習に影響を与える勾配消失問題や勾配爆発問題などの検出に役立ちます。</td></tr><tr><td><strong>epoch</strong></td><td>モデルが学習データを完全に処理した回数を追跡します。時間の経過に伴う学習進捗の監視に有用です。</td></tr></tbody></table>

**評価指標:**

{% hint style="info" %}
注: 評価データが使用されている場合のみ表示されます。
{% endhint %}

<table><thead><tr><th width="230">指標</th><th>評価対象</th></tr></thead><tbody><tr><td><strong>eval_runtime</strong></td><td>評価処理にかかる時間を測定します。パフォーマンスのベンチマークに有用です。</td></tr><tr><td><strong>eval_samples_per_second</strong></td><td>評価のスループットを示します。数値が高いほどモデル検証が高速化されます。</td></tr><tr><td><strong>eval_steps_per_second</strong></td><td>1秒あたりに完了する評価ステップ数を測定します。評価効率を反映します。</td></tr><tr><td><strong>eval_loss</strong></td><td>モデルが未見のデータに対してどれだけ汎化できるかを測定します。過学習や過少学習の検出に役立ちます。</td></tr></tbody></table>

**トレーニング性能指標:**

<table><thead><tr><th width="230">指標 </th><th>評価対象</th></tr></thead><tbody><tr><td><strong>train_runtime</strong></td><td>トレーニングに費やした合計時間。トレーニングコストと効率の推定に有用。</td></tr><tr><td><strong>train_samples_per_second</strong></td><td>トレーニングのスループットを測定します。値が高いほどトレーニングが高速であることを示します。</td></tr><tr><td><strong>train_steps_per_second</strong></td><td>1秒あたりに完了するトレーニングステップ数を示します。トレーニング速度を反映します。</td></tr><tr><td><strong>total_flos</strong></td><td>使用された浮動小数点演算の総数。計算コストとモデルの複雑さを推定するのに役立ちます。</td></tr><tr><td><strong>train_loss</strong></td><td>モデルがトレーニングデータにどれだけ適合しているかを測定します。トレーニングが効果的であれば、時間の経過とともに減少するはずです。</td></tr></tbody></table>

## システムメトリクス

<figure><img src="/files/ONSaxdMvGElX7Vtd4psO" alt=""><figcaption></figcaption></figure>

**システムメトリクスは**、モデルトレーニングおよび評価中のハードウェアとインフラストラクチャのパフ\
ォーマンスを監視するために収集されます。これらのメトリクスは、リソースのボトルネックを特定し、\
ハードウェアの利用率を最適化し、安定した効率的なトレーニングプロセスを確保するのに役立ちます。

<table><thead><tr><th width="230">メトリ クス</th><th>評価対象</th></tr></thead><tbody><tr><td><strong>GPU 使用率 (%)</strong></td><td>GPUの処理能力のうち、使用されている割合を測定します。高い値はGPUが活発に動作していることを示し、低い値は他の部分（例：データ読み込み）にボトルネックがある可能性を示唆します。</td></tr><tr><td><strong>CPU 使用率 (%)</strong></td><td>CPUの使用率を示します。データ前処理やI/O操作においてCPUがボトルネックになっているかを確認するのに有用です。</td></tr><tr><td><strong>GPU消費電力 (W)</strong></td><td>GPUの実際の消費電力をワット単位で表示します。エネルギー効率と熱限界の監視に役立ちます。</td></tr><tr><td><strong>GPU電力使用率（％）</strong></td><td>GPUの最大電力容量に対する使用率（パーセント）。GPUが電力制限にどれだけ近づいているかを把握するのに有用です。</td></tr><tr><td><strong>GPUメモリ使用量 (MB)</strong></td><td>現在使用中のGPUメモリ量。モデルとデータが利用可能なメモリ内に収まることを保証するために重要です。</td></tr><tr><td><strong>GPUメモリ使用率（%）</strong></td><td>GPUメモリ全体の使用率（%）。使用率が高いとメモリオーバーフローや不安定な動作を引き起こす可能性があります。</td></tr><tr><td><strong>RAM使用量 (MB)</strong></td><td>使用中のシステムRAM量。データ読み込み、前処理、またはモデルコンポーネントによるメモリ負荷の監視に役立ちます。</td></tr><tr><td><strong>RAM使用率（％）</strong></td><td>システムRAM全体の使用率（パーセント）。高い値はメモリ最適化やハードウェアアップグレードの必要性を示している可能性があります。</td></tr><tr><td><strong>ネットワーク - 帯域幅</strong></td><td>ネットワーク上のデータ転送速度を測定します。分散トレーニング時やリモートソースからのデータ読み込み時に重要です。帯域幅が低いとトレーニング速度が低下する可能性があります。</td></tr></tbody></table>

## ログ

**ログは**特定のファインチューニングパイプラインの実行に関する詳細な情報を提供します。進捗の監視、問題のトラブルシューティング、モデルトレーニングワークフローの透明性維持に役立ちます。

<figure><img src="/files/hB1tlyoEZC7kAwqgu41p" alt=""><figcaption></figcaption></figure>

ログを使用して以下のことが可能です：

* タイムスタンプを使用して**イベントのシーケンスを追跡する**
* エラーや警告の**ステータスメッセージを確認する**
* サポートに連絡する前に**ログをダウンロードし**、迅速な解決を図る

<br>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-ai-studio/sbisu/moderuno/chtoriaru/paipurainno-2.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
