✌️パイプラインの監視方法
モデルの微調整では、ワークロードの監視とトラブルシューティングに役立つメトリクスとログを提供しま す。ログとメトリクスを表示するには:
パイプライン一覧を開く
[名前]列のパイプライン名をクリックして、実行履歴を開きます。
名前列の実行名をクリックして実行詳細を開く
モデルメトリクス、システムメトリクス、またはログに移動します。
これによりモデルメトリクスとログが提供され、実行のアクティビティを監視したり問題を診断したりする ことが容易になります。
モデルメトリクス

モデルメトリクスは、微調整プロセス中および終了後のAIモデルのトレーニング性能を追跡するために収 集されます。これらのメトリクスは、トレーニング異常の検出、ハイパーパラメータ調整の指針、モデル性能の向上に役立ちます。
トレーニング指標:
loss
モデルの学習状況を測定します。損失が大きいほど 予測精度が低く、損失が小さいほどモデルがデータ にうまく適合していることを意味します。
learning_rate
モデルの学習速度を制御します。学習率が過度に高い と不安定になる可能性があり、低すぎるとトレーニン グが遅くなります。
grad_norms
勾配の大きさを示します。学習に影響を与える勾配消失 問題や勾配爆発問題などの検出に役立ちます。
epoch
モデルが学習データを完全に処理した回数を追跡します 。時間の経過に伴う学習進捗の監視に有用です。
評価指標:
eval_runtime
評価処理にかかる時間を測定します。パフォーマンスの ベンチマークに有用です。
eval_samples_per_second
評価のスループットを示します。数値が高いほどモデル 検証が高速化されます。
eval_steps_per_second
1秒あたりに完了する評価ステップ数を測定します。評 価効率を反映します。
eval_loss
モデルが未見のデータに対してどれだけ汎化できるかを 測定します。過学習や過少学習の検出に役立ちます。
トレーニング性能指標:
train_runtime
トレーニングに費やした合計時間。トレーニングコス トと効率の推定に有用。
train_samples_per_second
トレーニングのスループットを測定します。値が高いほ どトレーニングが高速であることを示します。
train_steps_per_second
1秒あたりに完了するトレーニングステップ数を示しま す。トレーニング速度を反映します。
total_flos
使用された浮動小数点演算の総数。計算コストとモデル の複雑さを推定するのに役立ちます。
train_loss
モデルがトレーニングデータにどれだけ適合しているか を測定します。トレーニングが効果的であれば、時間の 経過とともに減少するはずです。
システムメトリクス

システムメトリクスは、モデルトレーニングおよび評価中のハードウェアとインフラストラクチャのパフ ォーマンスを監視するために収集されます。これらのメトリクスは、リソースのボトルネックを特定し、 ハードウェアの利用率を最適化し、安定した効率的なトレーニングプロセスを確保するのに役立ちます。
GPU 使用率 (%)
GPUの処理能力のうち、使用されている割合を測定し ます。高い値はGPUが活発に動作していることを示し 、低い値は他の部分(例:データ読み込み)にボトル ネックがある可能性を示唆します。
CPU 使用率 (%)
CPUの使用率を示します。データ前処理やI/O操作にお いてCPUがボトルネックになっているかを確認するのに 有用です。
GPU消費電力 (W)
GPUの実際の消費電力をワット単位で表示します。エ ネルギー効率と熱限界の監視に役立ちます。
GPU電力使用率(%)
GPUの最大電力容量に対する使用率(パーセント )。GPUが電力制限にどれだけ近づいているかを 把握するのに有用です。
GPUメモリ使用量 (MB)
現在使用中のGPUメモリ量。モデルとデータが利用可 能なメモリ内に収まることを保証するために重要です。
GPUメモリ使用率(%)
GPUメモリ全体の使用率(%)。使用率が高いとメモリ オーバーフローや不安定な動作を引き起こす可能性が あります。
RAM使用量 (MB)
使用中のシステムRAM量。データ読み込み、前処理、 またはモデルコンポーネントによるメモリ負荷の監視 に役立ちます。
RAM使用率(%)
システムRAM全体の使用率(パーセント)。高い値はメ モリ最適化やハードウェアアップグレードの必要性を 示している可能性があります。
ネットワーク - 帯域幅
ネットワーク上のデータ転送速度を測定します。分散 トレーニング時やリモートソースからのデータ読み込み 時に重要です。帯域幅が低いとトレーニング速度が低 下する可能性があります。
ログ
ログは特定のファインチューニングパイプラインの実行に関する詳細な情報を提供します。進捗の監視、問 題のトラブルシューティング、モデルトレーニングワークフローの透明性維持に役立ちます。

ログを使用して以下のことが可能です:
タイムスタンプを使用してイベントのシーケンスを追跡する
エラーや警告のステータスメッセージを確認する
サポートに連絡する前にログをダウンロードし、迅速な解決を図る
Last updated
