インフラストラクチャの設定

シングルノード構成とマルチノード構成の両方をサポートしており、最大16ノードまで対応可能です:

以下の適切なインフラストラクチャをスケーリングすることを推奨します:

  • GPUの数はモデルサイズに依存します:

    • <10億パラメータ: 1 GPU (2GB VRAM) で十分

    • 70億パラメータ:2~4 GPU(各40GB VRAM)

    • 130億パラメータ: 4~8 GPUを推奨

    • 300億以上のパラメータ: 8台以上のGPUとマルチノード構成が必要

  • シングルノードとマルチノードの使い分け:

    • 中小規模モデル(最大13B)の場合、複数GPUを搭載したシングルノードで十分

    • 大規模モデル(300億以上)の場合、メモリとパフォーマンス向上のためマルチノード構成 が推奨される

  • 必要最小限のGPUメモリ:

    • 標準的な微調整にはGPUあたり最低24GB

    • LoRAまたはQLoRA手法を用いれば、8-16GB VRAMのGPUでもファインチューニング可 能

モデル: Llama-3.1-8B-Instruct

  • トレーニングタイプ: フル

    • GPU数: 2 GPUまで対応可能(使用率ほぼ99%) -> より安定した実行時間のため4 GPU推奨

    • 分散バックエンド: DeepSeed

    • ZeROステージ: 3

    • デバイスごとのバッチサイズ: 1

    • その他のパラメータはデフォルトのまま可

  • トレーニングタイプ: LoRA

    • GPU数: 1 GPUに収まる

    • LoRAランク: 16

    • デバイスごとのバッチサイズ: 1

    • その他のパラメータはすべてデフォルトのままにできます

  • 最適なトレーニング構成を計算するには、こちらを参照してください:https://rahulschand.github.io/gpu_poor/ (間接費 10~20%)

Last updated