FPT AI Factoryが日本のLLM開発を加速

概要

国立研究大学である北陸先端科学技術大学院大学(JAIST)は、日本語に特化した最先端の大型言語モデル(LLM)を構築するため、堅牢かつ拡張性のあるインフラストラクチャを必要としていました。同大学の目標は、最適なデータ組み合わせの発見から大規模な継続的事前学習に至るまで、広範な実験を実施することであり、これには膨大な計算能力と効率的なMLOpsプラットフォームが求められました。

JAISTはFPT AI Factoryとの提携により、FPT AI StudioやFPT AI Inferenceを含む包括的なサービス群を活用し、研究開発パイプラインを加速させた。この連携により、最適なデータ混合の体系的な特定、大規模データセットを用いた複数段階の大規模継続的事前学習の実行、モデル性能の効率的な評価が可能となった。GPUインフラ管理の複雑さをFPT AI Factoryに委ねることで、JAISTの研究チームは中核ミッションである日本語自然言語処理のフロンティア開拓に専念できた。

JAISTについて

北陸先端科学技術大学院大学(JAIST)は、1990年10月に石川県能美市に設立された国立大学院大学です。石川サイエンスパークの中心に位置するJAISTは、先端科学技術分野における大学院教育と研究に特化しています。JAISTは情報科学、材料科学、知識科学の3つの基幹スクールを中核とし、国際人工知能・エンタテインメント科学研究センターやAI・ソフトロボティクス研究センターなどの専門研究機関を擁しています。世界トップレベルの教育・研究機会を提供し、学生が科学の飛躍的進歩を推進し、技術と革新を通じて社会の未来に貢献できるよう育成することで、次世代のグローバルリーダーを輩出することを使命としています。JAISTは学際的で高度な研究環境を重視し、産業界や国際機関との緊密な連携を推進しています。

課題

大規模な日本語LLMの構築には、マルチノード・マルチフェーズのトレーニングを支える膨大な計算リソースと柔軟なインフラが必要でした。JAISTは、長いトレーニングサイクル、予測不可能なインフラ需要、そして大規模な社内GPUクラスターを利用できない小規模な研究チームという課題に直面していました。研究者がシステム運用ではなくモデル開発に集中できるよう、複雑なワークロードを処理できるスケーラブルで管理されたAIインフラが求められていました。

FPT AI Factoryソリューション

日本有数のLLM構築を目指すJAISTの野心的なプロジェクトには、単なる計算能力だけでなく、モデル開発ライフサイクル全体を管理する高度なプラットフォームを提供できるパートナーが必要でした。FPT AI Factoryは、統合されたFPT AI StudioとFPT AI Inferenceサービスを組み合わせることで、JAISTが求めるエンドツーエンドのソリューションを提供しました。

データ発見

共同研究は、最も効果的なトレーニングデータの組み合わせを体系的に探索することから始まった。JAISTの研究者らはFPT AI Studioを活用し、768通りのユニークなトレーニングデータ組み合わせ(768回の独立したトレーニング実行に相当)でQwen3-0.6Bモデルを訓練した。この重要な段階では、FPT AI Inferenceの埋め込みモデルを用いて混合トレーニングデータ内のテキスト領域を分析・分類することで、さらに加速が図られた。

トレーニング段階

理想的なデータ組み合わせを特定した後、JAISTはQwen2.5-32Bをベースモデルとして、大規模な継続的事前学習に着手した。このプロセスは、FPT AI Studio内で管理された3つの計算集約的な段階に分割された:

  • フェーズ1: ベースモデルは1000億トークンのデータセットで訓練され、各ノードにNVIDIA H100 GPUを8基搭載した30ノードの高性能クラスターを活用しました。

  • フェーズ2: 訓練規模を大幅に拡大し、29ノードで2670億トークンのデータセットから学習させました。故障ノードを即座に検知し、隔離措置を講じました。

  • フェーズ3: 最終フェーズでは2730億トークンのデータセットを使用しました。このデータセットには前フェーズの2670億トークンに加え、FPT AI推論サービスによりQwen3-235B-A22Bモデルが生成した新規指示データが拡張として組み込まれました。本フェーズでは30ノードH100 GPUクラスターを再利用して訓練を実施。

この複雑なプロセス全体を通じ、FPT AI Factoryのエンジニアが密接かつ専任のサポートを提供し、大規模訓練ジョブの円滑な実行を保証しました。

評価

評価において、JAISTはFPT AI Studioの全機能を活用しました。継続的に事前学習されたモデルはLoRAによる微調整を受け、テストジョブ機能を用いてNejumi Leaderboard 3に対して厳密にベンチマークされました。さらに、インタラクティブセッション機能により、JAISTの研究者は微調整済みモデルを提供し、独自の内部カスタムベンチマークを実施することが可能となりました。

ビジネスへの影響

  • インフラ効率化:FPT AI Factoryプラットフォームを活用することで、JAISTは複雑な大規模GPUインフラの管理オーバーヘッドを完全に排除しました。これにより研究チームは、MLOpsやジョブオーケストレーションではなく、モデル開発や中核的な研究課題に時間と専門知識を集中させることが可能になりました。

  • 研究開発の加速:FPT AI Studioが提供する強力でスケーラブルなインフラと効率化されたワークフローにより、JAISTは実験の迅速な反復を実現しました。数百のデータ組み合わせを体系的にテストし、数百億トークン規模の多段階事前学習を実行できる能力により、高性能な日本語LLM開発への道程が大幅に加速された。

  • モデル性能と評価の強化:統合ソリューションにより、大規模トレーニングから微調整、堅牢な評価へのシームレスな移行が可能となった。標準化されたベンチマークのためのテストジョブやカスタム評価のためのインタラクティブセッションといった機能へのアクセスにより、JAISTはモデルを効果的に検証・改良するために必要な包括的なツールを獲得した。

  • 協働パートナーシップ:FPT AI FactoryのAIエンジニアによる緊密なサポートは、JAISTチームの延長として機能しました。この協働アプローチにより技術的課題が迅速に解決され、プロジェクトは野心的なスケジュールを維持。相互学習とイノベーションを育む環境が構築されました。

Last updated