概要

データハブは、AI Studio 内の集中型データ管理モジュールです。 ユーザーは、AIモデルのライフサイクル全体(微調整、テスト、ベンチマークを含む)で使用されるデータセット を保存、整理、バージョン管理、準備できます。 モデル微調整やモデルテストなど、他の AI Studio サービスとシームレスに統合することで、データハブデー タセットの一貫性、追跡可能性、再利用性を確保します。

機能
説明

データセット管理

メタデータ(名前、説明、データ形式)とともにデータ セットをアップロード、一覧表示、整理します。

セキュアストレージ

構造化データおよび非構造化データ向けに、スケーラブ ルで暗号化されたストレージを提供します。

データアクセス統合

手動でのファイル操作なしに、微調整およびテストジョ ブへの直接リンクをサポートします。

事前署名済みURLアップロード

事前署名済みURLまたはAPIエンドポイントを通じて、大 規模データセットの効率的なアップロードを可能にしま す。

検索とフィルタリング

柔軟なフィルターを使用して、名前や作成日でデータセ ットをすばやく検索できます。

サポートされるデータタイプ

Data Hubは、機械学習ワークフローで一般的に使用される幅広いファイル形式をサポートしています:

  • データ形式:Alpaca、ShareGPT、ShareGPT_Image、Corpus

  • 構造化データ:CSV、JSON、Parquet

  • テキストデータ:TXT、JSONL

  • 非構造化データ(任意):マルチモーダル微調整に使用する画像または文書

各データセットには、選択したトレーナーと互換性のある定義済みスキーマまたはフォーマットを含める必要があ ります。

AI Studio全体での統合

Data Hubは、AI Studioの全モジュールにおけるデータ基盤として機能します:

モジュー ル
データハブの活用方法

モデルの微調整

事前学習済みモデルのトレーニングや適応のためにデー タセットにアクセスします。

モデルテスト

検証用の評価データセットまたはベンチマークデータセッ トを取得します。

この緊密な統合により、データセットからモデル、デプロイされたエンドポイントに至るまでの完全な系譜追跡 が保証されます。

アクセス方法

Data Hub には複数のインターフェースからアクセスできます:

  1. AI Studio コンソール – データセットのアップロードと管理を行うWebベースのインターフェース。

  2. AI Studio API – プログラムによるデータセット操作(アップロード、一覧表示、削除など)のための RESTful API。

典型的なワークフロー

  1. データセットをData Hubにアップロードします。

  2. 識別しやすいように説明を追加します。

  3. ファインチューニングまたはテストジョブを作成する際に参照してください。

メリット

  • 一元化され安全なデータ管理

  • 自動化されたデータセットのバージョン管理と系譜追跡

  • モデルトレーニングとテストのための高速アクセス

  • チームやプロジェクト間の重複削減

  • コンプライアンスと再現性の簡素化

次のステップ

  • • データハブチュートリアルでデータセットのアップロードと整理方法を学ぶ。 • クイックスタートガイドで、データセットを使用したモデルの微調整を続行

Last updated