概要
データハブは、AI Studio 内の集中型データ管理モジュールです。 ユーザーは、AIモデルのライフサイクル全体(微調整、テスト、ベンチマークを含む)で使用されるデータセット を保存、整理、バージョン管理、準備できます。 モデル微調整やモデルテストなど、他の AI Studio サービスとシームレスに統合することで、データハブデー タセットの一貫性、追跡可能性、再利用性を確保します。
データセット管理
メタデータ(名前、説明、データ形式)とともにデータ セットをアップロード、一覧表示、整理します。
セキュアストレージ
構造化データおよび非構造化データ向けに、スケーラブ ルで暗号化されたストレージを提供します。
データアクセス統合
手動でのファイル操作なしに、微調整およびテストジョ ブへの直接リンクをサポートします。
事前署名済みURLアップロード
事前署名済みURLまたはAPIエンドポイントを通じて、大 規模データセットの効率的なアップロードを可能にしま す。
検索とフィルタリング
柔軟なフィルターを使用して、名前や作成日でデータセ ットをすばやく検索できます。
サポートされるデータタイプ
Data Hubは、機械学習ワークフローで一般的に使用される幅広いファイル形式をサポートしています:
データ形式:Alpaca、ShareGPT、ShareGPT_Image、Corpus
構造化データ:CSV、JSON、Parquet
テキストデータ:TXT、JSONL
非構造化データ(任意):マルチモーダル微調整に使用する画像または文書
各データセットには、選択したトレーナーと互換性のある定義済みスキーマまたはフォーマットを含める必要があ ります。
AI Studio全体での統合
Data Hubは、AI Studioの全モジュールにおけるデータ基盤として機能します:
モデルの微調整
事前学習済みモデルのトレーニングや適応のためにデー タセットにアクセスします。
モデルテスト
検証用の評価データセットまたはベンチマークデータセッ トを取得します。
この緊密な統合により、データセットからモデル、デプロイされたエンドポイントに至るまでの完全な系譜追跡 が保証されます。
アクセス方法
Data Hub には複数のインターフェースからアクセスできます:
AI Studio コンソール – データセットのアップロードと管理を行うWebベースのインターフェース。
AI Studio API – プログラムによるデータセット操作(アップロード、一覧表示、削除など)のための RESTful API。
典型的なワークフロー
データセットをData Hubにアップロードします。
識別しやすいように説明を追加します。
ファインチューニングまたはテストジョブを作成する際に参照してください。
メリット
一元化され安全なデータ管理
自動化されたデータセットのバージョン管理と系譜追跡
モデルトレーニングとテストのための高速アクセス
チームやプロジェクト間の重複削減
コンプライアンスと再現性の簡素化
次のステップ
• データハブチュートリアルでデータセットのアップロードと整理方法を学ぶ。 • クイックスタートガイドで、データセットを使用したモデルの微調整を続行
Last updated
