データセット形式の選択

データセットのフォーマットは、選択したトレーナーによって異なります。

トレーナ ー
サポートされている データ 形式data format
サポートされてい るファイル 形式
サポートされているファ イルサイズ

SFT

Alpaca

CSV JSON JSONLINES ZIP PARQUET

制限100MB

SFT

ShareGPT

JSON JSONLINES ZIP PARQUET

制限100MB

SFT

ShareGPT_Image

ZIP PARQUET

制限100MB

DPO

ShareGPT

JSON JSONLINES ZIP PARQUET

制限100MB

事前学習

Corpus

TXT JSON JSONLINES ZIP PARQUET

制限100MB

現在、微調整用のデータ形式として以下の形式をサポートしています:

a/ Alpaca

Alpacaは、教師あり微調整タスク向けに、入力と出力のペアを用いた指示順守形式でモデルを微調整する非常 にシンプルな構造を採用しています。基本構造は以下の通りです:

  • Instruction: モデルが実行すべき特定のタスクまたは要求を含む文字列。

  • Input: モデルがタスクを実行するために処理する必要がある情報を含む文字列。

  • Output: 指示と入力を処理して生成される、モデルが返すべき結果を表す文字列。

詳細な構造:

:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/alpaca

サポートされているファイル形式: .csv, .json, .jsonlines, .zip, .parquet

b/ ShareGPT

b.1/ トレーナー= SFT

ShareGPTは、ユーザーとAIアシスタント間の複数ターンにわたる会話(やり取りのあるチャット)を表現する ために設計されています。これは、複数ターンにわたる文脈のある会話を処理する必要がある対話システムやチ ャットボットのモデルをトレーニングまたは微調整する際に一般的に使用されます。

各データサンプルは conversations配列で構成され、チャットの各ターンには以下が含まれます:

  • から: 発言者 — 通常"human" または"gpt".

  • 価値: その話者からの実際のメッセージテキスト。

詳細な構造:

:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/sharegpt

サポートされているファイル形式: .json, .jsonlines, .zip, .parquet

b.2 / トレーナー= DPO

ShareGPT_DPOは、ShareGPTから収集した会話(プロンプト+応答)と、人間がどちらが優れているかに基づ いてランク付けした応答ペアで構成されるデータセットです。以下の目的で使用されます:

  • GPTなどの言語モデルを訓練し、人間の好みに沿った応答を生成させる。

  • DPO(Direct Preference Optimization)手法を用いた応答品質の最適化。

詳細な構造:

例:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/sharegpt-dpo

サポートされているファイル形式: .json, .jsonlines, .zip, .parquet

c/ ShareGPT_Image

ShareGPT_Imageは、ShareGPTマルチターンチャット形式の拡張版であり、マルチモーダルトレーニング、すな わち会話においてテキストと画像の両方を扱うモデルのトレーニングを特に目的として設計されています。

これは、自然言語と並行して画像を処理する必要があるビジョン言語モデル(VLMs)の微調整に使用されます 。

構造は以下の通りです:

  • 以下のチャットターン一覧"message" (ShareGPTと同様)。

  • 会話で使用される画像を指す "image" または"image_path" というフィールド(形式は png、jpg、jpeg を使用)

注意:

  • 画像を表示させる必要があるチャットコンテンツには、必ず image トークンを含める必要があります。

  • 画像が複数ある場合:

    • 画像パスは images配列内で定義する必要があります。

    • チャットフロー内の画像の位置は、 imageトークンで示されます

    • チャット内の image トークンの数は、 images 配列内のアイテム数と一致する必要があります。

    • 画像は出現順にマッピングされ、各 imageトークンはimages 配列の対応する画像に置き換えられます。

詳細な構造:

例:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/sharegpt-image

サポートされているファイル形式: .zip, .parquet

d/ Corpus

Corpusとは、言語モデルの学習や微調整に使用されるテキストの集合体である。

コーパスの各データポイントには、テキストの文字列を含む "text" フィールドが含まれます。この形式は、指示と出力を区別する必要がなく、モデルが学習するための生のテキストデータを提供したい場合に一般的に使用されます。

詳細な構造:

例:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/corpus

サポートされているファイル形式: .txt, .json, .jsonlines, .zip, .parquet

Last updated