> For the complete documentation index, see [llms.txt](https://ai-docs.fptcloud.com/llms.txt). Markdown versions of documentation pages are available by appending `.md` to page URLs; this page is available as [Markdown](https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-ai-studio/sbisu/moderuno/chtoriaru/paipurainno/dtasettono-1.md).

# データセットの選択

まず第一に、最適なデータセットを準備する必要があります。これは、意図したユースケースにおけるモデルの性能に直接影響するためです。

良質なデータセットが実現すること：

* **残存する課題に対処するための事例を収集する。**
  * モデルが特定の側面でまだ十分でない場合、それらの側面を正しく行う方法をモデルに直接示    \
    すトレーニング例を追加してください。
* **既存の例を精査して問題点を洗い出してください。**
  * モデルに文法、論理、またはスタイルの問題がある場合、データに同様の問題がないか確認してくだ    さい。例えば、モデルが「この会議をあなたのためにスケジュールします」と誤って発言する場合、    既存の例がモデルに「実際にはできない新しいことをできる」と誤って学習させていないか確認して    ください
* **データのバランスと多様性を考慮してください。**
  * データ内のアシスタント応答の60%が「この質問には答えられません」と返答している場合、推論時    \
    にその応答が5%に抑えられるよう設定すると、拒否応答が過剰に発生する可能性が高い。
* **トレーニング例には応答に必要な情報が全て含まれていることを確認してください。**
  * モデルの学習例に、会話の前文に存在しない特性に対するアシスタントの賛辞が含まれている場合    \
    、モデルは個人の特性に基づいてユーザーを称賛するよう学習させたい場合、情報を虚構する（幻覚    を生成する）可能性があります。
* **トレーニング例における合意と一貫性を確認してください。**
  * 複数の人がトレーニングデータを作成した場合、モデルの性能は人同士の一致度と整合性のレベルに    よって制限される可能性が高いです。例えば、テキスト抽出タスクにおいて、抽出されたスニペット    について人々が70%しか合意していなければ、モデルはこれ以上の性能を発揮できないでしょう。
* **推論時に期待される通り、全てのトレーニング例が同一形式であることを確認してください**

<figure><img src="/files/1FJMRbLw7WiDpSdWC7gM" alt=""><figcaption></figcaption></figure>

トレーニングデータと**評価データを**転送するには、次の2つの方法があります：

* ファイルをアップロードする
  1. デフォルト値 ファイルをアップロード
  2. お使いのコンピュータからローカルファイルを選択してください。
  3. （任意）期待されるフォーマットの例を確認するに&#x306F;**「サンプルをダウンロード」**&#x3092;クリックしてくださ     い。

**注意:** ファイルが選択したデータ形式と一致していることを確認してください

| トレーナ ー   | サポート対象デー タ フォーマット | サポートされてい るファイル 形式                                 | サポートされているフ ァイルサイズ |
| -------- | ----------------- | ------------------------------------------------- | ----------------- |
| **SFT**  | Alpaca            | <p>CSV<br>JSON<br>JSONLINES<br>ZIP<br>PARQUET</p> | 制限100MB           |
| **SFT**  | ShareGPT          | <p>JSON<br>JSONLINES<br>ZIP<br>PARQUET</p>        | 制限100MB           |
| **SFT**  | ShareGPT\_Image   | <p>ZIP<br>PARQUET</p>                             | 制限100MB           |
| **DPO**  | ShareGPT          | <p>JSON<br>JSONLINES<br>ZIP<br>PARQUET</p>        | 制限100MB           |
| 事前トレーニング | Corpus            | <p>TXT<br>JSON<br>JSONLINES<br>ZIP<br>PARQUET</p> | 制限100MB           |

* データハブに接続
  1. **データハブ**をクリック
  2. データハブから接続またはデータセットを選択してください。**注意**：データセットが選択した形     \
     式と互換性があることを確認してください。
  3. (オプション) **データハブを開く**をクリックして、データセットをプレビューまたは管理します。
  4. (オプション) **リロードアイコン**をクリックして接続とデータセットリストを更新します。
  5. 詳細なガイド「データハブ」に従ってください


---

# Agent Instructions
This documentation is published with GitBook. GitBook is the documentation platform designed so that both humans and AI agents can read, navigate, and reason over technical content effectively. Learn more at gitbook.com.

## Querying This Documentation
If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter, and the optional `goal` query parameter:

```
GET https://ai-docs.fptcloud.com/ai-factory-guideline-jp/fpt-ai-studio/sbisu/moderuno/chtoriaru/paipurainno/dtasettono-1.md?ask=<question>&goal=<endgoal>
```

`ask` is the immediate question: it should be specific, self-contained, and written in natural language.
`goal` is optional and describes the broader end goal you are ultimately trying to accomplish on behalf of the user. GitBook uses it to tailor the answer towards what is most useful for that goal.

The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.