データセットの生成方法

データセット生成機能では、事前学習済みモデル(教師モデル)を使用して、入力データから出力のラベル付 けや生成を行う新しいデータセットを作成できます。モデル設定、入力データ、生成パラメータを指定する必 要があります。

データハブサービスにアクセスし、データセット管理メニューに移動して「データセット生成」ボタンをクリック します

ステップ1: 新しいモデル構成を選択または作成する

作成済みのモデル構成を選択するか、ドロップダウンリストをクリックして新規作成できます

  • モデルプロバイダー:モデルプロバイダーとは、テキスト生成、ランキング、分類などのタスク向けにAIモ デルを提供するサービスです。現在、FPT AI MarketplaceOpenAIをサポートしています

  • APIキー:APIキーは、サービスへのアクセスを認証する一意のコードです

  • ベースURL: モデルのベースエンドポイントURL。例:: https://mkp-api.fptcloud.com/

  • モデルタイプ: AIモデルの機能を定義するモデルタイプを選択します。現在サポートされているのは LLM(大規模言語モデル)のみです

  • ベースモデル: 基盤モデルを選択してください(例: DeepSeek-R1)。

  • モデル名: 設定したいモデルの名称を指定してください

ステップ2: パラメータの

  • 最大出力長: モデルが生成できるトークンの最大数 生成できるトークンの最大数。デフォルト: 8192.

  • Top-P: トークンサンプリングの累積確率を制御します。値が大きいほど 多様性が増加します。デフォルト 0.95.

  • 温度: 出力のランダム性を制御します。値が高いほど 創造的な応答を生成します。デフォルト: 1.00.

ステップ3: データセットの設定

  • 名前(必須):生成するデータセットの名前を入力してください。

  • トレーナー: トレーナーの種類を選択します(例: SFT - 教師あり微調整)。

  • データ形式: 入力データの形式を選択します。例: Alpaca

  • 入力方法: 入力データの提供方法を選択します。現在サポートされているのはファイルアップロードとデー タ接続です

  • ァイルのアップロード: [ファイルのアップロード] をクリッ .csv たは.json ファイルをアップロー ドします。

注: 最大ファイルサイズは 100MB です。

  • データ接続: 必要なデータ接続を選択し、有効なパスを入力してください

  • システムメッセージ(任意):モデルのバックグラウンドプロンプト。例:"You are a helpful assistant."

必須項目を入力後、「保存」ボタンをクリックしてください。ファイルサイズやモデルの応答時間により、生 成に数分かかる場合があります。

Last updated