✌️ジョブの作成方法

モデルの選択

モデルハブからモデルを選択する方法は2通りあります:

  • モデルカタログ:DeepSeek、Gemma、Llama、Qwenなど、様々なプロバイダーからのモデルソ ースを保管するリポジトリ。

  • プライベートモデル:ユーザー所有モデルおよび微調整済みモデルのリポジトリ。これらのモ デルには必要なファイルがすべてアップロード済みである必要があります。互換性と準備完了を 示す特定のタグを含める必要があります。

注記:テストジョブで使用するには、モデルは以下の条件を満たす必要があります:

  • モデルタイプ:

    • LLM: テキスト入力のみ対応

    • VLM: テキストと画像の両方の入力に対応

  • モデルサイズ > 0

  • 学習段階: 必ずインストラクション調整済みであるこ と

例:

モデル名
モデル バージョ ン
モデル ファミ リー
モデルタイプ
モデルサイズ
学習 ステージ

ft_Llama-3.1-8B_20250508124054_samples-15d5e2f6fe7

15d5e2f6fe7

Llama

LLM (→ 利用可能)

8B (→ 利用可能)

Instruction-tuned (→ 利用可能)

テストスイートの選択

モデルをテストする適切なテストスイートを選択してください。

以下のテストスイートを提供します:

テストスイート
目的
最適対象

標準

独自のデータセットを使用したモ デル評価。

内部ベンチマーク、特定分野のタ スク(例:金融、医療...)

Nejumi Leaderboard 3

特に日本語タスク向けのLLMをベン チマーク。参照: Nejumi Leaderboard 3

日本語タスクにおけるLLMの比較 。

LM 評価ハーネス

多くの標準的なNLPベンチマーク で言語モデルを評価するための 汎用フレームワーク。参照: LM Evaluation Harness

英語中心のLLMを評価し、研究文 献との比較可能性を確保

VLM 評価キッ

マルチモデルタスクにおけ るVLMs(視覚言語モデル )の評価。 参照: VLMEvalKit

マルチモーダルモデルのテスト

データ形式の選択

テストスイート = 標準を選択する場合にのみデータ形式を選択してください

サポートされているデータ形式
サポートされているファイル形式
サポートされているファイルサイズ

Alpaca

- CSV - JSON - JSONLINES - ZIP - PARQUET

制限100MB

ShareGPT

- JSON - JSONLINES - ZIP - PARQUET

制限 100MB

ShareGPT_Image

- ZIP - PARQUET

制限100MB

現在テスト用にサポートしているデータ形式は以下の通りです:

a/ Alpaca

Alpaca、教師あり微調整タスク向けに、入力と出力のペアを用いた指示順守形式でモデルを微調 整するために、非常にシンプルな構造を採用しています。基本構造は以下の通りです:

  • Instruction:モデルが実行すべき特定のタスクや要求を含む文字列。

  • Input: モデルがタスクを実行するために処理する必要がある情報を含む文字列。

  • Output: 指示と入力を処理して生成される、モデルが返すべき結果を表す文字列。

詳細な構造:

例:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/alpaca

サポートされているファイル形式: .csv, .json, .jsonlines, .zip, .parquet

b/ ShareGPT

ShareGPTは、ユーザーとAIアシスタント間の複数ターンにわたる会話(やり取りのあるチャット )を表現するために設計されています。これは、複数ターンにわたる文脈のある会話を処理する必 要がある対話システムやチャットボットのモデルをトレーニングまたは微調整する際に一般的に使 用されます。

Each data sample consists of a conversations array, where each turn in the chat includes:

  • from: 発言者 — 通常"human" または"system".

  • value: その話者からの実際のメッセージテキスト。

詳細な構造:

例:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/sharegpt

サポートされているファイル形式: .json, .jsonlines, .zip, .parquet

c/ ShareGPT_Image

ShareGPT_Image は、ShareGPT マルチターンチャット形式の拡張機能です。 マルチモーダル学習、すなわち会話においてテキストと画像の両方を扱うモデルの学習に特化して設 計されています。

これは、画像と自然言語を同時に処理する必要がある視覚言語モデル(VLMs)の微調整に使用されます 。

構造は以下の通りです:

  • 下の会話ターン一覧 "message" (ShareGPTと同様).

  • A field called "image" or "image_path" that points to the image used in the conversation (using format png, jpg, jpeg)

注意:

  • 画像を表示させる必要があるチャットコンテンツには、必ず image トークンを含める必要があります。

  • 複数の画像がある場合:

    • 画像パスはimages 配列内で定義する必要があります。

    • チャットフロー内の画像の位置は、 imageトークンで示されます

    • チャット内の image トークンの数は、 images 配列内のアイテム数と一致する必要があります。

    • 画像は出現順にマッピングされ、各 image トークンは images 配列の対応する画像に置き換えられます。

詳細な構造:

:

サンプル: https://github.com/fpt-corp/ai-studio-samples/tree/main/sample-datasets/sharegpt-image

サポートされているファイル形式:.zip, .parquet

Select Test Data

You have two ways to transfer the Test data:

  • Connect to Data Hub

    1. Click Data Hub

    2. Select a connection or dataset from the Data Hub. Notice: Ensure the dataset is compatible with the selected format.

    3. (Optional) Click Open Data Hub to preview or manage datasets.

    4. (Optional) Click Reload icon to update connection and dataset list.

    5. Follow the detailed guide Data Hub

Supported data format
Supported file format
Supported file size

Alpaca

- CSV - JSON - JSONLINES - ZIP - PARQUET

Limit 100MB

ShareGPT

- JSON - JSONLINES - ZIP - PARQUET

Limit 100MB

ShareGPT_Image

- ZIP - PARQUET

Limit 100MB

Notice: Ensure the file matches the selected data format

  • Upload a file

    1. Default value Upload file

    2. Choose a local file from your computer.

    3. (Optional) Click Download sample to see an example of the expected format.

Test Criteria

  1. Click Add & update button

  2. The Tasks window appears. Select the task type:

    • Text similarity: Measures similarity metrics between model outputs and reference texts.

  3. Click Next to open the list of available metrics

  4. Select one or more metrics

  5. Click Update to apply changes

The following metrics of Text similarity are available:

Test criteria / Metric
How it tests
Best for

BLEU

Measures how precisely a model’s output matches reference text using n-gram overlap.

Evaluating translation and short text similarity.

Fuzzy Match

Measures how closely the model’s output resembles the reference text, allowing for minor differences in wording or order.

Checking approximate correctness.

ROUGE-1

Measures unigram (single word) overlap between model output and reference text.

Short summarization and text generation tasks.

ROUGE-2

Measures bigram (two-word sequence) overlap between model output and reference text.

Evaluating contextual accuracy.

ROUGE-L

Measures the longest common subsequence (LCS) between model output and reference text to capture fluency and word order similarity.

Longer text evaluation where structure matters.

ROUGE-LSUM

Measures LCS-based similarity across multiple sentences, suitable for evaluating longer summaries.

Summarization tasks.

パラメータの設定

パラメータを使用すると、テスト中のモデルの動作を調整できます。以下に各パラメータとその目的を説明します:

名称
説明
サポートされる値

ログサンプル

モデルの出力とモデル に入力されたテキスト が保存されます

bool

真 / 偽

最大トークン数

生成するトークンの最大数

整数

(0, +∞)

少数のショット数

コンテキストに配置す る少数のショット例の 数。整数で指定する必 要があります。

整数

[0, +∞)

温度

サンプリングの温度

浮動小数点数

[0, +∞)

繰り返しペナルティ

プロンプトと生成され たテキストに現れるか どうかに基づいて新し いトークンにペナルティ を課す浮動小数点数。

  • 値が 1 より大きい場合 新しいトークンを 奨励する。

  • 値 < 1繰り返 しを奨励する 。

浮動小数点数

(0, 5)

シード

再現性のための乱数 シード

整数

[0, +∞)

上位K

考慮する上位トークンの 累積確率を制御する整数 。すべてのトークンを考 慮するには-1を設定しま す。

整数

-1 or (0, +∞)

上位P

考慮対象となる上位トー クンの累積確率を制御 する浮動小数点数。すべ てのトークンを考慮する には1に設定します。

浮動小数点数

(0, 1]

完了

最後に、以下の条件を満たす一意のジョブ名(例: testj_20250919145022)を入力する必要があります:

  • 文字または数字で始まる

  • アルファベット(a-z, A-Z)、数字(0-9)、アンダースコア「_」、ハイフン「-」のみ使用

  • 最大100文字

  • 重複しない名前

最大200文字のオプションのメモ付きジョブ記述を行い、パイプラインが成功または失敗した際にメール通 知([email protected])を受け取ります。

Last updated