📊 Y-Trainer 数据格式规范

Y-Trainer 支持多种训练任务的数据格式，采用 JSON 格式存储。不同任务类型所需字段略有不同，下面将详细介绍各任务的数据格式要求。

🎯 指令微调 (SFT) 数据格式

指令微调用于让模型学会遵循指令和完成特定任务，数据格式包含指令、输入和输出三个核心部分。

字段说明

字段	数据类型	必要性	说明
id	int	推荐	数据唯一标识符，便于调试和数据溯源
instruction	str	必要	用户的核心指令或任务描述
input	str	可选	上下文或附加输入信息，无内容时使用空字符串 `""`
output	str	必要	期望的模型回复，仅训练此字段内容

格式示例

[
  {
    "id": 0,
    "instruction": "解释什么是机器学习",
    "output": "机器学习是人工智能的一个分支，它使计算机系统能够从数据中学习和改进，而无需明确编程。通过分析大量数据，机器学习算法可以识别模式并做出预测或决策。",
    "input": ""
  },
  {
    "id": 1,
    "instruction": "根据以下文本生成摘要",
    "output": "研究表明，定期运动可以提高心理健康水平，减少焦虑和抑郁症状。专家建议每周至少进行150分钟的中等强度运动。",
    "input": "一项发表在《柳叶刀》杂志上的研究跟踪了10万名参与者超过5年时间。研究发现，那些每周进行至少150分钟中等强度运动的人，相比不运动的人，患抑郁症的风险降低了30%。此外，运动还能显著改善睡眠质量和整体生活满意度。"
  }
]

💡 使用提示

instruction 字段：应清晰明确，避免歧义
input 字段：为空时必须使用空字符串 ""，不能省略
output 字段：应与 instruction 和 input 内容高度相关，质量要高
数据平衡：确保各类指令和数据分布均衡，避免模型偏向

📚 继续预训练 (CPT) 数据格式

继续预训练用于增强模型的基础知识和语言理解能力，数据格式相对简单。

字段说明

字段	数据类型	必要性	说明
ID	int	必要	数据唯一标识符，用于训练过程追踪和调试
output	str	必要	训练文本内容，模型将学习生成此类文本

格式示例

[
  {
    "ID": 0,
    "output": "人工智能是计算机科学的一个分支，致力于创建能够执行通常需要人类智能的任务的系统。"
  },
  {
    "ID": 1,
    "output": "机器学习是人工智能的一个子集，它使计算机能够在没有明确编程的情况下学习和改进。"
  }
]

💡 使用提示

ID 字段：必须保证唯一性，重复 ID 会导致训练混乱
output 字段：可以是任意长度的文本，但建议控制在模型最大序列长度内
数据质量：确保文本内容准确、无偏见，避免低质量数据影响模型性能

🔗 相关文档

快速开始 - 完整的训练流程示例
训练参数说明 - 详细的参数配置说明
特色功能 - Y-Trainer 核心功能介绍

💡 提示：高质量的数据是模型成功训练的关键。建议在训练前进行充分的数据清洗和验证工作。

数据格式

目录