Y-Agent Studio

数据格式

Y-Trainer 支持的数据格式规范与示例

📊 Y-Trainer 数据格式规范

Y-Trainer 支持多种训练任务的数据格式,采用 JSON 格式存储。不同任务类型所需字段略有不同,下面将详细介绍各任务的数据格式要求。

🎯 指令微调 (SFT) 数据格式

指令微调用于让模型学会遵循指令和完成特定任务,数据格式包含指令、输入和输出三个核心部分。

字段说明

字段数据类型必要性说明
idint推荐数据唯一标识符,便于调试和数据溯源
instructionstr必要用户的核心指令或任务描述
inputstr可选上下文或附加输入信息,无内容时使用空字符串 ""
outputstr必要期望的模型回复,仅训练此字段内容

格式示例

[
  {
    "id": 0,
    "instruction": "解释什么是机器学习",
    "output": "机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习和改进,而无需明确编程。通过分析大量数据,机器学习算法可以识别模式并做出预测或决策。",
    "input": ""
  },
  {
    "id": 1,
    "instruction": "根据以下文本生成摘要",
    "output": "研究表明,定期运动可以提高心理健康水平,减少焦虑和抑郁症状。专家建议每周至少进行150分钟的中等强度运动。",
    "input": "一项发表在《柳叶刀》杂志上的研究跟踪了10万名参与者超过5年时间。研究发现,那些每周进行至少150分钟中等强度运动的人,相比不运动的人,患抑郁症的风险降低了30%。此外,运动还能显著改善睡眠质量和整体生活满意度。"
  }
]

💡 使用提示

  • instruction 字段:应清晰明确,避免歧义
  • input 字段:为空时必须使用空字符串 "",不能省略
  • output 字段:应与 instruction 和 input 内容高度相关,质量要高
  • 数据平衡:确保各类指令和数据分布均衡,避免模型偏向

📚 继续预训练 (CPT) 数据格式

继续预训练用于增强模型的基础知识和语言理解能力,数据格式相对简单。

字段说明

字段数据类型必要性说明
IDint必要数据唯一标识符,用于训练过程追踪和调试
outputstr必要训练文本内容,模型将学习生成此类文本

格式示例

[
  {
    "ID": 0,
    "output": "人工智能是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的系统。"
  },
  {
    "ID": 1,
    "output": "机器学习是人工智能的一个子集,它使计算机能够在没有明确编程的情况下学习和改进。"
  }
]

💡 使用提示

  • ID 字段:必须保证唯一性,重复 ID 会导致训练混乱
  • output 字段:可以是任意长度的文本,但建议控制在模型最大序列长度内
  • 数据质量:确保文本内容准确、无偏见,避免低质量数据影响模型性能

🔗 相关文档

💡 提示:高质量的数据是模型成功训练的关键。建议在训练前进行充分的数据清洗和验证工作。

How is this guide?

最后更新

京ICP备2025145222号-1     © Copyright 向量感知(北京)智能科技有限公司 YAFO 2025.