数据格式
Y-Trainer 支持的数据格式规范与示例
📊 Y-Trainer 数据格式规范
Y-Trainer 支持多种训练任务的数据格式,采用 JSON 格式存储。不同任务类型所需字段略有不同,下面将详细介绍各任务的数据格式要求。
🎯 指令微调 (SFT) 数据格式
指令微调用于让模型学会遵循指令和完成特定任务,数据格式包含指令、输入和输出三个核心部分。
字段说明
| 字段 | 数据类型 | 必要性 | 说明 |
|---|---|---|---|
| id | int | 推荐 | 数据唯一标识符,便于调试和数据溯源 |
| instruction | str | 必要 | 用户的核心指令或任务描述 |
| input | str | 可选 | 上下文或附加输入信息,无内容时使用空字符串 "" |
| output | str | 必要 | 期望的模型回复,仅训练此字段内容 |
格式示例
[
{
"id": 0,
"instruction": "解释什么是机器学习",
"output": "机器学习是人工智能的一个分支,它使计算机系统能够从数据中学习和改进,而无需明确编程。通过分析大量数据,机器学习算法可以识别模式并做出预测或决策。",
"input": ""
},
{
"id": 1,
"instruction": "根据以下文本生成摘要",
"output": "研究表明,定期运动可以提高心理健康水平,减少焦虑和抑郁症状。专家建议每周至少进行150分钟的中等强度运动。",
"input": "一项发表在《柳叶刀》杂志上的研究跟踪了10万名参与者超过5年时间。研究发现,那些每周进行至少150分钟中等强度运动的人,相比不运动的人,患抑郁症的风险降低了30%。此外,运动还能显著改善睡眠质量和整体生活满意度。"
}
]💡 使用提示
- instruction 字段:应清晰明确,避免歧义
- input 字段:为空时必须使用空字符串
"",不能省略 - output 字段:应与 instruction 和 input 内容高度相关,质量要高
- 数据平衡:确保各类指令和数据分布均衡,避免模型偏向
📚 继续预训练 (CPT) 数据格式
继续预训练用于增强模型的基础知识和语言理解能力,数据格式相对简单。
字段说明
| 字段 | 数据类型 | 必要性 | 说明 |
|---|---|---|---|
| ID | int | 必要 | 数据唯一标识符,用于训练过程追踪和调试 |
| output | str | 必要 | 训练文本内容,模型将学习生成此类文本 |
格式示例
[
{
"ID": 0,
"output": "人工智能是计算机科学的一个分支,致力于创建能够执行通常需要人类智能的任务的系统。"
},
{
"ID": 1,
"output": "机器学习是人工智能的一个子集,它使计算机能够在没有明确编程的情况下学习和改进。"
}
]💡 使用提示
- ID 字段:必须保证唯一性,重复 ID 会导致训练混乱
- output 字段:可以是任意长度的文本,但建议控制在模型最大序列长度内
- 数据质量:确保文本内容准确、无偏见,避免低质量数据影响模型性能
🔗 相关文档
💡 提示:高质量的数据是模型成功训练的关键。建议在训练前进行充分的数据清洗和验证工作。
How is this guide?
最后更新