Y-Trainer 介绍
Y-Trainer 训练框架介绍
Y-Trainer 介绍 (计划10月开源)
Y-Trainer 是一个旨在增强Y-Agent基础模型能力的大模型训练框架,该框架包含继续预训练(CPT)、指令微调(SFT)、强化学习(RL)三个部分:
计划:10月开源
CPT:继续预训练
支持切块与非切块的模型预训练方法,可高效利用训练数据提升模型在指定领域的能力。
SFT:指令微调
不同于传统SFT,我们使用自研训练方法,达到如下效果
-
限制了语料中错误知识的影响,尽量保留了基础模型的能力。
-
自动识别语料难度按从易到难训练模型,提高了模型的学习效果。
-
无需做数据集平衡,快速收敛。同时几乎不会破坏模型原有能力。
RL:强化学习
全新的强化学习框架,基于SFT,有以下优点:
资源需求少:不需要参考模型、奖励模型、价值网络model等,只需要合理编写奖励函数,即可完成训练。
训练稳定:通过高熵token作为分支节点,自动产生语料树,再使用内置的聚类算法,进行剪枝,保证探索充分。结合自适应梯度计算,训练过程稳定可靠。
How is this guide?
最后更新