蒸馏 - 总结
总结
- 教师模型:决定了语料的质量; 越强的老师得到质量越好
- 推理模型DeepSeek R1,Kimi K1.5,O1或者O3
- 学生模型:底子越好的学生模型蒸馏性能越好,潜力越大
- 业界的成功经验大多基于Qwen2.5系列模型,Phi系列模型
- 蒸馏数据:
- 数据侧核心三点:多样性、质量和难度。
- 多样性:cover住目标领域的各种思考范式
- 质量:多不如精,引入目标领域
- 难度:难题/长思维链对于激发推理能力极其重要
- 数据侧核心三点:多样性、质量和难度。
- 蒸馏技法:
- 如何利用蒸馏数据激发模型推理能力
- 黑盒蒸馏:教师和学生解耦,复杂度低,推荐;
- 说明:支持Teacher模型在Off-line生成训练语料;只利用模型的Response结果(可用api即可)
- 白盒蒸馏:探索较少,复杂度高
- 说明:Teacher模型在本地部署,支持使用模型中间特征和logits来实现'师徒传功'(logits 是模型的原始输出)
- 自蒸馏:
- 说明:模型自己生成数据训练模型本身
- 黑盒蒸馏:教师和学生解耦,复杂度低,推荐;
- 如何利用蒸馏数据激发模型推理能力
