蒸馏 - 总结

总结

教师模型：决定了语料的质量; 越强的老师得到质量越好
- 推理模型DeepSeek R1，Kimi K1.5，O1或者O3
学生模型：底子越好的学生模型蒸馏性能越好，潜力越大
- 业界的成功经验大多基于Qwen2.5系列模型，Phi系列模型
蒸馏数据：
- 数据侧核心三点：多样性、质量和难度。
  - 多样性：cover住目标领域的各种思考范式
  - 质量：多不如精，引入目标领域
  - 难度：难题/长思维链对于激发推理能力极其重要
蒸馏技法：
- 如何利用蒸馏数据激发模型推理能力
  - 黑盒蒸馏：教师和学生解耦，复杂度低，推荐；
    - 说明：支持Teacher模型在Off-line生成训练语料；只利用模型的Response结果（可用api即可）
  - 白盒蒸馏：探索较少，复杂度高
    - 说明：Teacher模型在本地部署，支持使用模型中间特征和logits来实现'师徒传功'（logits 是模型的原始输出）
  - 自蒸馏：
    - 说明：模型自己生成数据训练模型本身