AI知识分享AI知识分享
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
✿导航
  • 人工智能
  • 神经网络
  • 机器学习
  • 深度学习
  • 强化学习
  • 自然语言处理
  • 计算机视觉
  • 大模型基础
  • 动手学深度学习
  • 理论理解
  • 工程实践
  • 应用开发
  • AI For Everyone
  • AIGC_2024大会
  • AIGC_2025大会
  • Transformer
  • Pytorch
  • HuggingFace
  • 蒸馏
  • RAG
  • 目标检测
  • MCP
  • 概念
  • 意图识别
  • 工具
  • 蒸馏

    • 蒸馏 - 概述
    • 蒸馏 - 模型蒸馏
    • 蒸馏 - 模型压缩的常用方法
    • 蒸馏 - 总结
  • RAG

    • RAG - 基础
    • RAG - 进阶
    • RAG - 应用
  • 目标检测

    • 目标检测 - 概述
    • 目标检测 - VOC数据集
    • 目标检测 - COCO数据集
    • 目标检测 - 标注自己的数据集
    • 目标检测 - yolov5
  • MCP

    • MCP - 基础
    • MCP - 架构

蒸馏 - 总结

    总结

    • 教师模型:决定了语料的质量; 越强的老师得到质量越好
      • 推理模型DeepSeek R1,Kimi K1.5,O1或者O3
    • 学生模型:底子越好的学生模型蒸馏性能越好,潜力越大
      • 业界的成功经验大多基于Qwen2.5系列模型,Phi系列模型
    • 蒸馏数据:
      • 数据侧核心三点:多样性、质量和难度。
        • 多样性:cover住目标领域的各种思考范式
        • 质量:多不如精,引入目标领域
        • 难度:难题/长思维链对于激发推理能力极其重要
    • 蒸馏技法:
      • 如何利用蒸馏数据激发模型推理能力
        • 黑盒蒸馏:教师和学生解耦,复杂度低,推荐;
          • 说明:支持Teacher模型在Off-line生成训练语料;只利用模型的Response结果(可用api即可)
        • 白盒蒸馏:探索较少,复杂度高
          • 说明:Teacher模型在本地部署,支持使用模型中间特征和logits来实现'师徒传功'(logits 是模型的原始输出)
        • 自蒸馏:
          • 说明:模型自己生成数据训练模型本身
    最近更新: 2025/3/22 19:40
    Contributors: klc407073648
    Prev
    蒸馏 - 模型压缩的常用方法