参数高效微调 —— 参数选择方法
简介
参数选择方法(Parameter Selection Methods)选择性的对预训练模型中的某个参数子集进行微调。和参数附加方法不同的是,参数选择方法无需向模型添加额外的参数,避免了在推理阶段引入额外的计算成本。通常,参数选择方法分为两类:基于规则的方法和基于学习的方法。
基于规则的方法(Rule-based Methods)
特点:
- 依赖专家经验或先验知识制定明确的规则。
- 规则通常是确定性的、可解释性强。
- 不需要大量训练数据。
典型应用:
- BitFit
- 通过仅优化神经网络中的每一层的偏置项(Biases)以及任务特定的分类头来实现参数高效微调。由于偏置项在模型总参数中所占比例极小(约0.08%-0.09%),BitFit 有极高的参数效率。尽管只微调少量参数,BitFiT 依然能在GLUE Benchmark上与全量微调相媲美,甚至在某些任务上表现更好。
优点:
- 简单、快速、可解释。
- 在小规模或结构化问题中效果良好。
缺点:
- 难以适应复杂、动态或高维场景。
- 泛化能力弱,规则可能过时或不适用于新环境。
基于学习的方法(Learning-based Methods)
特点:
- 利用数据驱动的方式自动学习最优参数。
- 通常结合优化算法或机器学习模型。
- 可适应复杂非线性关系。
典型方法:
- 网格搜索(Grid Search)、随机搜索(Random Search)
- 贝叶斯优化(Bayesian Optimization)
- 进化算法(如遗传算法)
- 强化学习(用于在线参数调优)
- 元学习(Learning to learn)或超参数优化(Hyperparameter Optimization)
优点:
- 自动化程度高,适合高维、复杂问题。
- 可持续优化,适应新数据或环境。
缺点:
- 通常需要大量计算资源和训练数据。
- 可解释性较差(“黑箱”问题)。
- 存在过拟合风险。
总结对比
| 维度 | 基于规则的方法 | 基于学习的方法 |
|---|---|---|
| 依赖 | 专家知识/先验规则 | 数据与学习算法 |
| 可解释性 | 高 | 通常较低 |
| 计算开销 | 低 | 较高(尤其深度学习/贝叶斯优化) |
| 适应性 | 弱(固定规则) | 强(可泛化) |
| 典型场景 | 简单系统、实时控制、嵌入式系统 | 复杂模型调参、AI系统、大数据场景 |
