参数高效微调 —— 参数选择方法

简介

参数选择方法（Parameter Selection Methods）选择性的对预训练模型中的某个参数子集进行微调。和参数附加方法不同的是，参数选择方法无需向模型添加额外的参数，避免了在推理阶段引入额外的计算成本。通常，参数选择方法分为两类：基于规则的方法和基于学习的方法。

基于规则的方法（Rule-based Methods）

特点：

依赖专家经验或先验知识制定明确的规则。
规则通常是确定性的、可解释性强。
不需要大量训练数据。

典型应用：

BitFit
- 通过仅优化神经网络中的每一层的偏置项（Biases）以及任务特定的分类头来实现参数高效微调。由于偏置项在模型总参数中所占比例极小（约0.08%-0.09%），BitFit 有极高的参数效率。尽管只微调少量参数，BitFiT 依然能在GLUE Benchmark上与全量微调相媲美，甚至在某些任务上表现更好。

优点：

简单、快速、可解释。
在小规模或结构化问题中效果良好。

缺点：

难以适应复杂、动态或高维场景。
泛化能力弱，规则可能过时或不适用于新环境。

基于学习的方法（Learning-based Methods）

特点：

利用数据驱动的方式自动学习最优参数。
通常结合优化算法或机器学习模型。
可适应复杂非线性关系。

典型方法：

网格搜索（Grid Search）、随机搜索（Random Search）
贝叶斯优化（Bayesian Optimization）
进化算法（如遗传算法）
强化学习（用于在线参数调优）
元学习（Learning to learn）或超参数优化（Hyperparameter Optimization）

优点：

自动化程度高，适合高维、复杂问题。
可持续优化，适应新数据或环境。

缺点：

通常需要大量计算资源和训练数据。
可解释性较差（“黑箱”问题）。
存在过拟合风险。

总结对比

维度	基于规则的方法	基于学习的方法
依赖	专家知识/先验规则	数据与学习算法
可解释性	高	通常较低
计算开销	低	较高（尤其深度学习/贝叶斯优化）
适应性	弱（固定规则）	强（可泛化）
典型场景	简单系统、实时控制、嵌入式系统	复杂模型调参、AI系统、大数据场景