不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

📌 一句话摘要

本文通过理论分析揭示了数据不平衡如何损害对比学习的表征质量，并提出一种基于幅值的动态剪枝方案，通过增强少数特征的梯度更新来提升长尾分布下的模型性能。

📝 详细摘要

文章针对对比学习在处理现实世界不平衡数据时的局限性，构建了一个基于 Transformer 编码器的理论框架。研究将训练过程分为特征增长、神经元对齐和最终收敛三个阶段，并定量刻画了不平衡如何导致少数特征学习不足、神经元特征混合以及专门化程度降低。为解决此问题，作者提出在训练的前向传播中动态剪除小幅值神经元权重，而在反向传播中保留完整更新。这种机制能有效放大少数特征的梯度贡献，促使更多神经元专门学习稀有特征。实验证明，该方法在 CIFAR 和 ImageNet 等长尾数据集上显著提升了线性探测准确率，并有效缩小了头部与尾部类别的性能差距。

💡 主要观点

- 对比学习的训练动态可划分为三个演进阶段。 第一阶段神经元沿特征方向增长并抑制噪声；第二阶段幸运神经元与主导特征对齐；第三阶段收敛并形成特定特征集合的强弱对齐，最终由主导特征决定表征。

数据不平衡通过三种机制削弱对比学习的表征质量。 不平衡导致少数特征学习幅度小、神经元倾向于学习混合特征而非单一特征、专门学习单一特征的神经元总数减少，这要求更大的模型规模才能学习所有特征。

动态权重剪枝能有效增强少数特征的学习并缓解性能退化。 剪枝机制在梯度更新中放大了包含少数特征样本的贡献，推动更多神经元专门化学习稀有特征，使少数特征的系数在收敛时能达到与多数特征同阶的规模。

💬 文章金句

- 不平衡会从多个方面削弱表征性能。

由于对比学习在神经元专门学习单一特征时效果最佳，数据不平衡会带来三个相互关联的消极影响。
剪枝强化了少数特征，使其与其他成分明显区分开来，并推动更多神经元专门化学习该特征。
剪枝不仅提升了下游任务的整体性能，同时也缩小了头部类别与尾部类别之间的性能差距。

📊 文章信息

AI 评分：82

来源：机器之心

作者：机器之心

分类：人工智能

语言：中文

阅读时间：12 分钟

字数：2808

标签：对比学习, 数据不平衡, Transformer, 训练动态, 权重剪枝

阅读完整文章

不平衡数据下对比学习的理论分析：从训练动态到剪枝解决方案

🤖 問 AI