本文通过理论分析揭示了数据不平衡如何损害对比学习的表征质量,并提出一种基于幅值的动态剪枝方案,通过增强少数特征的梯度更新来提升长尾分布下的模型性能。
📝 详细摘要
文章针对对比学习在处理现实世界不平衡数据时的局限性,构建了一个基于 Transformer 编码器的理论框架。研究将训练过程分为特征增长、神经元对齐和最终收敛三个阶段,并定量刻画了不平衡如何导致少数特征学习不足、神经元特征混合以及专门化程度降低。为解决此问题,作者提出在训练的前向传播中动态剪除小幅值神经元权重,而在反向传播中保留完整更新。这种机制能有效放大少数特征的梯度贡献,促使更多神经元专门学习稀有特征。实验证明,该方法在 CIFAR 和 ImageNet 等长尾数据集上显著提升了线性探测准确率,并有效缩小了头部与尾部类别的性能差距。
💡 主要观点
- 对比学习的训练动态可划分为三个演进阶段。 第一阶段神经元沿特征方向增长并抑制噪声;第二阶段幸运神经元与主导特征对齐;第三阶段收敛并形成特定特征集合的强弱对齐,最终由主导特征决定表征。
💬 文章金句
- 不平衡会从多个方面削弱表征性能。
- 由于对比学习在神经元专门学习单一特征时效果最佳,数据不平衡会带来三个相互关联的消极影响。
- 剪枝强化了少数特征,使其与其他成分明显区分开来,并推动更多神经元专门化学习该特征。
- 剪枝不仅提升了下游任务的整体性能,同时也缩小了头部类别与尾部类别之间的性能差距。
📊 文章信息
AI 评分:82
来源:机器之心
作者:机器之心
分类:人工智能
语言:中文
阅读时间:12 分钟
字数:2808
标签: 对比学习, 数据不平衡, Transformer, 训练动态, 权重剪枝