报告题目 Title:神经网络训练特征:从参数凝聚到损失尖峰
报告人 Speaker:周章辰
报告人所在单位 Affiliation:上海交通大学
时间 Time:2025-11-18 15:00-16:00
地点 Venue:光华楼东主楼1801
报告摘要 Abstract:深度学习的成功伴随着一个核心问题:为何过参数化模型依然能获得强大的泛化能力?对神经网络非线性动力学的研究为此提供了关键视角,其中,由小初始化诱导的“凝聚现象” 是非线性动力学中的一个重要特征。我们以两层卷积网络为研究对象,在理论上证明了这类网络在训练初始阶段凝聚现象的发生机制,并且在实验中进行验证。然而,小初始化也存在训练不稳定性的问题,尤其易于引发损失尖峰(loss spike)。我们发现Adam优化器中存在一种由其预条件矩阵导致的尖峰机制:较大的β2使得二阶动量对梯度变化响应迟缓。基于此,我们从理论和实验上将尖峰演化过程刻画为五个阶段,并提出一种基于梯度方向曲率的有效预测器。我们在从小型网络到大规模Transformer的多种模型上验证了该机制,并展示了相应的缓解策略。
个人简介 Bio:周章辰,上海交通大学数学科学学院三年级博士研究生,导师许志钦教授,研究方向为深度学习理论。
海报 Poster:
周章辰 学术报告.jpg
电话 Tel:021-65648958
邮箱 Email:am_admin@fudan.edu.cn
地址 Address:上海市杨浦区湾谷科技园二期D1栋
Building D1, Bay Valley II, Yangpu District, Shanghai, China
邮编 Postcode:200438