上海交大深度学习基础理论团队在机器学习顶刊TPAMI发表最新成果_交大智慧

探索发现 · 交大智慧

上海交大深度学习基础理论团队在机器学习顶刊TPAMI发表最新成果

2024年02月27日责任编辑：刘海彤孙佳

近日，上海交通大学自然科学研究院和数学科学学院的深度学习基础理论团队的许志钦及其学生张众望分析了神经网络中常用的Dropout（随机丢弃）方法的隐式正则化效应，发现其与该团队前期发现的参数凝聚现象有密切联系。深度神经网络常常被称为“黑箱”，该研究是理解深度神经网络的一个重要进展。研究成果Implicit Regularization of Dropout在机器学习和人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence（TPAMI）（IF：23.6）发表。

在神经网络训练中，为了提升泛化能力，Dropout是一种常用的正则化技术。Dropout是图灵奖得主Hinton组在2012年提出的，在每一步训练中随机地丢弃部分神经元。为什么Dropout可以显著提升深度神经网络的泛化能力是一个重要但长期未被解决的问题。该问题的困难源于神经网络自身的高度非线性，以及Dropout算法本身的随机性。面对这个难题，该团队从实验现象出发，将Dropout得到的解与凝聚现象及损失景观平坦性进行结合，从两个角度对Dropout方法提高解的泛化性能做出解释。

具体而言，这项工作首先提出了Dropout的一种隐式正则化的理论推导，并通过一系列实验进行验证。此外，这项工作发现并验证了使用Dropout训练时，神经元的输入权重倾向于在孤立的方向上凝聚。凝聚现象是深度学习基础理论团队发现的一个重要现象，该团队在凝聚现象方向有一系列的工作。凝聚现象是神经网络非线性学习过程中的一个普遍特征，它使网络的有效神经元数目远小于实际神经元数目，从而使得高度复杂的神经网络在保证拟合数据的前提下，仍保持尽可能低的模型复杂度。在前期的实验和理论工作中，明显的参数凝聚现象均要求神经网络的参数初始化很小，但小初始化会使训练很慢。这项研究发现Dropout可以在全训练过程中促使神经网络趋于参数凝聚，并且不要求小初始化，因此，在保持好泛化性的同时也不会遭受由于小初始化带来的训练慢的问题。其次，该研究发现并验证了使用Dropout训练的神经网络与标准梯度下降训练相比，具有更平坦的最小值，而该团队发现的隐式正则化正是训练可以找到平坦解的关键。

这项工作指出了Dropout与随机梯度下降相比的独特特性，并为充分理解Dropout提供了重要的基础。同时，这项工作将凝聚现象与平坦性两种独立概念通过Dropout方法进行联系，解释二者之间的相关性。

许志钦.png

上图提供了Dropout隐式正则化两种效应的简单示例。其中左图展示神经网络学习到的解，右图展示损失函数的一维截面。The figure provides a simple illustration of the two effects of Dropout's implicit regularization. The left image shows the solutions learned by the neural network, and the right image shows a one-dimensional cross-section of the loss function.

本工作的第一作者为张众望，通讯作者为许志钦。许志钦为交大自然科学研究院和数学科学学院双聘的长聘教轨副教授，也是交大致远学院首届2008级理科班的毕业生。张众望是该团队三年级博士生，也是交大2017级致远荣誉计划数学方向的毕业生。

除此以外，该团队的许志钦、罗涛、李雨晴（博士后）、和张众望（学生）通过随机修正方程对含Dropout的梯度下降动力学进行模拟并分析，研究成果Stochastic Modified Equations and Dynamics of Dropout Algorithm被机器学习顶会ICLR2024接收。

目前上海交通大学自然科学研究院和数学科学学院已经形成了一批从事深度学习基础研究的科研人员并发表了一系列相关工作。该团队主要有两个系列工作，分别是频率原则和参数凝聚。其中频率原则的论文获得2021世界人工智能大会青年优秀论文提名奖，他们在关于两层无穷宽的ReLU网络的相图分析中发现参数凝聚现象，并发表在机器学习领域顶刊Journal of Machine Learning Research，他们发现的嵌入原则发表在机器学习领域顶会NeurIPS 2021并被录用为亮点论文等。

关于TPAMI：IEEE TPAMI是人工智能、模式识别、计算机视觉等领域的国际顶尖期刊，2023年度最新发布影响因子为23.6，是目前影响因子最高的CCF A类期刊。该期刊谷歌指数（H-Index）在计算机科学和工程技术两个大类学科里均列首位。IEEE TPAMI以严苛的审稿过程、深刻的理论分析著称，在计算机科学与人工智能领域具有权威影响力。

该研究得到重点研发计划青年科学家项目2022YFA1008200、国家自然科学基金项目92270001、12371511、上海市科技重大专项2021SHZDZX0102的支持，以及上海交通大学思源一号超算、数学科学学院超算中心和学生创新中心的支持。

论文链接：https://ieeexplore.ieee.org/document/10412142

作者：

许志钦

供稿单位：

自然科学研究院